Sònia Torreblanca, Premio al Mejor TFM 2021: 'Es un esfuerzo de unificación, comparación, síntesi y ampliación que pretende ser una herramienta de ayuda para la comunidad profesional'

Sònia Torreblanca

La titulada Sònia Torreblanca tenía claro que quería hacer su TFM sobre un tema muy presente: la calidad de los datos. Su trabajo ha sido galardonado con el Premio al Mejor Trabajo de Fin de Máster 2021 de la ESAGED y la Asociación de Profesionales de la Archivística y la Gestión de Documentos de Cataluña. Pendiente de publicarse, el estudio hace una propuesta teórica sobre qué propiedades de calidad deberían tener los datos abiertos y, además, ofrece una herramienta metodológica para que las organizaciones con open data puedan evaluar su nivel de calidad.

28/01/2022

Después de acabar la licenciatura de Historia en la UB, empecé a trabajar en una empresa dentro del ámbito de administración. Allí me surgieron cuestiones relacionadas con la gestión de los documentos que antes ni me había planteado. A raíz de estas dudas, empecé a buscar información sobre archivística y gestión documental y, entre otros aspectos, sobre la oferta formativa tanto presencial como en línea dentro de este ámbito. Me decidí por el Máster de la ESAGED, primeramente, porque es una formación muy completa que tiene en cuenta tanto documentos en soporte de papel como documentos electrónicos. En segundo lugar, hay posibilidad de prácticas remuneradas desde el primer curso, y además hay un alto grado de inserción laboral entre los titulados. Y en último término porque es un máster oficial, no propio, que da acceso al Doctorado en Historia Comparada, Política y Social de la UAB.

  • ¿Cómo han sido tus experiencias de prácticas?

Durante el Máster realicé dos estancias de prácticas: primero, en el Archivo Municipal del Distrito de Les Corts, en el Ayuntamiento de Barcelona. Y, en segundo lugar, en AGTIC Consulting, que es una empresa especializada en la prestación de servicios de consultoría relacionados con la implementación de la Administración electrónica, la gestión del expediente y el documento electrónico, la mejora y simplificación de procesos, y la seguridad de la información. Actualmente, continúo trabajando en AGTIC, ya no como estudiante en prácticas, sino como consultora especializada en archivística y gestión documental.

Valoro muy positivamente la iniciativa impulsada desde la AAC y la ESAGED dado que, por un lado, incentiva la calidad y la originalidad de los trabajos finales de máster y, por otro lado, favorece la promoción y difusión de las mejores investigaciones.

  • ¿Qué les recomendarías a los estudiantes actuales del Máster que quieran presentar sus trabajos a este Premio?

En primer lugar, les recomiendo que sea un tema que les guste y les motive, puesto que tendrán que estar muchas horas investigando en ello. Y, en segundo lugar, intentar ir más allá... hacerse preguntas y tener curiosidad.

  • En tu caso, ¿por qué motivo decidiste dedicar tu Trabajo de Fin de Máster a los datos abiertos?

Tenía claro que quería centrar mi trabajo en la calidad de los datos. Por un lado, es un ámbito del cual se habla mucho, también de la sociedad datificada. Tenía interés en este ámbito, tan abstracto y poco estudiado en mi campo, y ver qué podía aportar. Se parte de la idea que los datos, los documentos y la información son conceptos interconexionados y que no se puede prescindir de ninguno, tal como apunta recientemente la norma UNE-ISO 30300:2021. A partir de esta consideración, pues, decidí focalizar el objeto de estudio en los datos, y concretamente en los datos abiertos, a fin de traspasar los límites que tradicionalmente se ha impuesto la disciplina y contribuir al desarrollo del que se ha denominado “Archivística de los datos” (Soler, 2014).

  • ¿Por qué se considera que los datos son el nuevo petróleo dentro de la sociedad de la información?

Los datos se equiparan al nuevo petróleo porque se conciben como el combustible o el motor del crecimiento económico del siglo XXI. La apertura de los datos abiertos, por ejemplo, es una iniciativa que tiene como finalidad potenciar el desarrollo económico y favorecer la creación de nuevos servicios y productos a partir de la reutilización de estos datos. Desde mi punto de vista, esta afirmación me parece simplista porque reduce la importancia de la gestión y explotación de datos solo a consideraciones económicas. Nosotros, aun así, tenemos que ser capaces de ir más allá de esto y, como dicen algunos profesores que he tenido en el Máster, “refinar” este petróleo.

  • Garantizar que los datos sean de calidad.

Una buena gestión y explotación de los datos permite, en el caso de una empresa, mejorar en el proceso de toma de decisiones. Pero esto lo podemos extrapolar a la sociedad: si tenemos datos de calidad sobre la gestión de los servicios públicos y los recursos nos ayuda, de una parte, a tener más conocimiento y transparencia y, de la otra, tomar mejores decisiones. Es importante velar por la calidad de todos los datos desde el inicio del ciclo de vida de estas, no solo de los datos que finalmente se publican en portales de datos abiertos. Aunque el escenario ideal es que se establezca algún punto de control en el orígen antes de la captura formal de los datos, la realidad es que en algunos casos no se vela por la calidad de los datos desde su creación y/o recogida y, por lo tanto, es necesario disponer de herramientas que evalúen las dimensiones de calidad en algún punto del sistema, que en este caso seria en la salida. Los resultados de las medidas tendrían que devolver como información al mismo sistema a fin de aplicar, si se tercia, las medidas necesarias para la mejora de la calidad.

  • Una de las aportaciones de tu trabajo es la creación de una herramienta metodológica que pueden utilizar organizaciones y entidades para evaluar el nivel de calidad de sus datos abiertos.

Sí, lo que aporta esta investigación es un esfuerzo de unificación, comparación, síntesis y ampliación que pretende acontecer una herramienta de ayuda para la comunidad profesional. Mi trabajo ha consistido en la creación de un modelo de calidad de datos abiertos conformado por diferentes ejes. Y uno de estos ejes es el modelo metodológico que tiene que permitir a las entidades evaluar su nivel de calidad con relación a sus datos abiertos. A medida que investigaba más sobre el tema, vi la necesidad real de crear un modelo unificado ante las problemáticas que había observado: pluralidad de propuestas, términos diferentes con significados similares, diversidad de definiciones, etc. Esta herramienta está formada por un conjunto de métricas e indicadores para evaluar cada una de las propiedades de calidad que se han identificado en el trabajo y, en última instancia, tiene que permitir obtener el valor total de la calidad de los datasets y de sus metadatos.

  • Tu trabajo está pendiente de publicación, pero, ¿qué podrías anticipar sobre tus conclusiones respecto a las propiedades de calidad que tienen que tener los datos abiertos?

Puedo decir que la calidad en los datos abiertos es multidimensional. Es decir, hay diferentes propiedades para mesurar que tenemos que tener en cuenta porque se interrelacionan.

  • Es un modelo muy completo e integrador porque es multidisciplinario. ¿Por qué?

El trabajo no solo parte del campo de la archivística y la gestión de documentos, sino que integra otras disciplinas, tal como la gestión de datos. Se parte de la idea de que la integración del corpus teórico y metodológico de diferentes disciplinas, que comparten una problemática común, permite mejorar la aproximación al objeto de estudio y, consecuentemente, ampliar teorías y métodos de cada ámbito. En este sentido, y siguiendo la tesis de Victoria Lemieux et al. (2018) aplicado en el campo de la ciencia archivística computacional, encontramos que al combinar varias ciencias en un ámbito de investigación común se puede avanzar mucho más en la investigación, en lugar de que cada una de estas disciplinas trabaje por su cuenta.

Sí, el modelo de calidad de datos abiertos se tenía que probar y era necesario realizar una prueba de concepto porque es un paso necesario dentro del mismo proceso de desarrollo del modelo. Para hacer esta validación experimental, seleccioné dos datasets que ya a simple vista presentaban diferencias de calidad. Por ejemplo, uno aportaba más metadatos y seguía el estándar de la guía técnica de la Generalitat, donde destaca la incorporación de metadatos relacionados con las columnas, mientras que el otro era más pobre, ya que se informaba de menos metadatos y no había información relativa al significado de cada uno de los atributos. Con los resultados obtenidos he podido constatar que el modelo propuesto se ajusta a la realidad y funciona, dado que los resultados recogen estas diferencias de calidad. Así pues, la prueba de concepto ha permitido validar el modelo de calidad de datos abiertos.

  • El siguiente paso es mesurar la aplicabilidad de esta herramienta a una institución. ¿Cuál sería el tipo de institución ideal para hacer esta verificación?

Sí, una vez evaluada la aplicabilidad del modelo con la prueba de concepto, el siguiente paso es mesurar la aplicabilidad de la herramienta. Podría ser cualquier organización que ya se encuentre en una fase avanzada de transformación digital. Es decir, tiene que ser una institución que haga tiempo que haya emprendido una estrategia de transformación digital, pasando de una Administración en papel a una electrónica, y que quiera dar un paso más dentro de este contexto evaluando las dimensiones de calidad de los datos abiertos.

  • En el ámbito internacional, ¿hay esfuerzos para garantizar la calidad del open data?

Si nos centramos en el ámbito europeo, que es el que más he investigado, creo que en el ámbito general hay una preocupación para garantizar ciertas dimensiones de calidad de los conjuntos de datos que se publican. Un ejemplo es el hecho de disponer de un perfil de aplicación de DCAT para los portales de datos europeos (DCAT-AP), que tiene como finalidad estandarizar las descripciones de los catálogos y datasets. Esto contribuye a la mejora de algunas propiedades de calidad relacionadas con la normalización y la interoperabilidad semántica. En España y Cataluña, encontramos manuales elaborados que tienen como objetivo contribuir a la mejora de la calidad de los datasets publicados y ser una guía de ayuda para las iniciativas open data nuevas. Como ejemplos podemos destacar el “Manual Práctico para mejorar la calidad de los Datos Abiertos” dentro de la iniciativa APORTA (2017) o el “Manual del portal de datos abiertos y recursos por los entes locales” del Consorcio AOC (2020) en el cual hay una sección dedicada a la normalización de datos.