Sònia Torreblanca, Premi al Millor TFM 2021: 'És un esforç d'unificació, comparació, síntesi i ampliació que pretén esdevenir una eina d'ajuda per a la comunitat professional'

Sònia Torreblanca

La titulada Sònia Torreblanca tenia clar que volia fer el seu TFM sobre un tema molt present: la qualitat de les dades. El seu treball ha estat guardonat amb el Premi al Millor Treball de Final de Màster 2021 de l’ESAGED i l’Associació de Professionals de l’Arxivística i la Gestió de Documents de Catalunya. Pendent de publicar-se, l’estudi fa una proposta teòrica sobre quines propietats de qualitat hauria de tenir les dades obertes i, a més, ofereix una eina metodològica perquè les organitzacions amb open data puguin avaluar-ne el nivell de qualitat.

28/01/2022

•    Per què vas decidir estudiar el Màster Oficial en Arxivística i Gestió Documental a l’ESAGED?

Després d’acabar la llicenciatura d’Història a la UB, vaig començar a treballar en una empresa dins l’àmbit d’administració. Allà em van sorgir qüestions relacionades amb la gestió dels documents que abans ni m’havia plantejat. Arran d’aquests dubtes, vaig començar a cercar informació sobre arxivística i gestió documental i, entre altres aspectes, sobre l’oferta formativa tant presencial com online dins d’aquest àmbit. Em vaig decidir pel Màster de l’ESAGED, primerament, perquè és una formació molt completa que té en compte tant documents en suport paper com documents electrònics. En segon lloc, perquè hi ha possibilitat de pràctiques remunerades des del primer curs, i a més hi ha un alt grau d’inserció laboral entre els titulats. I, en darrer terme, perquè és un màster oficial, no propi, que dóna accés al Doctorat en Història Comparada, Política i Social de la UAB. 

•    Quines han estat les teves experiències de pràctiques? 

Durant el Màster vaig realitzar dues estades de pràctiques: primer, a l’Arxiu Municipal del Districte de les Corts, a l'Ajuntament de Barcelona. I, en segon lloc, a AGTIC Consulting, que és una empresa especialitzada en la prestació de serveis de consultoria relacionats amb la implementació de l’Administració electrònica, la gestió de l’expedient i el document electrònic, la millora i simplificació de processos, i la seguretat de la informació. Actualment, continuo treballant a AGTIC, ja no com a estudiant en pràctiques, sinó com a consultora especialitzada en arxivística i gestió documental.

•    El teu Treball de Fi de Màster ha estat el guanyador del Premi al Millor Treball de Recerca 2021 de l’ESAGED i l’AAC. Com valores el fet que es faci aquest tipus de reconeixement des del sector arxivístic a la recerca duta a terme pels estudiants?

Valoro molt positivament la iniciativa impulsada des de l’AAC i l’ESAGED atès que, d’una banda, incentiva la qualitat i l’originalitat dels treballs finals de màster i, d’altra banda, afavoreix la promoció i difusió de les millors recerques.

•    Què els hi recomanaries als estudiants actuals del Màster que vulguin presentar els seus treballs al Premi?

En primer lloc, els recomano que sigui un tema que els agradi i els motivi, ja que hauran d’estar moltes hores investigant sobre allò. I, en segon lloc, intentar anar més enllà... fer-se preguntes i tenir curiositat.

•    En el teu cas, per quin motiu vas decidir dedicar el teu Treball de Fi de Màster a les dades obertes?

Tenia clar que volia centrar el meu treball en la qualitat de les dades. D’una banda, és un àmbit del qual se’n parla molt, també de la societat datificada. Tenia interès en aquest àmbit, tant abstracte i poc estudiat en el meu camp, i veure què podia aportar. Es parteix de la idea que les dades, els documents i la informació són conceptes interconnectats i que no se’n pot prescindir de cap, tal com apunta recentment la norma UNE-ISO 30300:2021. A partir d’aquesta consideració, doncs, vaig decidir focalitzar l’objecte d’estudi en les dades, i concretament en les dades obertes, a fi de traspassar els límits que tradicionalment s’ha imposat la disciplina i contribuir al desenvolupament del què s’ha anomenat “Arxivística de les dades” (Soler, 2014).

•    Per què es considera que les dades són el nou petroli dins la societat de la informació?

Les dades s’equiparen al nou petroli perquè es conceben com el combustible o el motor del creixement econòmic del segle XXI. L’obertura de les dades obertes, per exemple, és una iniciativa que té com a finalitat potenciar el desenvolupament econòmic i afavorir la creació de nous serveis i productes a partir de la reutilització d’aquestes dades. Des del meu parer, aquesta afirmació em sembla simplista perquè redueix la importància de la gestió i explotació de dades només a consideracions econòmiques. Nosaltres, però, hem de ser capaços d’anar més enllà d’això i, com diuen alguns professors que he tingut al Màster, “refinar” aquest petroli.

•    Garantir que les dades siguin de qualitat.

Una bona gestió i explotació de les dades permet, en el cas d’una empresa, millorar en el procés de presa de decisions. Això, però, ho podem extrapolar a la societat: si tenim dades de qualitat sobre la gestió dels serveis públics i els recursos ens ajuda, d’una part, a tenir més coneixement i transparència i, de l’altra, prendre millors decisions. És important vetllar per la qualitat de totes les dades des de l’inici del cicle de vida d'aquestes, no només de les dades que finalment es publiquen en portals de dades obertes. Tot i que l’escenari ideal és que s’estableixi algun punt de control en l’origen abans de la captura formal de les dades, la realitat és que en alguns casos no es vetlla per la qualitat de les dades des de la seva creació i/o recollida i, per tant, és necessari disposar d’eines que avaluïn les dimensions de qualitat en algun punt del sistema, que en aquest cas seria en la sortida. Els resultats de les mesures haurien de retornar com a informació al mateix sistema a fi d’aplicar, si s’escau, les mesures necessàries per a la millora de la qualitat. 

•    Una de les aportacions del teu treball és la creació d’una eina metodològica que poden utilitzar organitzacions i entitats per avaluar el nivell de qualitat de les seves dades obertes. 

Sí, el que aporta aquesta recerca és un esforç d’unificació, comparació, síntesi i ampliació que pretén esdevenir una eina d’ajuda per a la comunitat professional. El meu treball ha consistit en la creació d’un model de qualitat de dades obertes conformat per diferents eixos. I un d’aquests eixos és el model metodològic, que ha de permetre a les entitats avaluar el seu nivell de qualitat amb relació a les seves dades obertes. A mesura que investigava més sobre el tema, vaig veure la necessitat real de crear un model unificat davant les problemàtiques que havia observat: pluralitat de propostes, termes diferents amb significats similars, diversitat de definicions, etc. Aquesta eina està formada per un conjunt de mètriques i indicadors per avaluar cada una de les propietats de qualitat que s’han identificat al treball i, en última instància, ha de permetre obtenir el valor total de la qualitat dels datasets i de les seves metadades. 

•    El teu treball està pendent de publicació, però, què podries anticipar sobre les teves conclusions respecta les propietats de qualitat que han de tenir les dades obertes?

Puc dir que la qualitat en les dades obertes és multidimensional. És a dir, hi ha diferents propietats per mesurar que hem de tenir en compte perquè s’interrelacionen. 

•    És un model molt complet i integrador perquè és multidisciplinari. Per què?

El treball no només parteix del camp de l’arxivística i la gestió de documents, sinó que integra altres disciplines, tal com la gestió de dades. Es parteix de la idea que la integració del corpus teòric i metodològic de diferents disciplines, que comparteixen una problemàtica comuna, permet millorar l’aproximació a l’objecte d’estudi i, conseqüentment, ampliar teories i mètodes de cada àmbit. En aquest sentit, i seguint la tesi de Victoria Lemieux et al. (2018) aplicat al camp de la ciència arxivística computacional, trobem que en combinar diverses ciències en un àmbit d’investigació comú es pot avançar molt més en la recerca, que no pas si cada una d’aquestes disciplines treballa pel seu compte. 

•    Al treball també has posat a prova la teva proposta metodològica amb dos repositoris de dades públics: el dataset dels codis postals dels municipis de Catalunya i el conjunt de Comissaries del Portal de Dades Obertes dels Mossos d’Esquadra. Quina conclusió n’has tret amb aquesta prova? 

Sí, el model de qualitat de dades obertes s’havia de provar i era necessari realitzar una prova de concepte perquè és un pas necessari dins el mateix procés de desenvolupament del model. Per fer aquesta validació experimental, vaig seleccionar dos datasets que ja a simple vista presentaven diferències de qualitat. Per exemple, un aportava més metadades i seguia l’estàndard de la guia tècnica de la Generalitat, on destaca la incorporació de metadades relacionades amb les columnes, mentre que l’altre era més pobre, atès que s’informava de menys metadades i no hi havia informació relativa al significat de cada un dels atributs. Amb els resultats obtinguts he pogut constatar que el model proposat s’ajusta a la realitat i funciona, atès que els resultats recullen aquestes diferències de qualitat. Així doncs, la prova de concepte ha permès validar el model de qualitat de dades obertes.

•    El següent pas és mesurar l’aplicabilitat d’aquesta eina a una institució. Quin és el tipus d’institució ideal per fer aquesta verificació?

Sí, un cop avaluada l’aplicabilitat del model amb la prova de concepte, el següent pas és mesurar l’aplicabilitat de l’eina en una organització que ja es trobi en una fase avançada de transformació digital. És a dir, ha de ser una institució que faci temps que hagi emprès una estratègia de transformació digital, passant d’una Administració en paper a una electrònica, i que vulgui donar un pas més dins aquest context avaluant les dimensions de qualitat de les dades obertes. 

•    En l’àmbit internacional, hi ha esforços per garantir la qualitat de l’open data? 

Si ens centrem en l’àmbit europeu, que és el que més he investigat, crec que a nivell general hi ha una preocupació per a garantir certes dimensions de qualitat dels conjunts de dades que es publiquen. N’és un exemple el fet de disposar d’un perfil d’aplicació de DCAT per als portals de dades europeus (DCAT-AP), que té com a finalitat estandarditzar les descripcions dels catàlegs i datasets. Això contribueix a la millora d’algunes propietats de qualitat relacionades amb la normalització i la interoperabilitat semàntica. A Espanya i Catalunya, trobem manuals elaborats que tenen com a objectiu contribuir a la millora de la qualitat dels datasets publicats i esdevenir una guia d’ajuda per a les iniciatives open data noves. Com a exemples podem destacar el “Manual Práctico para mejorar la calidad de los Datos Abiertos dins la iniciativa APORTA (2017) o el “Manual del portal de dades obertes i recursos pels ens locals” del Consorci AOC (2020) en el qual hi ha una secció dedicada a la normalització de dades.