La gestión de los datos referidos la personas afectadas por la covid-19 ha sido fruto de constante polémica a lo largo de la pandemia. Teniendo en cuenta esta circunstancia, surgió la plataforma EsCovid19data, “un proyecto colaborativo de varias personas voluntarias que tratan de recoger, organizar y publicar en un único lugar la información epidemiológica de la covid-19 a nivel provincial”. En ella, el profesor de la Escuela Superior de Ingeniería Informática del campus de Ourense Daniel González se encarga de gestionar diariamente los datos relativos a Galicia.
Con este proyecto, explica González Peña, “se busca que la información esté en uno único punto y sea fácilmente procesable (en formato estructurado, como hoja de cálculo), para que cualquier persona, como periodistas, científicos o público en general, pueda conocerlos y utilizarlos para hacer sus análisis”. Cada administración, recuerda el investigador del Grupo Sing (Next Generation Computer Systems), publica los datos referidos a la pandemia “de una forma diferente, muchas veces en formatos no estructurados, como notas de prensa, en formato web o pdfs, siendo necesario un arduo trabajo de recopilación y estruturación diarios”. En este marco de trabajo, comenta, su participación en esta iniciativa consiste en estructurar datos para la comunidad autónoma gallega. “Publico por mi cuenta un repositorio abierto con los datos de la covid-19 relativos a Galicia, gracias sobre todo a la información que me facilitan desde el Servicio de Comunicación del área Sanitaria de Ourense, Verín y O Barco de Valdeorras, y desde EsCovid19data se recogen mis datos”, detalla el ingeniero informático.
En la actualidad, los datos del repositorio relativos a Galicia tienen como fuente a Consellaría de Sanidade, “que proporciona datos a nivel global de la comunidad autónoma de Galicia y únicamente de casos activos por área sanitaria”; de la Gerencia del área Sanitaria de Ourense, Verín y O Barco de Valdeorras (Sergas), que suministra datos detallados de Ourense y del resto de áreas sanitarias, y del Instituto de Salud Carlos III, que ofrece la serie de casos confirmados por PCR por fecha de inicio de síntomas a nivel provincial. En los diferentes ficheros las personas interesadas pueden consultar series históricas y datos actualizados, del conjunto de Galicia, de sus cuatro provincias y de sus áreas sanitarias, referidos a casos diagnosticados, fallecidos y altas, entre otros temas.
Una gestión relevante
Apasionado del tratamiento automático de información, sobre todo en temas de salud, Daniel González señala como durante la crisis “comencé a publicar mis análisis informales en Twitter. Uno de ellos tuvo cierta repercusión, debido a que hice una especie de predicción de la seroprevalencia a nivel autonómico antes de que se publicaran los estudios con tests de anticuerpos que se ajustó mucho”. A través del ingeniero Kiko Llaneras y su equipo,el investigador ourensano conoció posteriormente la existencia de EsCovid19data y, ante la falta de datos de Galicia en esta plataforma, comenzó su colaboración en este proyecto.
Sobre la importancia de la gestión de datos, Daniel González recuerda cómo “es fundamental”. Así, recalca, “muchísimas preguntas que tenemos del virus se están respondiendo con análisis sobre datos, como: ¿cuál es la letalidad del virus?, ¿están funcionando las medidas que se están tomando? o ¿afecta por igual en todos los sitios?. En este sentido, añade, “los datos brutos, desglosados en la medida del posible, en formato estructurado y de acceso abierto son la materia prima para poder responder a las muchas preguntas que nos permiten afrontar mejor esta crisis”
Durante la crisis de la covid-19, comenta el profesor de la Universidad de Vigo, han surgido “dos problemas fundamentales relativos a la gestión de datos”. Por un lado, apunta, está “la propia naturaleza de los datos que se proporcionan”, recordando cómo “fueron muy polémicas algunas roturas de series históricas, como la de casos nuevos cuando se empezaron a incluir los casos diagnosticados con los tests de anticuerpos (a mayores de la PCR), o, más recientemente, la serie de fallecidos, que lleva varios días sin actualizarse. Ya más cerca de nosotros, también tuvo mucha repercusión el desglose de altas que el Sergas hizo público en un sólo día”. Estos problemas, detalla Daniel González, “pueden tener justificación en la dificultad de obtener los datos, de coordinar administraciones, de correcciones o de cambios de criterio que hacen que ahora sea mejor recoger los datos de otra forma”. Sin embargo, y por otro lado, añade “están los problemas derivados del formato y la apertura de los datos en si mismos, que no tienen tanta justificación”. “Un proyecto como EsCovid19data no debería tener que existir”, indica el investigador señalando en este sentido como desde EsCovid19data se promociona un manifiesto en favor de un mejor acceso a la información de la covid-19.