En la búsqueda de miles de voces que le enseñen a la tecnología a entender y hablar gallego

Vigo TecnolóxicoActualidadEn la búsqueda de miles de voces que le enseñen a la tecnología a entender y hablar gallego

Con el objetivo de generar herramientas de interacción con el mundo digital en lengua gallega

Que una persona gallego parlante pueda interactuar con el mundo digital en su lengua requiere del desarrollo de la tecnología que lo haga posible y, para que esta tecnología entienda y hable gallego, son necesarias grabaciones de voces (datasets), que permiten entrenar a los algoritmos de inteligencia artificial que usan los agentes conversacionales por voz, en dominios como, por ejemplo, la salud o los trámites administrativos, que resultan especialmente necesarios en el caso de las personas mayores o con alguna discapacidad. En un informe que presentaron las investigadoras del Centro de Investigación en Tecnologías de Telecomunicación, AtlanTTic de la UVigo, Carmen García Mateo y Laura Docío Fernández, en el marco de su participación en el proyecto europeo ELE (European Language Equality), se puso de manifiesto que aún queda mucho por hacer para que las tecnologías de la habla en gallego funcionen igual de bien que lo hacen en otras lenguas en las que sí se disponen de muchos recursos,  como por ejemplo el inglés.

Es en este contexto en el que nace falAI, un proyecto desarrollado por AtlanTTic y la empresa Balidea, que tiene el objetivo de recoger voces en gallego que permitan generar herramientas de interacción con el mundo digital en gallego. Con el hashtag #A30frases, el centro de investigación y la empresa procuran la participación del mayor número de personas posible, que de forma anónima, graben su voz leyendo 30 frases, indicadas a través de la plataforma falai.balidea.com, con las que se compondrá un corpus lingüístico que permita entrenar a un asistente conversacional por voz. El proyecto fue presentado públicamente el mediodía del viernes en el edificio Redeiras de la UVigo, en un acto presidido por el alcalde de Vigo, Abel Caballero, y en el que también participaron la vicerrectora de Comunicación y Relaciones Institucionales, Mónica Valderrama; la investigadora principal del proyecto, Laura Docío y el director general de Balidea, Lorenzo Rodríguez.

Valderrama aseguró que «para la institución este proyecto es un auténtico orgullo», además de un ejemplo de la colaboración público-privada y del compromiso de las ingenierías con la lengua. Por su parte, el director general de Balidea se ha referido a falAI como un «hito importante tecnológicamente y por ser en gallego, porque no hay ninguna tecnología en gallego», razón por la que «sumará mucho a la tecnología del habla». Mientras tanto, Abel Caballero felicitó a los promotores de la iniciativa y alentó a las y a los vigueses y viguesas y a los habitantes del área metropolitana y del sur de Galicia en general a participar en el proyecto que permitirá » que el diálogo que estamos manteniendo de forma permanente con las máquinas, responda en nuestra propia lengua y con nuestro propio acento», dijo Abel Caballero.

Voces anónimas, diversas y con finalidad investigadora

«Tenemos el objetivo de conseguir 6000 participantes, cumpliendo además los criterios de que 30 horas de grabación correspondan a personas de más de 50 años; 10 horas correspondan a cada provincia y con un equilibrio de género de 40-60%», explica Laura Docío Fernández, investigadora principal de falAI, del Departamento de Teoría de la Señal y Comunicaciones de la Escuela de Ingeniería de Telecomunicación de la UVigo. Docío, junto a la catedrática del mismo departamento, Carmen García Mateo, y al también investigador y personal del departamento de I+D+i de Balidea, Andrés Piñeiro Martín, conforman el equipo que está desarrollando falAI. «Lo único que deben cumplir las personas que quieran participar en el proyecto es que sean mayores de edad. Cuanta mayor diversidad de voces tengamos, mejor», señala Docío, que indica que las voces se recogerán de forma anónima, «no se recogen datos personales sensibles que puedan identificar a las personas participantes. Además, estas voces estarán disponibles con fines de investigación en el ámbito de las tecnologías del habla», detalla la investigadora de AtlanTTic.

Además de recaudar voces que hablen en gallego, que permitirán generar datasets en este idioma en dominios como la salud o los trámites administrativos, falAI también tiene el objetivo de hacer un estudio que sirva de guía en el diseño y puesta en marcha de agentes conversacionales por voz en lenguas con bajos recursos, con datasets muy limitados en cuanto al número de horas de grabaciones disponibles y a la cantidad de otros recursos lingüísticos. «Un punto importante también es el diseño de estos conjuntos de datos (qué frases grabar, su número, como medir y convalidar la calidad de las grabaciones de forma automática…) para poder entrenar a los algoritmos de aprendizaje que usan los agentes conversacionales por voz y utilizarlos en escenarios con pocos recursos, como pueden ser lenguas minoritarias como el croata, danés, checo, búlgaro…», explica Laura Docío.

Los orígenes del Proyecto

El proyecto falAI se enmarca dentro de la colaboración que las investigadoras de AtlanTTic, Laura Docío y Carmen García Mateo tienen en marcha con la empresa Balidea desde hace dos años y que se formalizó con la concesión de una ayuda de la Xunta de Galicia para el desarrollo de la tesis doctoral de Andrés Piñeiro en el campo de los agentes conversacionales por voz en gallego, en particular en aplicaciones donde la población objetivo sea gente mayor.

El equipo de investigación, conformado por personal de Balidea y las investigadoras de la UVigo, también alcanzó 22.500€ de financiación en una convocatoria abierta del proyecto europeo European Language Equality-ELE para la contribución en la Strategic research, innovation and implementation agenda for achieving full digital language equality in Europe by 2030 (SRIA). En la convocatoria se seleccionaron nueve proyectos y uno de ellos fue el presentado por Balidea, en el que forma parte del equipo de trabajo la UVigo, titulado Building E2E spoken-language understanding systems for virtual assistants in low-resources scenarios. «El proyecto tiene como uno de sus objetivos la realización de un estudio sobre el diseño y puesta en marcha de agentes conversacionales por voz en lenguas de bajos recursos lingüísticos. La experiencia ganada con falAI es fundamental para la realización de este estudio», explica Docío.

 

Fuente: DUVI