IRAZ - Adaptación Automática de Contenidos a Lectura Fácil
IRAZ
Objetivo del proyecto
IRAZ tiene como objetivo principal la investigación y el desarrollo de una solución de soporte tecnológico para la creación de contenidos de Lectura Fácil. En el marco del proyecto, se desarrollan métodos y sistemas de adaptación y simplificación de textos mediante tecnología de Inteligencia Artificial y modelos de lenguaje. Uno de los objetivos principales del proyecto es facilitar la creación de contenidos de Lectura Fácil de cara a impulsar la accesibilidad a la información para personas con discapacidades lectoras.
Investigación y desarrollo
IRAZ se desarrolla principalmente para casos de uso en castellano y euskera. Al tratarse de un proyecto relacionado con Tecnologías del Lenguaje, se aplican modelos de lenguaje generativos de distintos tipos y tamaños. Se investigan métodos de adaptación mediante prompting zero-shot y few-shot, y mediante fine-tuning eficiente. Se investigan y desarrollan además corpus de textos adaptados a Lectura Fácil para el desarrollo y la evaluación de tecnología en el ámbito.
Tecnologías empleadas
- Large Language Models
- Prompting & fine-tuning
- Corpus alignment & filtering
Sectores de aplicación
El proyecto abarca distintos sectores en base a las necesidades y casos de uso de las empresas del consorcio. Se trabaja en particular sobre la generación de contenidos para creadores de contenidos de Lectura Fácil, expertos en el ámbito.
Socios del proyecto
- Merkatu Interactiva
- Gureak Marketing
- Lantegi Batuak
- Lectura Fácil Euskadi
- Merkatu Digital
- Vicomtech (Coordinador Científico-Tecnológico)
Financiación del proyecto
- Programa Hazitek del grupo SPRI (2022-2024)
Publicaciones relevantes del proyecto
- Thierry Etchegoyhen, Jesús Calleja-Perez, and David Ponce (2023). IRAZ: Easy-to-Read Content Generation via Automated Text Simplification. In SEPLN (Projects and Demonstrations) (pp. 60-65). https://ceur-ws.org/Vol-3516/paper13.pdf
- Jesús Calleja, Thierry Etchegoyhen, and David Ponce. 2024. Automating Easy Read Text Segmentation. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 11876–11894, Miami, Florida, USA. Association for Computational Linguistics. https://aclanthology.org/2024.findings-emnlp.694/
- David Ponce, Thierry Etchegoyhen, Jesús Calleja, and Harritxu Gete. 2024. Split and Rephrase with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11588–11607, Bangkok, Thailand. Association for Computational Linguistics. https://aclanthology.org/2024.acl-long.622/
- Jesús Calleja and Thierry Etchegoyhen (2024). IRLF: A Corpus for Easy Read Text Adaptation. En preparación.
Contacto
Thierry Etchegoyhen – Investigador Principal, Vicomtech – tetchegoyhen@vicomtech.org
¿Buscas apoyo para tu próximo proyecto? Escríbenos, estamos deseando ayudarte.