IRAZ - Edukien Egokitzapen Automatikoa Irakurketa Errazera
IRAZ
Proiektuaren helburua
IRAZen helburu nagusia da Irakurketa Errazeko edukiak sortzeko euskarri teknologikoko soluzio bat ikertzea eta garatzea. Proiektuaren esparruan, testuak egokitzeko eta sinplifikatzeko metodoak eta sistemak garatzen dira, adimen artifizialeko teknologiaren eta hizkuntza-ereduen bidez. Proiektuaren helburu nagusietako bat Irakurketa Errazeko edukiak sortzen laguntzea da, irakurtzeko urritasunak dituzten pertsonentzat informazioa eskuragarri egon dadin bultzatzeko.
Ikerketa eta garapena
IRAZ nagusiki euskaraz eta gaztelaniaz erabiltzen den kasuetan garatzen da. Hizkuntzaren teknologiekin lotutako proiektua denez, hainbat motatako eta tamainatako hizkuntza-eredu sortzaileak aplikatzen dira. Egokitzapen-metodoak ikertzen dira, prompting zero-shot eta few-shot bidez, eta fine-tuning efizientearen bidez. Gainera, Irakurketa Errazera egokitutako testuen corpusa ikertzen eta garatzen da, eremuan teknologia garatzeko eta ebaluatzeko.
Erabilitako teknologiak
- Large Language Models
- Prompting & fine-tuning
- Corpus alignment & filtering
Aplikazio-sektoreak
Proiektuak hainbat sektore hartzen ditu barne, partzuergoko enpresen beharren eta erabilera-kasuen arabera. Bereziki, Irakurketa Errazeko edukien egileentzako eta esparruan adituak diren profesionalentzako edukien sorreran lan egiten da.
Proiektuko bazkideak
- Merkatu Interactiva
- Gureak Marketing
- Lantegi Batuak
- Lectura Fácil Euskadi
- Merkatu Digital
- Vicomtech (Koordinatzaile Zientifiko-Teknologikoa)
Proiektuaren finantzaketa
- SPRI taldearen Hazitek programa (2022-2024)
Proiektuaren argitalpen garrantzitsuak
- Thierry Etchegoyhen, Jesús Calleja-Perez, and David Ponce (2023). IRAZ: Easy-to-Read Content Generation via Automated Text Simplification. In SEPLN (Projects and Demonstrations) (pp. 60-65). https://ceur-ws.org/Vol-3516/paper13.pdf
- Jesús Calleja, Thierry Etchegoyhen, and David Ponce. 2024. Automating Easy Read Text Segmentation. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 11876–11894, Miami, Florida, USA. Association for Computational Linguistics. https://aclanthology.org/2024.findings-emnlp.694/
- David Ponce, Thierry Etchegoyhen, Jesús Calleja, and Harritxu Gete. 2024. Split and Rephrase with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11588–11607, Bangkok, Thailand. Association for Computational Linguistics. https://aclanthology.org/2024.acl-long.622/
- Jesús Calleja and Thierry Etchegoyhen (2024). IRLF: A Corpus for Easy Read Text Adaptation. Prestatzen.
Kontaktua
Thierry Etchegoyhen – Ikertzaile nagusia, Vicomtech – tetchegoyhen@vicomtech.org
Zure hurrengo proiekturako kide bila zabiltza? Idatz iezaguzu, laguntzeko irrikan gaude.