Vicomtech-IK4, Euskal Irrati Telebista eta MondragonLinguak euskararen itzulpen automatikoan aurrera egin dute
09.01.2017
Milioi erdi esaldi baino gehiago dituen corpus-a partekatu dute
Garapen honekin hiru erakundeek euskara eta erdarazko albisteen lehen corpus elebiduna sortu dute. Oinarrizko baliabidea izango da hau bi hizkuntzen arteko itzulpen automatikorako sistemen garapenean.
Albisteen corpusa osatzen duten gaien aniztasunei eta hauen bolumenei esker euskararako itzulpen automatikoaren kalitatearen hobetze nabarmena emango da. Milioi erdi esaldi-parea baino gehiagok osatzen dute, bi hizkuntzetan, eta politika nazional eta nazioartekoa, kultura eta kirolak gaiak, besteak beste, jorratzen ditu.
Baliabide hau bi hizkuntzetako albisteetan antzeko esaldien bilaketa automatikorako metodo berritzaileekin osatu da eta Eusko Jaurlaritzako Lehiakortasun eta Garapen Sailak finantzatutako I+G proiektuen baitan garatu da (GAITEK eta HAZITEK programak). Era berean, nabarmentzekoa da ere sortutako corpus-a META-SHARE baliabide linguistikoen Europako sarean partekatu dela.
MondragonLingua, EiTB eta Vicomtech-IK4k interes berezia dute emaitza hau komunitatearekin partekatzen euskararen itzulpen automatikoarekin lotutako ikerkuntza eta garapena bultzatzeko.