Orai NLP Teknologiak, Elhuyarren adimen artifizialeko zentroak, Llama-eus-8B hizkuntza eredu neuronal berria garatu du (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko, eta beste hainbat tresnetarako ere erabiliko da, hala nola txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak edota edukiak sortzeko sistemak.

Zentroko iturriek jakinarazi dutenez, Llama-eus-8B sortze-eredua da, alegia, adimen artifizial sortzailearen edo txatbot ezagunen oinarritzat erabiltzen den eredua. Sortze-eredu arinen esparruan, hots, 10.000 milioi parametro baino gutxiagokoetan, euskararentzako eredurik aurreratuena da. Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa erraztu asmoz, Llama-eus-8B libreki eskuratzeko moduan jarri dute. Eredua BasqueLLM ikerketa proiektuaren babesean garatu da, eta Gipuzkoako Foru Aldundiak partzialki finantzatu du proiektua, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bitartez.

Orai zentroak Llama-eus-8B oinarritzat erabiliko du, euskara ulertzeko eta sortzeko gaitasun sakona eskatzen duten zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak. Xabier Saralegi Oraiko hizkuntza teknologien arduradun eta BasqueLLM proiektuaren ikertzaile nagusiaren hitzetan, “gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari gara, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategien bila gabiltza”. Llama-eus-8B garatzeko, Meta-ren Llama3.1-8B eredu berriena erabili da oinarrizko eredutzat (8.000 milioi parametroko kode irekiko eredua). Hizkuntza eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu da, oso testu bilduma handia erabiliz (15 bilioi hitz), gehienak ingelesez, eta oso eraginkorra da hizkuntza horretan (baita beste hizkuntza nagusi batzuetan ere), hizkuntza gaitasunak eskatzen dituzten atazak automatizatzeko. Hala ere, euskarazko errendimendua nahikoa mugatua da.

Euskarazko testu bilduma erraldoirik ez dagoenez, eta euskararentzat halako eredu bat hutsetik entrenatzeko beharrezkoak diren eskakizun konputazionalak oso handiak direnez, “Llama3.1-8B-tik abiatzea erabaki dugu, jada oinarri sendoa duelako”. “Helburua, ikasketa automatikoko algoritmoen bitartez, ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea izan da, euskarazko testu-bilduma bat erabiliz”, azaldu du Saralegik.

Beste datu batzuk

Horretarako, Oraik duela hilabete batzuk bildutako ZelaiHandi corpusa erabili da, lizentzia libreko eta kalitate handiko soilik euskarazko edukia biltzen duen corpusik handiena. Ingelesaren eta euskararen arteko gaitasunen transferentzia hobetzeko, ZelaiHandiko testuak ingelesezko testuekin uztartu dira. Hala, Ander Corral Oraiko ikertzaileak adierazi duenez, “ereduak ingelesezko ezagutza mantentzea lortu dugu, bai eta, aldi berean, euskararen ulermena hobetzea ere, jatorrizko entrenamenduan ingeleserako ikasitakoa eraginkortasunez berrerabiliz”. Ereduaren entrenamendurako, Donostia International Physics Centerreko (DIPC) superkonputazio zentroko Hyperion sistema erabili dute. Euskarazko 11 ataza kontuan hartzen dituen proba banku zabal batean ebaluatu dute eredua, zeinetan hizkuntza gaitasun formalak (gramatika eta hiztegia zuzen erabiltzea) eta funtzionalak (hizkuntza testuinguru errealetan ulertzeko eta erabiltzeko gaitasuna) erabili baitira: eskola azterketak, arazoen ebazpena, hainbat gairi buruzko galdeketak, iritzi azterketa eta abar burutu dituzte. “Ebaluazioaren emaitzek erakutsi dutenez, Llama-eus-8B da, gaur egun eskuragarri dauden euskarazko sortze-eredu arinen artean, emaitzarik onenak ematen dituena (10.000 milioi parametrotik beherakoetan); beraz, oso baliabide baliotsua euskarazko hizkuntza gaitasunak behar dituzten adimen artifizialeko sistemak garatu ahal izateko. Zenbait atazatan, eredu askoz handiagoetan baino emaitza lehiakorragoak ematen ditu. Nolanahi ere, emaitzak ingeleseko emaitzetatik gero eta hurbilago egon arren, oraingoz euskarazko errendimendua ingelesekoa baino askoz txikiagoa da”, ondorioztatu dute. l

Xehetasunez

Informazioa. Zentroko iturriek jakinarazi dutenez, Llama-eus-8B sortze-eredu bat da; alegia, adimen artifizial sortzailearen edo txatbot ezagunen oinarritzat erabiltzen den eredu mota. Sortze-eredu arinen esparruan, hots, 10.000 milioi parametro baino gutxiagokoetan, euskararentzat dagoen eredurik aurreratuena. Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B libreki eskuratzeko moduan jarri dute. Eredua BasqueLLM ikerketa proiektuaren baitan garatu da, eta Gipuzkoako Foru Aldundiak partzialki finantzatu du proiektua, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bitartez.

Datuak. Llama-eus-8B garatzeko, Meta-ren eredurik berriena, Llama3.1-8B erabili dute oinarrizko eredutzat (8.000 milioi parametroko kode irekiko eredua). Hizkuntza eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu dute, testu bilduma ikaragarri handia erabiliz (15 bilioi hitz), gehienak ingelesez, eta hizkuntza gaitasunak eskatzen dituzten atazak automatizatzeko oso eraginkorra da hizkuntza horretan (baita beste hizkuntza nagusi batzuetan ere). Hala ere, oraingoz euskarazko errendimendua nahikoa mugatua da. Euskarazko testu bilduma erraldoirik ez dagoenez, eta euskararentzat halako eredu bat hutsetik entrenatzeko beharrezkoak diren eskakizun konputazionalak oso handiak direnez, “Llama3.1-8B-tik abiatzea erabaki dugu”.