Vicomtech enpresaren Ahots eta Hizkuntza Teknologien saileko zuzendaria

Arantza Del Pozo: "Datorren urteotan euskarazko ahots asistenteak ikusi beharko genituzke"

02.11.2020 | 00:54
Arantza Del Pozo.

Adimen artifizialaren esparrua ziztuan garatzen ari den bitartean, Arantza Del Pozok horretaraz hornitzen diren gailuetan euskararen presentzia aldarrikatzen du

Telefono mugikorretan konfiguratuta dauden ahots asistenteak, beheralako itzulpenak ahalbidetzen dituzten programak edota posta elektronikoa kudeatzeko sistemak. "Gure inguruan gailu pila bat dauzkagu eta egunerokoan pentsatzen duguna baino gehiago erabiltzen ditugu", azaleratzen du Arantza del Pozok, ahots eta hizkuntza teknologien adituak. Bere esanetan, hamar edo hamabost urtetan "elkarlan naturalagoa" izango dugu tresna hauekin. Del Pozok gero eta hurbilago ikusten du Siri edo Google Assistant euskalduna. Hala ere, gailuak elikatzeko euskarazko datuak sortzen jarraitu behar dela dio, adimen artifiziala dagoen informaziotik elikatzen baita.

Zein da euskararen egoera ahots eta hizkuntza teknologiei dagokienez?

Euskarak dituen hiztun kopurua kontuan izanik nahiko ondo dago. Baina oraindik ez da teknologia alor askotan erabiltzen. Horrek islatzen du euskararen erabilera: ikastetxeetan, administrazio publikoan, komunikabideetan... Beste esparru espezifikoetan, adibidez, osasungintzan, nahiz eta medikuek arreta euskaraz eman dezaketen, haien kudeaketa sistema guztia gazteleraz dago. Berdina gertatzen da industriaren alorrean.

Teknologia, hortaz, beti doa erabilera esparruaren atzetik.

Bai, erabilerak datuak eta informazioa sortzen ditu. Ahots eta hizkun-tza teknologia adimen artifizialeko teknologia mota bat da, eta, hortaz, dagoen informaziotik ikasten du.

Eta zein teknologia arlotan dago indartsu euskara?

—Azkenengo urtean Eusko Jaurlari-tzak eta baita enpresa batzuk apustua egin dute sare neuronalen garapenean. Euskarazko ahots eta hizkun-tza kudeatzeko eta automatikoki prozesatzeko emaitzak oso onak dira. Batez ere sare neuronalarekin aurrerapausoak eman direlako eta baita beste hizkuntzetarako egiten diren baliabideak eta teknologiak baliagarriak direlako euskararentzat ere bai.

Beste hizkuntza batzutan erabiltzen diren tekniken egitura berbera erabili daiteke euskarazko ahots eta hizkuntza teknologia garatzeko?

Bai, adibidez adimen artifizialarekin eta sare neuronalarekin egon diren aurrerapausoak (datuak prozesatzeko zerbitzariak, algoritmoak, interfazeak€) hizkuntzaren independenteak dira eta ahots eta hizkuntza teknologiak euskararentzako garatu ahal izatea ahalbidetzen dute. Gaur egungo teknika eta algoritmo askok beste hizkuntzetako datuak ere aprobetxatzen dituzte hizkuntzaren modelo generiko bat edukitzeko. Kasu horietan, ingeleseko datuak ustiatuta eta euskarazko datu gutxi batzuekin oso emaitza onak lortu ditzakegu.

Eta nola eragin dezakete euskalki eta hizkera ezberdinek?

Euskalkiak beste hizkuntzek ez duten erronka bat dira. Lurralde txikia eta hizlari kopuru urria izanik hitz egiteko modu asko daude. Latinoamerikan, normalean, teknologien garapenak lurralde bakoitzeko gaztelera, Argentinakoa edo Mexikokoa esaterako, hizkuntza ezberdin bat bezala tratatzen du. Euskararentzako hori egin behar badugu erronka handia dugu aurretik. Gainera, euskalkien-tzako egon daitezkeen datuak gutxitu egiten dira, dauden datu gehienak batuerarako baitira.

Interesik jartzen dute adimen artifiziala lantzen duten enpresek euskararengan?

Bai, enpresa bakoitzak daukan merkatuaren arabera jartzen du interesa. Zerbitzu linguistikoak eskain-tzen dituzten enpresek, Euskal Herrian, euskara oso kontuan izaten dute. Baina gaur egun adimen artifizialeko zerbitzuak eta produktu gehienak Estatu Batuetako erraldoi teknologikoek eskaintzen dituzte: Google, Facebook, Amazon, Microsoft€ Beraien zerbitzari eta zerbitzuetan oso erraz daukate teknologia edozeinentzako eskuragarri jartzea baina euskara ez dago.

Interesik erakutsi ez dutelako?

—Erraldoi teknologiko hauetako ba-tzuekin izan ditugun hurbilketetan esaten digute garapen guztiak Estatu Batuetan zentralizatuta dituztela eta euskarak daukan merkatua kontuan izanik beraien lehentasunak beste ba-tzuk direla. Erraldoi teknologiko horien zerbitzuetan edo teknologiaren eskaintzan euskara txertatzea merkatu erronka bat da.

Zein onura ekarriko lioke euskarari adimen artifiziala erabiltzen duten gailuetan presentzia handiagoa izateak?

Alde batetik, euskararen erabilerari onura handiak ekarriko lizkioke. Gaur egun gazteek arlo akademikoan euskara erabiltzen dute baina sarean, nola euskara ez dagoen aukeratzeko, gazteleraz egiten dute. Bestetik, gailuek euskararen erabileraren datuak sortuko lituzkete eta horiek ustiatuz gero teknologia hobetuko litzateke.

Hizkuntzaren prozesamenduaren alorrean Eusko Jaurlaritzaren itzultzaile neuronala aurrerapen handia izan da.

Bai, eta hori posible izan da teknologiaren aurrerapausoengatik. Sare neuronalen arkitektura berriak baimendu du hain emaitza onak lortzea euskara eta gazteleraren artean. Urte askotan zehar egin diren itzulpenen datuak erabili dira algoritmo berri-tzaile hauek elikatzeko.

Itzulpengintzaz gain, sare neuronalak zein beste alorretan ahalbidetu du aurrepausoak ematea?

—Transkribapenean, esaterako. Eusko Jaurlaritzak oraindik ez du hiritarrentzat zerbitzu ireki bat jarri, baina gu teknologia hori transferitzen ari gara beste enpresa eta erabiltzaile ba-tzuetara. Adibidez, eduki digitalak, bideoak etab. transkribitzeko eta azpitituluak sortzeko automatikoki. Eduki batzuetarako transkribapen horiek oso ondo daude, oso akats gutxi dituzte. Hizketa espontaneoan zailagoa da, baina dokumentalak, legebiltzarrean egoten diren sesio batzuk€ transkribitzeko emaitza onak lortzen ari gara.

Gero eta hurbilago al dago euskara Siri bezalako asistenteetan presen-tzia izatetik?

—Ez dago urrun, dagoeneko horrelako asistenteak euskaraz garatzen ari gara. Ahotsaren ezagutzan eta sintesian euskaraz ondo gabiltza, baita testuen ulermenean ere. Dena elkartzeko prozesuan ere ari gara. Datorren urteotan ikusi beharko genituzke merkatuan asistente hauek. Baina oraindik zail ikusten dut Sirik edo Google Assitantek euskaraz hitz egitea. Horretarako erraldoi teknologikoekin akordioren batera heldu beharko ginateke.

Beste hizkuntzekin alderatuta euskara aurreratuago dagoela diozu. Zerikusia du EHUk eskaintzen duen Hizkuntza Azterketa eta Prozesamendua masterrak?

—Bai, noski, oso lotuta dago. Euskara euskaldunon izaerari lotuta dago eta hemen interes hori betidanik egon da. IXA taldea eta Aholab taldea elkartu dira eta HiTZ zentroa sortu dute. Urte pila bat daramatzate ahots eta hizkuntza teknologiak jorratzen, euskararen inguruan fokua jartzen. Gainera Ixa taldea oso kantera garrantzitsua da teknologia hauetan aurrera egin ahal izateko.

Euskaraldiak enpresa pribatuen aliantza bilatuko du aurten. Garrantzitsua ikusten duzu euskara mundu honetan murgiltzea?

Bai, Vicomtech-ek aurreko edizioan ere parte hartu zuen eta oraingoan ere parte hartuko dugu. Oso garran-tzitsua da euskara enpresaren mundura eta sektore industrialetara iristea. Lantegietan agian langileek beraien artean euskaraz egiten dute, baina kudeaketa sistemak eta komunikazio ofizialak gehienetan gazteleraz egiten dira. Osasungintzan ere berdin. Euskara esparru horietara eramatea garrantzitsua da, horrek baimenduko digulako datuak sortzea.

Arlo horretan lanean zabiltzate?

—Orain Eusko Jaurlaritzak finantza-tzen duen ikerketa proiektu oinarrizko batean gaude elkarrizketa eta asistente sistemak fabriketara eramateko langileek makina eta robotekin hitz egin ahal izan dezaten. Osasungintzan, berriz, IXA taldea ari da historio klinikoak euskaraz sortzen. Osakidetzarekin daukate proiektu bat. Hemendik bost edo hamar urtetara espero dugu euskara esparru horietara eraman ahal izatea.

"Euskarazko ahots eta hizkuntza kudeatzeko eta automatikoki prozesatzeko emaitzak oso onak dira"

"Erraldoi teknologikoen zerbitzuen eskaintzan euskara txertatzea merkatu erronka bat da"

"Sare neuronalen arkitektura berriak baimendu du hain emaitza onak lortzea euskara eta gazteleraren itzulpenean"