Astelehen honetan goizean, Bilboko egoitzan aurkeztu egin du Euskaltzaindiak Euskararen Erreferentzia Corpusa (ECC), duela lau urte euskararen eguneroko bizitza ezagutzeko martxan jarritako proiektua. Andrés Urrutiak, Akademiako presidenteak, "erreferentea" den proiektua dela esan du, "hizkuntzaren xehetasun zehatz eta orekatuak bildu nahi dituena, hainbat eremutako laginak bilduz eta egungo euskararen isla emanez".
Urrutiak nabarmendu duenez, corpusa "irekia" eta "kolektiboa" da; izan ere, lehen bertsio horrek 123.124 dokumentu eta 154,21 milioi hitz biltzen ditu, 2000 eta 2023 urteen artean argitaratutako euskarazko testuetatik hartutakoak. Testu horiek "Euskal Herriko 68 erakunde pribatu eta publikok, komunikabide nagusiek eta gizarte-eragile askok" eman dituzte. Corpusa "oinarrizko proiektua" izango da Akademiarentzat, presidenteak azpimarratu duenez.
Proiektuaren aurkezpenean Eusko Jaurlaritzako Kultura eta Hizkuntza Politikako sailburu Ibone Bengoetxea egon da, eta Euskaltzaindiaren papera goraipatu du, hizkuntzari "prestigioa" ematen diola esanez. "Egin duzuen eta gizarteari eskaintzen ari zareten euskararen corpus hau gure historiaren parte da eta, aldi berean, gure etorkizuna gidatuko duen erreferentziazko tresna da", esan du Bengoetxeak.
"Funtsezko tresna"
Ikerkuntzan diharduen Iker izeneko Akademiako ataleko arduradun Miren Urkiak nabarmendu duenez, Euskararen Erreferentzia Corpusa "funtsezko tresna da hizkuntza-ikerketetan hizkuntza-azterketa, ikaskuntza automatikoa edo hipotesiak baliozkotzeko", baina "corpus estandar edo erreferente gisa" ere erabil daiteke, "hizkuntza-, literatura- edo ikerketa-helburuetarako", euskararen "egungo egoera" islatzen duen neurrian.
Egoera hori proiektatzeko, Euskaltzaindiak "oreka eta ordezkagarritasuna hartu ditu kontuan", azaldu du Urkiak. "Garrantzitsua da gaien aniztasun tematikoari eustea, euskalki guztien adibideak eta hainbat testu-iturritako edukiak biltzea eta publiko mota guztiei zuzendutako testuak kontuan hartzea", zehaztu du.
Diseinua eta "erreferentzialtasuna"
Euskararen corpus honek euskaraz idatzitako testuak biltzen ditu, batez ere bertsio elektronikoetatik abiatuta, eta ahozko transkripzioak baztertzen ditu, nahiz eta ahozko transmisiorako prestatutako idatziak biltzen dituen, hala nola telesail edo filmetarako gidoiak. Jatorriei dagokienez, testuen % 4 Interneterako berariaz sortutako materialetik datoz; gainerakoak, berriz, liburuen eta aldizkako argitalpenen artean banatzen dira. Sailkapenari dagokionez, idatzien % 25 fikziozkoak dira eta % 75 ez-fikziozkoak. Bestalde, EECk beti bilatuko du azken 25 urteetako testuak jasotzea, eta, beraz, urtero eguneratuko da.
Urkiak azaldu duenez, "erreferentzialtasuna" hiru irizpide hauen konbinazio "orekatuaren" ondorio da: ingurua, sailkapena eta kronologia. "Hori da erreferentziazko corpusak definitzen duena, nahiz eta oreka mantentzea beti erraza ez izan", dio. Aldi berean, Ikerreko arduradunak esan du jarraibide horiek "hiztegiko kontsultak beharren arabera mugatzeko" aukera ematen dutela.