Donostia
Euskaltzaindia 1919an sortu zen, baina 1968 arte ezin izan zion ekin euskara batua eraikitzeari. 1968tik 1984ra bitartean Euskaltzaindiaren hiztegigintza ez zen oso sendoa izan; beharrik larrienei erantzutera mugatu zen, ez asmorik ez zuelako, baliabide urriak zituelako baizik.
1983an Akademiak hiztegigintza-batzordea sortu zuen eta 1984an epe luzeko plan bat onartu zuen hiztegiak egiteko. Plan horren arabera, jarduera-sail bat jarri zuen abian. Aipagarrienak honako hauek izan ziren:
1) Orotariko Euskal Hiztegia, an-tzinadanik 1970 inguru arte euskarazko argitalpenetan erabilitako hitzak bilduko zituena.
2) Lexikologia-irizpideak finka-tzeko egitasmoa, euskaraz hitzak sortzeko baliabideak ikertzeko.
3) XX. mendeko euskarazko argitalpenetan erabilitako hitzen bilketa.
Jarduera horien guztien helburua euskararen hiztegi arauemailea izango zenari oinarri sendoak jar-tzea izan zen.
Orotariko Euskal Hiztegia (OEH) 1984an ekin zion Euskaltzaindiak Orotariko Euskal Hiztegia lantzeari. Hiztegi horren helburua garai eta euskalki guztietako hitzen altxorra biltzea eta ikertzea zen. Antzinateko inskripzioetatik Erdi Aroko testuetara eta inprenta sortuz geroztik XVIII. mendearen erdialdea arte argitaraturiko guztia har-tzen du kontuan. Garai horretatik aurrera literatura asko ugaritu zenez, bilketa ez zen hain orohar-tzailea izan. Hala ere, 6 milioi testu-hitzeko corpus bat du oinarrian, eta esan daiteke 1970 arteko euskara idatziaren argazki zehatza eskaintzen duela. Corpus informatizatua da OEHrena. Hortik abiaturik, 1987tik 2005 arte guztira 14.000 orrialde dauzkaten paperezko 16 liburukitan argitaratu zen. OEHren sarrerek honako informazio hau daukate:
Lema, hau da, sarreraburua, eta hitzaren aldaerak, testuetan ageri diren formetan, aldaera horiei dagozkien euskalkiei buruzko informazioa, azken ehun urtean izan duten erabileraren arabera, adierak, hitzen historia eta erabilera-adibideak, hitz elkartuak, esapideak eta etimologia. 2009ko urriaz geroztik OEHren bertsio elektronikoa http://www.euskaltzaindia.net/oeh helbidean dago kon-tsultagai. Kontsultak sarreren arabera egin daitezke eta emaitzek paperezko artikuluen itxura berberaz ikusten dira.
Erabiltzaileek deskarga dezakete hiztegia PDF formatuan http://www.euskaltzaindia.net/oeh/jaisteko_gunea helbidean.
XX. mendeko corpus estatistikoa 1986an hiztegigintza-batzordeak lansaio batzuk egin zituen, egungo euskarazko hitzen bilketa sistematikoa egiteko zer epe hartu behar zen kontuan erabakitzeko xedeaz. Ondorio gisa, XX. mendea hartzea komeni zela erabaki zen. Alabaina, XX. mendean zehar euskaraz argitara emandako testuen bolumena handiegia zen corpus orohartzaile bat eraiki ahal izateko. Horregatik, erabaki zen corpusak eredu estatistiko baten arabera hautaturiko lagin adierazgarri bat jaso behar zuela.
Zehazki, laginketa geruzatu bat erabili zen, laginak ongi ordezka zi-tzan lau epe (1900-1939, 1940-1968, 1969-1990, 1991-1999), 14 testu-mota (hitz lauzko literatura, drama, saiakera, ikasliburuak, etab.), hiru testu-tamaina, eta literatura-euskalkiak, euskara batua barne.
Horren aurretik, aldiko argitalpenen inbentario osoa egin eta goian aipaturiko irizpideen arabera sailkatu ziren haiek.
Lehenbiziko lagina 2 milioi testu-hitzekoa izatea erabaki zen, egitasmoa bideragarria izan zedin, eskura zeuden baliabideekin.
Gero corpus hori mende bukaera arteko testuak kontuan hartuz osatu zen. Azkenean hartu zuen tamaina 4.658.036 testu-hitzekoa izan zen eta hitzok 6.351 testu-ataletatik hartuak izan ziren.
Testu gehienak eskaner bidez digitalizatu, OCRz tratatu eta eskuz zuzendu ziren eta gainerakoak eskuz sartu eta zuzendu ziren. Corpus osoa lematizaturik dago prozedura erdiautomatiko bat erabiliz eta ezkuz zuzenduz. Egitasmo horren emaitza http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html helbidean dago kontsultagai. Kontsultak egin daitezke lemen, hitzen, hitz-hasiera nahiz -bukaeren arabera eta baita elementu horien konbinazio boolearren arabera ere. Emaitzak iraz daitezke aldiaren, euskalkiaren eta testu-motaren arabera. Kontsulten emai-tzak kontsultaturiko elementua duten testuinguruak dira, hauei dagozkien testuen informazio bibliografikoarekin.
Hiztegi Batua 1992an Euskaltzaindiak batzorde bat sortu zuen Hiztegi Batua prestatzeko. Hiztegi horrek eguneroko bizitzan beharrezkoenak diren hitzak jaso behar zituen eta horien forma arautuak finkatu behar zituen. Hitz baten forma arautua finkatzeko erreferentzia hitz horrek tradizio historikoan izan duen eta gaur egun duen erabilera da. OEHk eta XX. mendeko corpus estatistikoak ematen dute, hain zuzen, hitzen erabileraren berri.
Batzordearen proposamenak iri-tzi-emaile kualifikatu batzuei (irakasleak, itzultzaileak, idazleak, etab.) bidali izan zaizkie, beren oharrak egin ditzaten, eta azkenean Akademiaren Osoko Bilkurak onartu izan ditu forma arautuak.
2000. urtean 20.000 hitzeko zerrenda bat argitaratu zuen Euskaltzaindiak, 2008an 29.000 hitzeraino handitu zen zerrenda eta 2012an 36.000raino. Hiztegiak paperean izan dituen hiru argitaraldiez gain, kontsultagai dago http://www.euskaltzaindia.net/hiztegibatua helbidean, eta deskarga daiteke PDF formatuan http://www.euskaltzaindia.net/eaeb helbidetik, Akademiaren gainerako arauekin batera. Hiztegi Batua lantzeko prozesuan sorturiko dokumentazioa helbide honetan kontsulta daiteke:
http://www.euskaltzaindia.net/index.php?option=com_h o&Itemid =189&lang=eu&view=frontpage&layout=aurreratua
Euskaltzaindiaren Hiztegia Goian aipaturiko tresna horiek guztiek orain argitara eman den Euskaltzaindiaren Hiztegiaren oinarria sortu zuten. Euskaltzaindiaren Hiztegiak Hiztegi Batuko lehen 20.000 hitzak dauzka, beren definizio, kategoria gramatikal, espezialitate-, erregistro- eta euskalki-markekin, aditz-erregimenekin, benetako erabileratik jasotako adibideekin, hitz batean, erabiltzaileari euskal hitzak egoki erabiltzen lagunduko dioten informazio guztiekin.
Hiztegi hau Euskaltzaindiak hiztegi-arloan duen egitasmo-katearen azken maila da oraingoz, zeren eta gerora etorriko diren beste emaitza batzuen egitasmoetan lanean ari baita Akademia.
Lexikoaren Behatokia Egitasmo honen helburua corpus monitore bat sortzea da, esan nahi baita euskararen erabileran gertatzen ari diren aldaketen berri emateko diseinatua den corpus bat. Gainera lehen urratsa da erreferentzia corpus handi, orekatu, lematizatu, linguistikoki anotatu eta eskuz zuzendua, baina oraingoz tamainaz eta orekaz ez da horretara iristen, kostuak handiegiak liratekeelako.
Corpusak ezaugarri hauek ditu:
• 2000. urtetik aurrera argitaraturiko testuak dauzka
• Batez ere hedabideetakoak edo informaziozkoak dira testuak
• Lehentasuna dute automatikoki prozesatzeko egokiak diren testuak
• Etengabe elikatzen da
Honako urrats hauek jarraituz prozesatzen dira testuak:
1)Testuak eskuratzea
2)Formatuz bihurtzea eta egitura etiketatzea (TEI)
3)Hizkuntzaren prozesatze automatikoa: tokenizazioa, segmentazio morfologikoa, hitz anitzeko unitate lexikalen analisia eta desanbiguazio automatikoa
4)Eskuz desanbiguatzea eta zuzentzea
Bestalde, corpusak baditu tresnak datuak kontsultatzeko, analizatzeko eta ustiatzeko. Prozesu automatikoak azken bi hamarkadatan garatu diren eta beste egitasmo batzuetan probatu eta hobetu diren tresna batzuetan oinarritzen dira, hala nola: EDBL datu-base lexikalean, MORFEUS analizatzaile morfologikoan eta tresna linguistikoek sorturiko dokumentuak kontsultatzeko, erakusteko eta aldatzeko EULIA ingurune informatiko hedagarrian. Horiek guztiak EHUko Informatika Fakultateko IXA taldeak garatuak dira. Egitasmo honetan UZEI eta Elhuyar Fundazioa ere lankide ditu Euskaltzaindiak. Testuak eskuratzeko, berriz, hainbat euskal hedabiderekin sinatu ditu hitzarmenak.
Corpusaren tamaina, aurten bertan, 27 milioi testu-hitzetik gorakoa izango da. Dagoeneko kontsultagai dago http://lexikoarenbehatokia.euskaltzaindia.net/cgi-bin/kontsulta.py helbidean.