hizkuntzen azterketak, egun, corpusak erabiltzea eskatzen du. Orain dela urte batzuk, ordenagailuak iritsi ziren arte, fitxak erabiltzen genituen hizkun-tza aztertzeko orduan aipamenak egin nahi genituenean, erabilera bitxi edo arruntak nonbait gorde nahi genituenean edo lana adibide egoki batzuekin hornitu nahi genuenean. Gero ordenagailuak etorri ziren, eta horrek sekulako iraultza ekarri zuen testuak egiteko eta antolatzeko orduan, zuzenketak egitean, edo, besterik gabe, gure oharrak modu sistematiko batean ordenatu eta gorde nahi genituenean. Berehala etorri ziren programa berriak, eta aukera eman ziguten gure idazleek historian zehar egin testuak euskarri elektronikoetan gorde, kontsultatu eta lantzeko. Azkueren garaian, edo Mitxelenarenean, eta geroago ere, adibide egoki bat bilatu nahi genuelarik eskuz edo makinaz egindako apunte eta fitxetan begiratu behar genuen, edo apalategiko liburuetan, edo gure buruaren zoko-zokoan: "Hau hola esaten du halakok". Eta auctoritas horretaz baliatzen ginen gure esana eta iritzia indartzeko: zer ote da egokiago? "joan behar dugu" edo "joan behar gara"? Eta nork bere oroimen sakonetan, bere euskalkian edo hiztunen batek ematen zion informazioan oinarritzen zuen erantzuna. Mitxelena eta Ibon Sarasola Orotariko Euskal Hiztegia lantzen hasi zirenean gauzak zeharo aldatu ziren. Han bazen testu bilduma bat handia (corpus bat), aski fidagarria, ordenagailuaren bidez kontsulta zitekeena. Buruak askotan huts egiten du: pantailan dituzun testuek ez. Hiztegi hori egiteko 5 milioi hitzeko corpusa erabili zen orduan, eta han ematen ziren datu objektiboak aztertuz egin zen hiztegia. Aukeratu testuak tradiziokoak ziren, euskararen historiakoak, salbuespenak salbuespen. Hor biltzen da ezagutzen dugun euskara idatziaren historia.
Geroztik, nahiko arrunt bihurtu dira hizkuntzen corpusak: batzuk hizkuntzaren historiakoak, besteak hizkuntza modernoarenak; batzuk estatistikoak, beste batzuk terminologikoak; batzuek oinarrizko informazioa bakarrik ematen dutenak (hitza eta testuingurua), beste batzuk hitzak indexatuak ematen dituztenak (zer den hitz hori, non ager daitekeen, nolako funtzioa izan dezakeen, eta abar). Aski tresna baliagarriak dira horiek guztiak informazioa biltzeko, eta informazio hori erabilirik hizkuntzaren gainean esaten diren gauzak fundamentu handiagoarekin esateko.
Alde batera utzirik testu masa ikaragarriak dituzten corpus batzuk (Google-enak, esaterako), gure zereginetarako balio gehiegi ere ez dutenak, corpus erabilgarrienak milioi batzuen (badira 5 milio hitzekoak baino txikiagoak) eta 400 bat milioi hitzen tartekoak dira. Santiagoko Unibertsitatearen testu hispanikoen corpusak 3 milioi ditu: Euskaltzaindiaren Behatokiak 26,5 milioi; RAEk duen egungo espainolaren corpusak (CREA) 154 milioi, eta 1975etik aurrera argitaratutako testuak biltzen ditu. Elhuyarrek berriki aurkeztu du beste bat 125 milioi ingurukoa, Interneten dauden testuetan oinarritua. EHUko Euskara Institutuak (www.ei.ehu.es) aste honetan aurkeztu duen ETC corpusak 205 milio hitz inguru ditu, eta handienen artean kokatzen da, euskaraz dagoen handiena, duda gabe. Kon-tsultak egiteko interfazea oso erraza da erabiltzeko, eta aski intuitiboa, ez da gehiegi pentsatu beharrik. Eta informazio ugari ematen du egungo euskarari buruz, testu guztiak mende honetakoak baitira, urtez urte orekatuak eta hainbeste arlotakoak.