Begoña Altuna Diaz: "Batzuetan nire burua imajinatzen dut robot batekin euskaraz, hitz egin eta ulertu"
2017ko azaroaren 8a
Begoña Altuna Díazen (1989, Bilbo) familiak ingeniaria izango zela uste zuen, baina institutuko azken urtean berea hizkuntzarekin jolastea zela erabaki eta Euskal Filologian eman zuen izena Deustuko unibertsitatean. Manchesterren egin zuen Erasmusa eta han Deustuan lantzen ez ziren hizkuntzalaritzako beste gai batzuk ikasteko aukera izan zuen. Karrera bukatu eta urtebete Belgikan gaztelania irakasle egin ondoren, Hizkuntzaren Azterketa eta Prozesamendua masterra egin zuen UPV/EHUn. Tesiarekin ari da orain. Azken IkerGazten giza zientzietako poster onenaren saria jaso zuen “Euskarazko ezeztapenaren tratamendu automatikorako azterketa” lanarekin.
Bigarrenez jaso duzu saria IkerGazten. Zer esan nahi du zuretzat horrek? Zer nolako esperientzia izan da?
Ez naiz bereziki perfekzionista, baina lan bakoitzari merezi duen maila ematea gustatzen zait. Lan txukunek lasaitasuna ematen didate. Aurreko saria ez nuen inondik inora espero eta sorpresa polita izan zen; poztekoa da norberaren lana aintzat hartzen dela ikustea. Bigarren honetan, ordea, irabaztera joan nintzen. Nire buruari jarritako erronka izan zen gehien bat; irabazi edo galdu, nire onena ematea gustuko dut. Gainera IkerGazte bereziki maite dut eta horrek gehiago ahalegintzera animatu ninduen.
3 minutu nituen nire lana “saltzeko” eta oinarriek argi zioten ez zela euskarri teknologikorik izango, beraz, bide berritzaileak bilatu behar izan nituen arlo akademikoan horrelako aurkezpenak ez baitira ohikoak. Ariketa polita izan zen 3 minutuko aurkezpena prestatzea bai eta baliatu nituen kartulina handi horiek antolatu eta moldatzea. Hizkuntzaren Prozesamendua nahiko gai arrotza da arlotik kanpo eta ideiak argi azaltzea izan zen nire helburu nagusia.
Zer da zuretzako ikergaztea izatea?
Ez dut uste soilik adinarekin edo lan-esperientziarekin harremana duen gauza bat denik. Ikergaztearen ezaugarri nagusia bide berriak esploratzeko interesa dela esango nuke. Norberaren lana, bai, baina beti ikas daiteke beste edonorengandik zerbait. IkerGazte kongresuak hein handi batean hori naturalki gertatzea ahalbidetzen du, adibidez, otorduetan zure ondokoari bere ikerketa zertan datzan galdetzean. Baten bat zur eta lur utzi dut disruptore endokrinoak zer diren dakidalako!
Ez da aurten jaso duzun sari bakarra izan
Ez. SEPLNko (Espainiako Hizkuntza Naturalaren Tratamendurako Elkartea) artikulurik onenaren saria ere irabazi dut. Berriro ere, maitasun handiz landutako artikulua bidali genuen eta gustura egindako lana aintzat hartu dute.
Zerk eraman zaitu hizkuntzaren azterketa eta prozesamenduaren arloan ikertzera?
Euskal Filologian hasi nintzenean irakasle edo liburuzain izan gintezkeela esan ziguten eta urteak eta ikasgaiak aurrera joan ahala nire ikaskideak euskalkiekin, literaturarekin eta soziolinguistikarekin liluratuta ikusten nituen. Niri ere gustatzen zitzaizkidan, baina gauza egonkortzat hartzen nituen. Manchesterren, ordea, “Introduction to Computational Linguistics” ikasgaia hartu nuen susmoa nuelako nire benetako interesak hortik zihoazela. Bete-betean asmatu nuen, txundituta uzten ninduten etorkizuneko tresnak (itzultzaile automatikoak, hizkuntzaren ekoizpen automatikoa...) sortzeko balio zuten baliabide horiek. Batzuetan nire burua imajinatzen dut robot batekin euskaraz, hitz egin eta ulertu, eta hori hizkuntzaren prozesamenduaren bidez baino ez dugu lortuko.
Euskaraz ezeztapena nola gauzatzen den aztertu duzue eta euskarazko ezeztapen-informazioa kodetzeko eskema moldatu. Zein helbururekin?
Nire ikerketa-ildo nagusia denbora-informazioaren azterketa eta tratamendua da. Hau da, testuetan zer gertatzen den eta noiz gertatzen den aztertzen dut. Zer gertatzen den eta zer ez den gertatzen erabakitzeko ezeztapena aztertzea nahitaezkoa da, izan ere, ezezka agertzen den gertaera ez da gertatu edo ez da gertatuko. Ondorioz, euskaraz ezeztapena nola gauzatzen zen eta testuko zein elementuren gainean zuen eragina aztertu genuen eta informazio hori era normalizatuan adierazi genuen.
Ezeztapenaren inguruan hartutako erabakiak ebaluatzeko, corpus bat eskuz etiketatu duzue. Zeintzuk dira ateratako ondorioak?
Ondoriorik nabarmenena euskarazko ezeztapena identifikatzea nahiko erraza dela da. Etiketatzaileak nahiko ados egon ginen ezeztapena identifikatzean. Izan ere, euskaraz ezeztapen bakarra dugu perpausean (ez, ezin). Gaztelaniaz, ordea, bi ezeztapen agertu ohi dira perpausetan “NO he traído NINGÚN libro” eta horrek zailtasun gehiago du ezeztapena zein den erabakitzean. Ezeztapenak zeri eragiten dion, ordea, zailagoa da erabakitzen, bai euskaraz bai inguruko hizkuntzetan. Adibidez, “Mikel ez da autoz etorri” perpausean ez dakigu Mikel izan den etorri dena, etorri den ala ez edo etorri bai, baina bizikletaz etorri den. Kontu horrek hainbat eztabaida sortu ditu ezeztapenari buruz ikertzen ari diren hizkuntzalarien artean eta askotan norbere ikuspegiaren araberako erantzun guztiak balekoak dira. Ordenagailuek, ordea, guztiz objektiboak diren irizpideak behar dituzte eta horiek erabakitzen saiatzen gara.