David Lindemann: "Euskaraz Wikidataz aritzeko lehenengo ahalegin koordinatua da ikastaro hau"

2023ko uztailaren 7a

David Lindemann: "Euskaraz Wikidataz aritzeko lehenengo ahalegin koordinatua da ikastaro hau"

"Datu Lotuak, Ezagutza-grafoak, Wikidata/Wikibase" tailerra emango du David Lindemannek (Hanburgo, 1976) UEUren Udako Ikastaroetan. Lindemannek Politika Zientziak ikasi zituen (FU Berlin, 2003) eta Itzulpengintza eta Interpretazioko Gradua du (UPV/EHU, 2010). Hizkuntzalaritza eta Euskal Filologian du Masterra (2011, UPV/EHU) eta doktorea da Hizkuntzaren Azterketa eta Prozesamenduan (UPV/EHU, 2015). Harekin izan gara tailerraren gainean hitz egiteko.

Wikidata plataforman zentratuko zara tailerrean. Zergatik?

Gizakiok irakur eta uler dezakegun formatu batean argitaratu ohi dugu ezagutza, Wikipedia bezalako entziklopedia batean, esaterako. Edozein entitateren inguruan dakiguna hor dugu eskuragai. Datu Lotuak (Linked Data), aldiz, web semantikoa deritzon horretan erabiltzen dugun formatua da, gizakiok nahiz makinek ulertzen dutena. Pil-pilean dagoen gaia dela esan daiteke, alor gero eta gehiagoko datuak web semantikoaren bitartez eskuragarri baitaude. Orain dela hamar urte, Wikidata sortu zen, Wikipediaren ahizpa, eta, azken hori ez bezala, makinek irakur eta interpreta dezaketen baliabidea da. Entitateen deskribapenak biltzen ditu Wikidatak, formatu egituratu eta estandarizatu batean, eta elkarrekin lotu; lotura horiek grafo gisa irudika daitezke, eta horregatik ezagutza-grafo deitzen diogu horrela sortutako datu-multzoari. Beste hainbat baliabidetan ezagutza egituratzeko teknologia berberak ditugu, baina Wikidatak bi ezaugarri ditu, beste guztietatik bereizten dutenak: alde batetik, ezagutza-grafo librerik handiena da gaur egun, eta bestetik, edozein sar daiteke edukiak osatu edo aldatzera.

Zer aplikagarritasun eskaintzen ditu?

Wikipediako testuetan eta Wikidatan informazio berbera izan arren, Wikipediako testu lauetan nekez egingo ditugu zeharkako galdeketak. José Antonio Aguirreren inguruko artikuluan, politikaria eta futbolaria izan dela irakurtzen dugu, adibidez, baina ezin dugu galdetu zer pertsona izan den futbolaria eta politikaria —horretarako politikarien edo futbolarien artikulu guztietan bilatu beharko genuke—. Wikidatarako, aldiz, horrelako galdera bat tribiala da guztiz: Wikidatan, pertsonek "lanbidea" deitzen den propietatea izaten dute, eta galdetzea zeintzuk diren "politikaria" eta "futbolaria" dutenak propietate horren balioetan, erraza da oso. Are galdeketa konplikatuagoak egin daitezke, dagokion lengoaia erabiliz, SPARQL izena duena.

Zer proiektutan erabili izan da?

Wikidatan bilduta dagoena eta izan eta izango dituen erabilerak zenbatzea ezinezkoa da. Baina har dezagun gertuko adibide bat: INGUMA datu-base bibliografikoetan agertzen diren entitateak, hala nola pertsonak, erakundeak, aldizkariak eta abar, Wikidatarekin lerrokatzen ari gara. Horrela, Wikidatak entitate horiei buruz dituen datuak INGUMAkoekin lotuta ditugu, eta batera eskaini ahal dizkiogu erabiltzaileari. INGUMAko egile bat non eta noiz jaio den, non ikasi duen, zer idatzi duen beste hizkuntza batzuetan eta abarreko datu gehigarriak lortzen ditugu horrela. Lerrokatze hori ere erraz txerta daiteke Wikidatan: INGUMAra daramaten loturak txertatu ditugu Wikidatan; horrela, erabiltzailea klik batez heltzen da Wikidatatik INGUMAra.

Wikidatak darabilen Wikibase softwareari ere bere tartea emango diozu.

Bai horrela da. Wikidatak azpian duen softwarea Wikibase izena du. Wikimedia Fundazioak garatu du, eta iaztik aurrera edozeini eskaintzen dio Wikibase instantzia bat edukitzea. Horrela, edozeinek izan dezake "beste Wikidata bat", Wikidata bezalako plataforma bat, ezaugarri berberak dituena. Hainbat arrazoi direla eta, interesgarriagoa izan daiteke norberaren Wikibasen aritzea Wikidata handian baino; edozein kasutan, Wikibase baten edukiak Wikidatarekin lotu edo "federatu" ahal dira. Adibidez, euskal futbolarien inguruko xehetasunak dituen Wikibase bat sortzen badugu, Wikidatan horren berri emango dugu, erabiltzaileak (gizaki nahiz makina) datuak bietatik hartu ahal izateko, aldi berean. Gure Wikibase lantzen amaitu dugunean, eduki guztia Wikidatara bidal dezakegu —hori beste aukera bat da—. Gu ari gara hori egiten, datu lexiko eta datu bibliografikoekin.

Teoria eta praktika uztartuko dituen saioa izango da. Zein izango da metodologia?

Web Semantiko eta Datu Lotuen oinarrizko kontzeptuak azalduko ditugu. Wikidata hartuko dugu adibide, eta galdeketak nola egin ikasi. Wikidatako edukia nola aldatu ere ikusiko dugu. Hau da, ikasten dugun teoria aplikatu egingo dugu berehala. Wikidataren inguruan dabilen komunitateak zer kanal erabiltzen duen elkarrekin hitz egiteko —hori ere ikusiko dugu—.

Nori dago zuzenduta?

Printzipioz, ikastaroa edozeinentzat izan daiteke egokia, bai Wikipedia ezagutzen duen jendearentzat, ezagutza adierazteko Wikidatako era ezagutu nahi duena, eta bai edozein formatutako datuak dituenarentzat, datu-baseetan ohikoa zen eta tauletan oinarritzen den ereduaz haratago joan ahal izateko, datuak mundu-mailako ezagutza-grafoarekin lotu ahal izateko.

Zerbait nabarmentzerik nahi?

Nazioarteko komunitateak ingelesez funtzionatzen du normalean; euskaraz Wikidataz aritzeko lehenengo ahalegin koordinatua denez, euskaraz dabilen komunitate berri baten hastapena izan daiteke ikastaro hau. Datu-multzo bat baduzu munduarekin konpartitzeko: etor zaitez, eta aztertuko dugu nola egin.

Jakintza-arloak