Umap berpiztu da, euskaldunon Twitterreko joerekin eta rankingarekin
Umap.eus proiektuak 2010. urtean eman zituen lehenengo urratsak. Hizkuntza gutxituek sare sozialetan duten erabilera aztertzeko saiakera izan zen. Twitterrek ematen duen APIari esker, Twitterreko jarduna streaming bidez jarraitzeko aukera baliatu genuen, eta Twitterreko mezu-zaparrada etengabean euskarazko jarduna aurkitzen eta filtratzen hasi ginen. Euskararekin ez ezik, katalanarekin eta galeserarekin ere egin genuen lehenengo saiakera hura.
2010ean martxan jarritako azpiegitura teknikoa bere mugara iritsi zen 2012ko udan. Alde batetik, Twitterrek berak ipintzen dituen murrizketa batzuekin egin genuen topo; bestetik, hizkuntza-detekzio automatikoan ere zenbait arazo aurkitu genituen. Hala ere, ikasteko eta probatzeko balio izan zigun. Twitterren "tripak" hobeto ulertzeko, eta bere APIak eskaintzen dituen aukerak hobeto zukutzen ikasi dugu bizpahiru urte hauetan. Webgunearen alderdi publiko hobetzeko zenbait ideia ere etorri zaizkigu.
Horrela jaio zen atzo Umap.eu berria. Hasierako asmo eta idei berarekin, baina azpiegitura hobetuta eta aurpegia garbituta.
Lantalde teknikoak izugarrizko lana egin du hileotan. Twitterren sekreturik ezkutuenak ere ezagutzen dituzte eta tresna sendoa argitaratu dute. Zorionak guzti-guztioi!
Zer da Umap?
Zer da, hortaz, Umap? Ba, gorago esan dugun moduan, Twitterreko euskarazko jarduna jasotzen duen tresna eta webgunea da. Beste hizkuntza nagusiago batzuen artean bizi nahian gabiltzanon ahotsa bistaratzea. Sarri aipatzen dugun bisibilitate hori.
Nola dabil Umap? Lehenengo urrats batean euskaldunak izan daitezkeen erabiltzaileak jarraitzen ditugu, eta hortik abiatuta euskarazko txioak detektatu eta bahetzen ditugu. Erraza da esatea; ez horrenbeste egitea. Teknologia asko dago ideia xume horren atzean.
Nola jakin zeintzuk diren euskaldunak? Zelan aurkitu? Eta nola bahetu euskarazko jarduna?
Egia esateko, ez dakit gure teknikariek eta gure robotek nola egiten duten, baina nago emaitza ona lortu dutela. Oso ona. Jakin badakigu erabiltzaile batzuek ihes egiten digutela; zer esanik ez hizkuntza-detekzioa ez dela erabat fidagarria. Baina ziur nago %90etik gora gaudela batean zein bestean.
Eta behin erabiltzaileak eta euren euskarazko txioak jasota, zer? Datu horiekin, eta algoritmo batzuk aplikatuta, gauza bi lortzen ditugu:
Joerak
Euskal tuiterlarion jarduna denbora errealean jasotzen dugunez, traolak identifikatzeko eta kontatzeko aukera daukagu. Horri esker, euskaldunon arteko Joerak (TT, Trending Topic) zeintzuk diren jakin dezakegu; gurean pil-pilean dauden gai nagusiak.
Umap-ek aukera ematen du azken 6-12-24 edo 48 orduetako joerak ikusteko; eta historikoa ere kontsultatu daiteke.
Tuiterlarion komunitatea eta rankinga
Lehenengo tuiterlariak 2007 inguruan hasi ziren euskarazko lehenengo txioak botatzen, baina 2010. urtetik aurrera etorri zen benetako eztanda. Umap ere orduan jaio zen, bere lehenengo bertsioan. Garai hartan 400-500 tuiterlari inguru ziren modu jarraituan euskaraz txiokatzen
zutenak.
Harrezkero komunitatea asko handitu da. Hazi ez ezik, sendotu ere bai. Gaur egun 3500 tuiterlari aktibo daudela esan dezakegu (horiek ditugu Umap-eko gure komunitatean une honetan). Eta seguru asko gutxi batzuk gehiago ere izango dira, nahiz eta gutxiago idazten duten, edo euren jarduna nagusiki erdaraz den. Gainera, datozen hilabeteetan ere goraka jarraituko duela uste dugu. Albiste ona, euskara bizirik dagoela erakusten duelako horrek. Euskara eguneroko hizkuntza dela, komunikatzeko, lagunartean jarduteko edo txantxarako balio duena.
Gure robotak euskal tuiterlari gehientsuenak jarraitzen dituenez, guztien zerrenda ikusteko aukera ere ematen dizu: Euskal Twitterlarien komunitatea osatzen dugunon zerrenda. Zenbat euskal tuiterlari dago sarean? Zeintzuk dira? Twitterreko euskarazko komunitatea nortzuk osatzen dugu?
Jatorriz milaka tuiterlari jarraitzen ditugu (gure robotek detektatzen dituzten guztiak), baina parametro minimo batzuk betetzen dituztenak bakarrik interesatzen zaizkigu (euskaraz eta maiztasun minimoarekin tuiteatzen dutenak). Une honetan 3180 euskal tuiterlari ditugu zerrenda horretan. Beste horrenbeste egongo dira, beharbada, azken hilabeteotan ezer txiokatu ez dutenak, edo euskararik apenas erabiltzen ez dutenak. Dena dela, zerrenda ez dago itxita, noski; Robota etengabe ari da bere lan ixilean, erabiltzaile berriak detektatzen eta Umapera ekartzen (eta itxitakoak ezabatzen).
Gainera, tuiterlarien arteko sailkapena edo Rankinga ere proposatzen digu Umapek. Horretarako algoritmo bat aplikatzen die euskal tuiterlari guztiei, besteak beste ondorengo faktoreak kontuan hartuta: jarraitzaile kopurua, jasotako bertxioak, idatzitako euskarazko txioen interesa, eta abar. Azkenaldiko jarduna ere aintzat hartzen saiatu gara, sailkapenean gora-behera gehiago egon dadin, eta biziagoa izan dadin. Fidagarria? Bere neurrian. Zehatza? Auskalo. Jolaserako besterik ez bada ere, hortxe dago.
Astelehenero eguneratuko da, azken 7 egunotako jarduna kontuan hartuz. Adi egon, hartara!
RobSoc produktua eta Sustatuko albistegi automatikoa
Umap proiektua oso lotuta dago Sustaturen albistegi automatikoarekin (biak ere Codesyntaxek garatutakoak eta kudeatutakoak). Erabiltzaile Rankinga ere, berez, Sustaturako pentsatu zen (tuiterlari "onenen" tuitak aztertu eta albistegi bat sortzeko).
Izan ere, euskal tuiterlari aktiboenak jarraitzen ditugunez, eta euren eduki guztia filtratzen, egunean zehar interes gehien piztu duten albisteak eta loturak ere identifikatzen ditugu. Komunitatearentzat garrantzitsuenak diren albiste horiek Sustatura bidaltzen ditugu, eta horrelaxe elikatzen da, automatikoki, Sustatuko pilotu automatikoa, Umapeko komunitate honetako tuiterlariek txiokatutako albiste nagusien bidez.
Bai Umap.eu zein Sustatuko albistegi automatikoa RobSoc plataformaren emaitza dira, Codesyntaxek garatutako produktu teknologikoa. Erdarazko produktu batean ere ari gara aplikatzen azpiegitura berbera: Niagarank.es. Espainiako aktualitatea jarraitzen duen beste albistegi automatiko bat, kasu horretan 42 kate tematikorekin.
RobSoc teknologiak eta bere seme-alaben garapenek Eusko Jaurlaritzaren eta Gipuzkoako Foru Aldundiaren diru-laguntza jaso dute.
Soziolinguistika denbora errealean
Beharbada arraroa egingo zaio norbaiti, baina nire ustez Umap-en indarra ez dago, ez Joeretan eta ez Ranking horretan. Edo ez hor bakarrik, behintzat. Umap-en benetako garrantzia datuetan dago. Zenbat tuiterlari gara? Zenbat tuiteatzen dugu? Zer garapen izan dugu Twitterren? Eta zenbat euskaraz? Noiz, nola eta norekin?
Uste dut horrek datu interesgarriak emango dizkigula euskaldunon sareko jarrera linguistikoen inguruan. Oraindik datu gutxi ditugu, baina hilabete batzuk barru argazki osatuagoa izango dugu. Ea zer aurpegi erakusten digun, alaia edo triste samarra. Esango nuke alaia izango dela: euskara bizi-bizi dago Twitterren. Hizkuntza bera ere bizi-irauteko ahaleginetan dagoenaren seinale.
Argazki orokor horretaz gain, egia da argazki txiki eta pertsonalagoek ere bere saltsa sortu dezaketela. Zenbat tuiteatzen du urliak? Zenbat berendiak? Eta zenbat euskaraz?
Izan ere, tuiterlari bakoitzaren hizkuntza erabilera ere neurtzen du Umap-ek (bertxioak barne), eta esate baterako, gure kontu korporatiboak, CodeSyntax-enak, zer jarrera izan duen jakin dezakegu:
Zer neurritan dira zehatzak datuok? Ez erabat, noski. Hizkuntza-detekzioa ere automatikoki egiten da, eta tresnak bere mugak ditu (beti gutxixeago neurtuz). Gehienbat mezu elebidunetan. Izan ere, makina batentzat, hau euskara ote? "Jodé! Codesyntaxen Robsoc #euscool da". Nahikoa asmatzen du algoritmo koitaduak!