Els maoris intenten salvar la seva llengua de les grans tecnològiques

Imatge © davyb (Pexels)

L’emissora de ràdio Te Hiku Media va recopilar grans quantitats de dades de l’idioma i ara grans corporacions en volen obtenir els drets.

Te Hiku Media és una petita emissora de ràdio sense ànim de lucre situada al nord de Nova Zelanda. La conformen onze persones i està dirigida per Peter-Lucas Jones. L’any 2018 van decidir organitzar una competició a nivell estatal en la qual van recollir un total de 300 hores d’àudio transcrit en maori, llengua co-oficial del país utilitzada en la seva majoria pel seu poble indígena. Gràcies a aquesta competició i amb l’ajuda d’un enginyer es va poder desenvolupar un sistema de reconeixement de veu i un convertidor de veu a text. El projecte és pioner en el reconeixement de veu de llengües indígenes.

Segons l’ONU, cada dues setmanes mor una llengua indígena en el món degut a polítiques d’assimilació cultural racistes. En el cas de Nova Zelanda, després de la Segona Guerra Mundial en els col·legis es ridiculitzava i castigava físicament aquells alumnes que parlessin maori. Aquest fet va fer que moltes famílies decidissin no ensenyar la llengua als seus fills per a evitar-los el dolor que ells havien passat.

De quina manera pot la tecnologia preservar les llengües en perill d’extinció?

Avui dia les persones amb un nivell natiu de llengua maori estan morint i està disminuint el nombre de parlants amb nivell fluid. És important recalcar aquest fet ja que les llengües contenen gran quantitat de coneixements de tipus tradicional que estan en perill d’extinció.

El projecte va néixer de la necessitat de digitalitzar més de 30 anys d’emissió de Te Hiku Media. A això, es va afegir el peculiar concurs amb la finalitat de recollir encara més àudios amb frases fetes, expressions col·loquials i úniques que recopilessin l’accent característic dels seus parlants, eliminant la influència que té l’anglès en aquests moments sobre l’idioma.

Després de transcriure milers d’hores de l’idioma, l’equip impulsor del concurs va decidir ensenyar-l’hi a l’ordinador amb programari accessible i de codi obert com el programa DeepSpeech de Mozilla. El repte d’aquest projecte radicava en la falta de dades per a crear un model de reconeixement de veu. Per a poder crear aquest tipus de sistemes se solen necessitar unes 10.000 hores d’àudio transcrit. Alguna cosa que resulta impossible de recopilar per a qualsevol comunitat indígena sense prèvia documentació.

Amb les 320 hores d’àudio que van recollir des de Te Hiku Media han pogut obtenir impressionants resultats en els seus models de reconeixement de veu amb un 10% d’error en les seves prediccions. El marge d’error és bastant sorprenent, tenint en compte que les tècniques mai s’havien utilitzat en aquest idioma. Després del desenvolupament d’aquesta tecnologia, van presentar el projecte en diverses conferències per a demostrar que és possible que persones sense coneixements digitals puguin fer gestes similars. Gràcies a la seva difusió, les comunitats mohicanes i hawaianes han expressat el seu interès per replicar el model i preservar així la seva cultura.

Diverses empreses han tingut interès a comprar el programari

Lion Bridge, una empresa estatunidenca dedicada a la traducció i a la localització de solucions per a empreses globals, segons la seva pàgina web, es va fixar en el treball realitzat per Te Hiku Media. En veure que aquests van declinar la seva oferta, van intentar buscar a través de contactes algú que pogués gravar àudios en maori a quaranta-cinc dòlars l’hora. En paraules de Keoni Mahelona, CTO de Te Hiku Media, “van suprimir les nostres dades i van colpejar físicament els nostres avis i ara volen vendre’ns el nostre idioma com si fos un servei”, referint-se al fet que les dades són avui dia l’última frontera de la colonització.

Segons Mahelona, el poble maori hauria de ser l’únic que s’enriquís de la seva cultura i una manera d’aconseguir-ho és mantenint la sobirania de les seves dades. “Vendre’ls, en canvi, suposa donar-la-hi a científics de dades que no tenen cap connexió amb la llengua perquè desenvolupin eines que seran el futur de la seva llengua. Els maoris perdrien, així, l’oportunitat econòmica que aquest tipus de projectes poden oferir en utilitzar un idioma que els pertany, de la mateixa manera que no van veure molt de benefici econòmic de les terres que un dia els van pertànyer”.

Per a evitar que aquesta història es repeteixi, la protecció de les seves dades manté el dret a l’autodeterminació del poble maori. Durant aquest temps, han declinat un total de dotze propostes de grans empreses per a utilitzar el seu coneixement. D’altra banda, des de Te Hiku Media reconeixen la gran utilitat que tenen els programes de programari lliure, però es lamenten que la majoria de la seva població no sap utilitzar-ho.

Augmentar la plantilla per a anar dissenyar projectes a més velocitat

L’any 2019, el projecte va rebre una subvenció de 13 milions de dòlars amb la qual es van contractar cinc científics de dades i cinc lingüistes. L’objectiu ara també és crear altres eines com un corrector ortogràfic, assistents de gramàtica i tutors virtuals. D’aquesta manera, consideren que estan decolonitzant el seu idioma en desprendre’s de les influències angleses que té actualment. Desitgen reinserir el so natiu en el futur de la seva llengua.

Des del punt de vista tècnic, és important esmentar que la velocitat a la qual es desenvolupen aquestes tecnologies per part dels nadius és clau perquè el coneixement pugui continuar dins de la comunitat. Sinó, els seus projectes es veuen exposats a ser copiats per grans companyies que només desitgen treure benefici de les seves dades sense tenir en compte el context cultural en què aquestes llengües es troben.

Aquí podeu trobar l’article del qual s’ha extret un resum del projecte.

Vols rebre l'agenda de Societat Oberta al teu correu?

Subscriu-te