venres, 6 de maio de 2016

GalNet, o maior dicionario multilingüe do galego

nvestigadores da Universidade de Vigo poñen en marcha este novo recurso de lingüística computacional, baseado no WordNet e empregado por Google Translate como apoio no proceso de tradución. 

O galego conta cun novo recurso de lingüística computacional,GalNet, a versión galega do WordNet (base de datos léxica do idioma inglés estruturada en forma de rede semántica, creada na Universidade de Princeton). Os responsables desta nova ferramenta para a lingua galega son investigadores do Seminario de Lingüística Informática da Universidade de Vigo, co profesor Xavier Gómez Guinovart á cabeza. O seu traballo desenvolveuse no marco do proxecto Skater (Scenario Knowledge Acquisition by Textual Reading), no que participaron tamén as universidades do País Vasco, Pompeu Fabra, Barcelona e Politécnica de Cataluña, baixo a coordinación desta última.
GalNet é un proxecto con financiamento estatal de tres anos de duración cun orzamento total de 400.000 euros, do que nos vindeiros meses arrancará unha segunda parte. Os seis grupos de investigación implicados desenvolveron seis subproxectos que, no caso de Vigo, estivo centrado en desenvolver este novo recurso de lingüística computacional.
A nova ferramenta estrutúrase como unha rede léxico semántica para lingua galega, un recurso léxico estándar para todas as aplicacións informáticas que traballan coa linguaxe. “Ten moitas utilidades, pero principalmente é un dicionario electrónico para que os programas que procesan linguaxe sexan capaces de deducir o significado das frases e actuar en consecuencia”, explica o profesor Guinovart en declaracións recollidas por M. del Río no DUVI.
Trátase, por exemplo, do mesmo recurso que emprega Google Translate, como apoio no seu proceso de tradución en calquera das linguas que contan co seu WordNet. O director do Seminario de Lingüística Informática subliña que o tradutor de Google segue un modelo estatístico, de modo que almacena moitas traducións entre dúas linguas e, a partir de aí, deduce as regras que traducen entre unha e outra lingua. “Pero ás veces as inferencias estatísticas non chegan para producir unha tradución aceptable e necesita recorrer a recursos máis precisos como os dicionarios bilingües e, neste caso, o recurso multilingüe seleccionado é o WordNet, porque é o maior dicionario multilingüe tanto en número de linguas como en número de palabras e conceptos”, comenta.
Ademais, polo formato propio de WordNet, pensado para ser manexado por ordenadores, permite unha utilización moi doada no ámbito da lingüística computacional ou do procesamento da linguaxe natural. Con todo, e a pesar de que está deseñado para ser empregado no eido da intelixencia artificial, “tamén ofrece moitas utilidades para a consulta lexicográfica directa dos seus contidos”.
TRABALLO CON CONCEPTOS
O WordNet e o GalNet funcionan con conceptos ou sentidos, fronte aos dicionarios tradicionais que o fan con palabras. “Os conceptos almacénanse coas súas relacións semánticas, por iso é unha rede léxico semántica: os nós da rede son conceptos, e os fíos que unen os nós da rede son as relacións semánticas”, explica Guinovart.
A rede inclúe holónimos, merónimos, hiperónimos, hipónimos, palabras relacionadas por outro tipo de relacións semánticas e palabras relacionadas pola súa definición. Por exemplo, o concepto de man ten unha relación semántica co concepto de dedo como parte da man, e iso é así en calquera lingua, de xeito que permite unha navegación intelixente e, posto que o WordNet comprende centos de linguas, xérase unha contorna en rede que o converte no maior dicionario multilingüe do mundo.
O número de conceptos pretendidos para cada lingua no WordNet está arredor dos 150.000, e ese é reto dos investigadores vigueses. Na actualidade, e finalizada a primeira fase do proxecto, teñen cubertos 33.000 conceptos, que inclúen un total de 50.000 palabras. O inglés, que a lingua pioneira nesta ferramenta, conta con 117.000 conceptos cubertos e 206.000 palabras, pero como lembra o profesor Guinovart, cómpre ter en conta que comezaron a traballar neste campo dende a Universidade de Princeton en 1985, mentres que o WordNet do galego arrancou hai apenas tres anos. “Aínda así, con estes 40 anos de diferenza, o galego xa ten unha cuarta parte das palabras que ten o inglés e unha terceira parte dos conceptos”.
Dentro do proxecto Skater comezaron tamén a desenvolverse os WordNet do catalán, do euskera, do español e do portugués.
ORIXES DE WORDNET 
O proxecto inicial do WordNet estaba pensado dende un punto de vista psicolingüístico e o equipo de Princeton que o puxo en marcha pretendía modelar informaticamente a maneira na que os seres humanos procesamos o léxico no cerebro. Co tempo, e dada a utilización que se lle foi dando ao WordNet do inglés, acabou converténdose nun proxecto liderado por informáticos e orientado ao procesamento intelixente da linguaxe.
Dende o punto de vista humano, pódese empregar como dicionario multilingüe, e no caso do GalNet é maior que a maioría dos dicionarios bilingües que hai para o galego. Como lembra o profesor, “non só podemos ver a a tradución para as cinco linguas mencionadas, senón que a través dos enlaces da ferramenta podemos ver as traducións en WordNet de ducias doutras linguas, algunhas completamente exóticas dende o punto de vista do galego como o tailandés, o persa, o malasio ou o suahili, idiomas para as que non existen dicionarios bilingües coa nosa lingua”.
Así, o GalNet constitúese como o mellor dicionario multilingüe do galego, porque é o que enlaza o galego co maior número de linguas e de diferentes familias, avanzando tamén cara a normalización do galego “dunha maneira moi directa”.

Neste sentido Gómez Guinovart destaca que o único recurso semellante é a Wikipedia, pero esta só ten entradas de tipo enciclopédico como nomes propios, batallas, lugares, etc. pero non contén léxico xeral, mentres o WordNet contén todo tipo de léxico, tanto xeral como enciclopédico, conclúe.

 

Ningún comentario:

Publicar un comentario