O CiTIUS (Centro Singular
de Investigación en Tecnoloxías da Información emprazado no Campus
Vida de Santiago), presentou os días pasados as características e
obxectivos dun proxecto de seu destinado a facilitar ao máximo o
procesamento lingüístico de grande cantidades de texto e
información masiva. Falamos de BigNLP:
Aproximando a Computación de Altas Prestacións ás Tecnoloxías Big
Data: Aplicación ao Procesamento da Linguaxe Natural. Como
se indica no seu epígrafe, trátase de facer doado o
tratamento lingüístico de cantidades inxentes de coñecemento. O
reto dos investigadores do proxecto (Juan Carlos Pichel Campos e
Tomás Fernández Pena) é superar os atrancos existentes até o de
agora na devandita tarefa: o alto custe computacional e os problemas
de adaptación e evolución das técnicas de procesamento actuais.
Estes
atrancos, sinalan, fan inviábeis estas metodoloxías existentes para
a análise de grandes volumes (gigabytes e terabytes) de documentos.
O proxecto parte pois da seguinte base: a computación de altas
prestacións e o uso de estratexias orientadas a Big Data
encaixan de maneira natural como solución á limitada eficiencia
computacional dos módulos actuais para o procesamento lingüístico.
Así, sinalan, “a relativa simplicidade modular dos
procesos, así como a clara independencia das unidades lingüísticas
de entrada (frases, parágrafos, textos...), son factores a ter en
conta que poden facilitar a integración dos módulos de PLN no
contexto dos sistemas computacionais de altas prestacións mediante o
uso de tecnoloxías Big Data”.
Así pois, o obxectivo
principal do proxecto é o de desenvolver un conxunto de novas
ferramentas e solucións para o tratamento de información masiva, o
que vai permitir integrar nunha suite paralela (con capacidade de
evolucionar e adaptarse a diferentes contornas) un conxunto de
módulos multilingües para o procesamento da linguaxe natural. “Esta
suite”, explican os investigadores do CiTIUS, “debe procesar
grandes cantidades de texto en tempos de execución reducidos e, ao
mesmo tempo, facer un uso eficiente das plataformas hardware de altas
prestacións que se consideren, prestando especial atención ás
arquitecturas heteroxéneas”.
Máis polo miúdo, vanse
considerar módulos para tarefas como por exemplo a extracción de
termos multipalabra, as análises sintácticas ou de co-referencia e
ou o estudo de sentimentos. Os responsábeis do proxecto destacan,
neste punto, que os novos módulos PLN que se van a desenvolver
poderán utilizarse en aplicacións lingüísticas máis complexas e
de alto nivel, como a tradución automática, a recuperación de
información ou sistemas de vixilancia tecnolóxica, etc.
Ningún comentario:
Publicar un comentario