jueves, 29 de julio de 2021

'MarIA', el primer sistema de Inteligencia Artificial experto en lengua española

El superordenador 'MareNostrum' de Barcelona Supercomputing Center ha sido el encargado de procesar la información necesaria para crear este proyecto de uso gratuito.

Los ficheros de datos de MarIA no están en dominio público,
es decir, no están disponibles.
BSC-CNS


El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España (BNE) han presentado un nuevo proyecto que combina la Inteligencia Artificial (IA) y el estudio de nuestro idioma. Dicha innovación se llama 'MarIA' y se trata de un modelo de IA disponible en abierto que posee el objetivo de mejorar el uso del español por parte de otros sistemas u aplicaciones que empleen la Inteligencia Artificial.

Este proyecto ha sido liderado por la investigadora Marta Villegas, del grupo de minería de textos del BSC, y se ha ido probando en el superordenador 'MareNostrum' con archivos de datos de la Biblioteca Nacional. Según han destacado desde la BNE, MarIA se trata del primer modelo de Inteligencia Artificial masivo de la lengua española que expresa y escribe a nivel experto.

El quinto superordenador más potente del mundo es de Tesla y maneja y 'educa' a la inteligencia artificial de sus coches

Las funciones de MarIA pueden ser los correctores o predictores del lenguaje, aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática (entre otros). Además, todas estas opciones las puede usar cualquier desarrollador, empresa o entidad de manera gratuita.

Para crear este modelo de IA se han necesitado 59 terabytes (equivalente a 59.000 GB) del archivo web de la BNE, aunque estos archivos se procesaron para eliminar aquellos textos que no estuviesen bien formados con el objetivo de guardar los que estaban bien escritos a nivel gramatical.

MarIA es un conjunto de redes neuronales entrenadas para comprender la lengua, su léxico y los mecanismos para expresar el significado. Para ello, se utilizó la tecnología basada en Transformer, probada con el inglés, para que dicha IA aprenda a adivinar el contexto de cada palabra. 

De momento, el equipo de trabajo liderado por Marta Villegas quiere ampliar la fuente de archivos con textos y archivos adiciones, veremos si en un futuro se aplica esta innovación definitivamente en el euskera, gallego y catalán.

Sabrán a qué obras miras: los museos incorporan sistemas de análisis de miradas para identificar los cuadros más populares



 

Fuente: 20bits

 

No hay comentarios:

Publicar un comentario