Nueva IA que aporta comprensión del español para el desarrollo de aplicaciones

  • Inteligencia Artificial

Una de las barreras que impiden el desarrollo de interfaces y aplicaciones capaces de comunicarse con las personas es el procesamiento del lenguaje natural, algo que presenta sus propias complicaciones en cada idioma. Ahora, el Centro de Supercomputación de Barcelona ha lanzado MarIA, un sistema de IA experto en comprender y escribir el español, al que podrán recurrir gratuitamente los desarrolladores de aplicaciones para crear todo tipo de software basado en la interacción en nuestra lengua.

Recomendados: 

Entendiendo la Era del dato: tecnologías y propuestas para gestionar la "datificación" Webinar 

IT Trends 2021. Asimilando la aceleración digital Leer

El Centro de Supercomputación de Barcelona (BSC) acaba de anunciar la disponibilidad de MarIA, un innovador sistema de inteligencia artificial especializado en la comprensión y escritura en lengua castellana. Esta tecnología ha sido desarrollada empleando el supercomputador Marenostrum, y su modelo de IA se ha entrenado con gran cantidad de archivos de la Biblioteca Nacional. Este proyecto se ha financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital, y también del Future Computing Center, una iniciativa del BSC y la compañía IBM.

Este innovador sistema se ha puesto a disposición de los desarrolladores de software de forma totalmente gratuita, y se podrá utilizar para crear todo tipo de software en el que se necesite un alto nivel de comprensión del español. Por ejemplo, búsquedas inteligentes, chatbots, motores de traducción y subtitulación automática, predictores y correctores lingüísticos, aplicaciones de resumen automático o aplicaciones para el análisis de sentimientos. Según sus creadores, se trata del primer modelo de la lengua española realizado con inteligencia artificial y basado en datos masivos.

Como explican en su comunicado, MarIA ya está disponible de forma totalmente abierta, aunque los archivos empleados para su entrenamiento no son accesibles para el público, ya que forman parte de los resultados de rastreo y archivado de las webs españolas, que la Biblioteca Nacional conserva como patrimonio documental, siguiendo la ley de depósito legal. Y solo han sido accesibles para este proyecto gracias a que el proyecto estaba amparado por el Plan de Tecnologías del Lenguaje.

MarIA es un conjunto de redes neuronales profundas que se han entrenado para lograr una comprensión muy profunda del idioma español, su léxico y sus mecanismos para expresar el significado de formas complejas y poder escribir en nuestra lengua como una persona. Estos complejos modelos del lenguaje son capaces de trabajar con interdependencias cortas y largas, lo que permite comprender conceptos abstractos y su contexto, algo muy complicado que hasta ahora ha supuesto un quebradero de cabeza par los investigadores centrados en el procesamiento del lenguaje natural.

La responsable del proyecto y líder del grupo de minería de textos del BSC-CNS, Marta Villegas, ha destacado en su comunicado lo importante que es poder implementar nuevas tecnologías de inteligencia artificial en este campo. En su opinión, estas innovaciones “están transformando completamente el campo del procesamiento del lenguaje natural. Con este proyecto contribuimos a que el país se incorpore a esta revolución científico-técnica y se posicione como actor de pleno derecho en el tratamiento computacional del español”.

Por su parte, Alfonso Valencia, director del departamento de Ciencias de la Vida del BSC-CNS, comenta que “la infraestructura de Computación de Altas Prestaciones del BSC ha demostrado ser esencial para este tipo de grandes proyectos que requieren tanto de mucha computación como de grandes cantidades de datos. Para nosotros, es muy satisfactorio poner capacidades técnicas y conocimiento experto al servicio de un proyecto con tantas repercusiones para la posición del español en la sociedad digital”.

El sistema MarIA se encuentra en sus primeras etapas, con modelos generales del lenguaje, y sus creadores ya están buscando nuevas fuentes de información que aporten una comprensión superior que permita captar más matices, provenientes de entornos ajenos a Internet, como las publicaciones científicas del CSIC. Y también quieren expandir estas capacidades a las diferentes lenguas que se hablan en nuestro país, lo que en el futuro permitirá un alto nivel de comprensión y escritura del euskera, el gallego, el catalán, el portugués y el español de las diferentes regiones de Latinoamérica.