La inteligencia artificial MarIA comienza a generar textos en español

  • Inteligencia Artificial

El proyecto MarIA del Centro de Supercomputación de Barcelona ha logrado crear una IA que permita utilizar el idioma español para apoyar la digitalización de la administración, y ya ha dado sus primeros frutos. Sus creadores acaban de anunciar que, tras cinco meses desde su creación, esta IA ya es capaz de resumir y generar textos, un primer paso en el camino hacia la utilización del reconocimiento del lenguaje natural a gran escala.

Recomendados: 

Empresas data driven: estrategias de datos para marcar la diferencia Evento 

Entendiendo la Era del dato: tecnologías y propuestas para gestionar la "datificación" Webinar 

Hace unos pocos meses el Centro de Supercomputación de Barcelona anunció el lanzamiento del proyecto MarIA, una inteligencia artificial enfocada al reconocimiento del lenguaje natural en idioma español, que en el futuro se emplearán en muchas aplicaciones digitales de las Administraciones Públicas. La creación de esta IA ha sido promovida por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), como parte del Plan Nacional de Tecnologías del Lenguaje, y con financiación proveniente de la Estrategia Nacional de Inteligencia Artificial y Plan de Recuperación.

Desde su lanzamiento, los expertos del BSC han entrenado esta IA con más de 135.000 millones de palabras del archivo web de la Biblioteca Nacional, creando una inteligencia artificial con grandes capacidades que sitúa el idioma español como como el tercero a nivel mundial que cuenta con un modelo de acceso abierto masivo, tras el inglés y el mandarín. Gracias a la publicación abierta de los resultados los desarrolladores de aplicaciones cuentan con una fuente de conocimiento de alto valor para su uso en software de procesamiento de lenguaje natural.

Hasta el momento el proyecto MarIA se ha formado empleando las capacidades del ordenador MareNostrum 4, aprendiendo de las webs en español, y sus creadores acaban de anunciar los primeros resultados de su trabajo. Han desarrollado un modelo de IA basado en redes neuronales profundas, capaz de comprender el lenguaje en español, su léxico y sus mecanismos para expresar significado. Esto no solo permite entender el significado de una palabra o frase, sino que es capaz de entender conceptos abstractos y entender el contexto, lo que se acerca mucho a la forma en que una persona es capaz de entender el lenguaje.

Esto es una característica importante de cara al desarrollo de sistemas de reconocimiento de lenguaje natural, que necesitan capacidades más elevadas para entender el habla en cualquier idioma. En su último comunicado, los responsables del proyecto en el BSC explican que la primera versión de MarIA se realizó con la tecnología RoBERTa, que permite crear modelos de lenguaje de tipo “codificador”. Este es capaz de interpretar una secuencia de texto para la clasificación de documentos, para responder preguntas de opción múltiple, encontrar similitudes semánticas entre diferentes textos o detectar los sentimientos que se expresan en un texto.

Pero esta nueva versión de MarIA se ha creado con GPT-2, una tecnología más avanzada que es capaz de crear modelos de decodificadores generativos y de añadir más características al sistema. Esto permite desarrollar capacidades más complejas, como hacer resúmenes automáticos, simplificar una redacción complicada adaptada para diferentes perfiles de usuario, generar preguntas y respuestas, mantener diálogos complejos con usuarios e, incluso, escribir textos completos a partir de un título o una pequeña cantidad de palabras, de forma muy similar a como lo haría un humano.

Gracias a ello, MarIA se ha convertido en una herramienta con capacidad de aprendizaje adaptada a tareas específicas, que puede ser de gran utilidad para desarrollar aplicaciones empresariales o para la administración pública. Sus creadores ponen como ejemplo generar resúmenes de contratos o documentos altamente complejos, en base a lo que necesite encontrar cada usuario, u obtener información específica en grandes bases de datos para relacionarla con otra información relevante, pero sus posibilidades son enormes.

La secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, ha dicho que “con proyectos como MarIA, que se incorporará al PERTE para el desarrollo de una economía digital en español, estamos dando pasos firmes hacia una inteligencia artificial que piense en español, que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española. Porque el lenguaje es mucho más que un medio de comunicación. Es una proyección de la forma en que vemos el mundo, también en la nueva realidad digital”.

Ana Santos, directora de la Biblioteca Nacional de España (BNE), ha comentado que “omo institución responsable del depósito legal electrónico, la Biblioteca Nacional de España (BNE) conserva millones de sitios web, millones de palabras que se repiten en un contexto determinado y que son producto de muchas recolecciones de la web española, tanto de dominio.es como selectivas, realizadas desde hace años por los equipos de la BNE, lo que conforma el gran corpus del español que hoy se habla en nuestro país”.

Por su parte, los directores del BSC-CNS y de la BNE también ponen en valor la importancia de una tecnología capaz de proporcionar a las máquinas una comprensión avanzada del español. Consideran que esto proporcionará grandes beneficios a las empresas, a las Administraciones Públicas y a la sociedad, gracias a aplicaciones con las que se podrá interactuar a través de la voz. Por ahora esperan desarrollar versiones especializadas de MarIA para áreas concretas como la biomedicina y la ley, que resolverán numerosos problemas de la sociedad. Pero, a través del PlanTL, esperan expandir MarIA a nuevos desarrollos tecnológicos relacionados con el procesamiento del lenguaje natural, más allá de GPT-2. Esto permitirá entrenar la IA con más datos y crear espacios de trabajo para facilitar el uso de MarIA por empresas y grupos de investigación.