Mejoran el entrenamiento de IA para la tecnología de visión por computador

  • Inteligencia Artificial

El gigante tecnológico Google ha utilizado dos mil millones de parámetros para entrenar un nuevo modelo de inteligencia artificial enfocado a la visión por computador. El nuevo modelo ViT-G/14 se basa en el último desarrollo de ViT de Google y ha conseguido incrementar el grado de precisión en la identificación automática de imágenes, superando a todos sus predecesores.

Recomendados: 

Entendiendo la Era del dato: tecnologías y propuestas para gestionar la "datificación" Webinar 

IT Trends 2021. Asimilando la aceleración digital Leer

El desarrollo de las tecnologías de visión por ordenador es clave para ciertas aplicaciones de la inteligencia artificial, donde utiliza para la identificación de imágenes, tanto en usos industriales como en la seguridad, por ejemplo, para la detección de rostros, personas y comportamientos. Además, forma parte de aplicaciones más complejas en otras áreas, por lo que el aumento de la precisión en la visión por computador se ha convertido en una prioridad para los desarrolladores. Uno de los más implicados en el avance de esta tecnología es Google, que ha desarrollado la tecnología Vision Transformer (ViT), y ahora ha anunciado un nuevo avance.

Se trata de un nuevo modelo de visión por computador de aprendizaje profundo, denominado ViT-G-14, que los xpertos de Google Brain han entrenado empleando 2.000 millones de parámetros sobre 3.000 millones de imágenes, y que ha logrado un porcentaje de acierto en la identificación del 90,45% en ImageNet. Además, se han utilizado otros puntos de referencia para determinar su fiabilidad y precisión, como ImageNet-v2 y VTAB 1k, entre otros, que han revelado que este modelo supera a sus predecesores en más de cinco puntos porcentuales en la identificación de imágenes.

Tras obtener estos resultados, los investigadores han entrenado varias versiones más pequeñas de este modelo para hallar una ley de escala de la arquitectura, y han observado que el rendimiento sigue una función de ley de potencia, similar a la que se puede aplicar a los modelos Transformer que emplean en las aplicaciones de programación neurolingüística (PNL). Esta arquitectura comenzó a usarse en 2017 y se ha convertido en una de las más populares para los modelos de aprendizaje profundo de PNL, junto con el GPT-3 de OpenAI.

Precisamente los expertos del proyecto OpenAI publicaron el año pasado un estudio que incluía las reglas de escala para estos modelos, y desarrollaron una función de ley de potencia para determinar la precisión de un modelo entrenando varios modelos comparables de diferentes tamaños. Y también modificando la cantidad de datos de entrenamiento y la potencia de procesamiento, lo que les permitió descubrir que los modelos más grandes funcionan mejor y son más eficientes en el aprovechamiento de recursos informáticos.

Los expertos de Google explican en su artículo que hasta hace poco la inmensa mayoría de modelos de aprendizaje profundo utilizados en el procesamiento neurolingüístico empleaban una arquitectura de red neuronal convolucional (CNN), que demostró sus capacidades en un concurso celebrado por ImageNet en 2012. Pero ahora, tras el éxito de los modelos Transformer en aplicaciones PNL, los expertos han comenzado a valorar la posibilidad de aplicar esta arquitectura al campo de la visión por computador. Un ejemplo es el sistema de generación de imágenes basado en GPT-3 que ha desarrollado OpenAI, y otro es el modelo ViT entrenado con 600 millones de parámetros en el que Google ha estado trabajando hasta finales de 2020, utilizando su conjunto de datos patentado JFT-300M.

Pro ahora se ha dado un paso más en la aplicación de esta arquitectura a la visión por ordenador con ViT-G/14, que previamente se entrenó con JFT-3B, una versión mejorada del conjunto de datos antes mencionado. En este último trabajo han mejorado la arquitectura ViT, aumentando además el uso de memoria para permitir que se ajustase a un solo núcleo TPUv3. El resultado es un sistema que ha alcanzado la primera posición en ImageNet, y una serie de conclusiones muy valiosas para los desarrolladores de visión por computador. La primera es que, según una función de la ley de potencias, escalar más cálculos, modelos y datos mejora la precisión del sistema. La segunda es que en modelos más pequeños es difícil lograr una precisión adecuada, y la tercera es que los conjuntos de datos más grandes ayudan a mejorar el desempeño en los modelos más grandes.