Mejoran el entrenamiento de IA para la tecnología de visión por computador

Inteligencia Artificial

05 JUL 2021

El gigante tecnológico Google ha utilizado dos mil millones de parámetros para entrenar un nuevo modelo de inteligencia artificial enfocado a la visión por computador. El nuevo modelo ViT-G/14 se basa en el último desarrollo de ViT de Google y ha conseguido incrementar el grado de precisión en la identificación automática de imágenes, superando a todos sus predecesores.

Recomendados:

Entendiendo la Era del dato: tecnologías y propuestas para gestionar la "datificación" Webinar

IT Trends 2021. Asimilando la aceleración digital Leer

El desarrollo de las tecnologías de visión por ordenador es clave para ciertas aplicaciones de la inteligencia artificial, donde utiliza para la identificación de imágenes, tanto en usos industriales como en la seguridad, por ejemplo, para la detección de rostros, personas y comportamientos. Además, forma parte de aplicaciones más complejas en otras áreas, por lo que el aumento de la precisión en la visión por computador se ha convertido en una prioridad para los desarrolladores. Uno de los más implicados en el avance de esta tecnología es Google, que ha desarrollado la tecnología Vision Transformer (ViT), y ahora ha anunciado un nuevo avance.

Se trata de un nuevo modelo de visión por computador de aprendizaje profundo, denominado ViT-G-14, que los xpertos de Google Brain han entrenado empleando 2.000 millones de parámetros sobre 3.000 millones de imágenes, y que ha logrado un porcentaje de acierto en la identificación del 90,45% en ImageNet. Además, se han utilizado otros puntos de referencia para determinar su fiabilidad y precisión, como ImageNet-v2 y VTAB 1k, entre otros, que han revelado que este modelo supera a sus predecesores en más de cinco puntos porcentuales en la identificación de imágenes.

Tras obtener estos resultados, los investigadores han entrenado varias versiones más pequeñas de este modelo para hallar una ley de escala de la arquitectura, y han observado que el rendimiento sigue una función de ley de potencia, similar a la que se puede aplicar a los modelos Transformer que emplean en las aplicaciones de programación neurolingüística (PNL). Esta arquitectura comenzó a usarse en 2017 y se ha convertido en una de las más populares para los modelos de aprendizaje profundo de PNL, junto con el GPT-3 de OpenAI.

Precisamente los expertos del proyecto OpenAI publicaron el año pasado un estudio que incluía las reglas de escala para estos modelos, y desarrollaron una función de ley de potencia para determinar la precisión de un modelo entrenando varios modelos comparables de diferentes tamaños. Y también modificando la cantidad de datos de entrenamiento y la potencia de procesamiento, lo que les permitió descubrir que los modelos más grandes funcionan mejor y son más eficientes en el aprovechamiento de recursos informáticos.

Los expertos de Google explican en su artículo que hasta hace poco la inmensa mayoría de modelos de aprendizaje profundo utilizados en el procesamiento neurolingüístico empleaban una arquitectura de red neuronal convolucional (CNN), que demostró sus capacidades en un concurso celebrado por ImageNet en 2012. Pero ahora, tras el éxito de los modelos Transformer en aplicaciones PNL, los expertos han comenzado a valorar la posibilidad de aplicar esta arquitectura al campo de la visión por computador. Un ejemplo es el sistema de generación de imágenes basado en GPT-3 que ha desarrollado OpenAI, y otro es el modelo ViT entrenado con 600 millones de parámetros en el que Google ha estado trabajando hasta finales de 2020, utilizando su conjunto de datos patentado JFT-300M.

Pro ahora se ha dado un paso más en la aplicación de esta arquitectura a la visión por ordenador con ViT-G/14, que previamente se entrenó con JFT-3B, una versión mejorada del conjunto de datos antes mencionado. En este último trabajo han mejorado la arquitectura ViT, aumentando además el uso de memoria para permitir que se ajustase a un solo núcleo TPUv3. El resultado es un sistema que ha alcanzado la primera posición en ImageNet, y una serie de conclusiones muy valiosas para los desarrolladores de visión por computador. La primera es que, según una función de la ley de potencias, escalar más cálculos, modelos y datos mejora la precisión del sistema. La segunda es que en modelos más pequeños es difícil lograr una precisión adecuada, y la tercera es que los conjuntos de datos más grandes ayudan a mejorar el desempeño en los modelos más grandes.

TAGS Innovación, Inteligencia artificial, IT Trends

Patrocinadores

Reportaje

La necesidad indispensable de una infraestructura de respaldo integral en el panorama empresarial actual

En la era digital actual, donde los datos son críticos y los avances tecnológicos dan forma a la manera en la que se llevan a cabo los negocios, una sólida infraestructura de respaldo se ha convertido en la piedra angular de toda empresa exitosa. Los datos son el eje central de las empresas modernas, sirviendo como base para la toma...

Los planes de almacenamiento en la nube están en jaque: la alternativa de Synology

Durante años, los proveedores de almacenamiento en la nube han atraído a empresas con planes ilimitados. Sin embargo, la viabilidad económica de estas ofertas ha sido cuestionada, llevando a las empresas a abandonar gradualmente los planes de almacenamiento ilimitado y explorar alternativas ante este cambio en el mercado.

Descubriendo los Puntos Ciegos de la Vigilancia Empresarial: una mirada profunda

La videovigilancia en las empresas es crucial para salvaguardar no solo los datos si no proteger todos los elementos valiosos dentro de una infraestructura para garantizar y mantener el funcionamiento ininterrumpido de una organización.

ENCUENTROS ITDM GROUP

Encuentro IT Trends 2024: Liderando la innovación

Además de la IA, habrá muchos otros motores que estarán dirigiendo innovación en las empresas el próximo año: la automatización, la consolidación, la sostenibilidad, el autoservicio, la ciberseguridad, las plataformas industriales en la nube, la conectividad, la experiencia digital… Únete a este Encuentro IT Trends 2024 en el que analizamos los principales vectores tecnológicos para impulsar la innovación en las empresas. Con la participación de AON, Ávoris, Enso, Holcim, Ayesa, Commvault, Digiu Digital, Incentro, Schneider, B-FY, Bitdefender, Netskope y SonicWall

IT TELEVISIÓN

DOCUMENTOS

10 formas de dominar el trabajo moderno

El 80% de los CEO está aumentando sus inversiones en tecnología digital para hacer frente a las presiones económicas actuales, creando oportunidades para utilizar la información y anticiparse a las tendencias y superar a la competencia mediante la transformación de los procesos, la automatización del negocio y una mejor colaboración en los contenidos. Descubre cómo situar a tu compañía a la cabeza del mercado digital leyendo estas 10 formas de dominar el trabajo moderno.

Cómo combatir la complejidad de los costes con FinOps

Nos encontramos en un momento en que el que existen un sinfín de opciones de cloud computing. Con un coste de entrada relativamente bajo y la innovación empresarial como telón de fondo, las empresas se encuentran ante el reto de lidiar con un cada vez mayor número de sistemas, lo que provoca que tengan que hacer frente a una mayor compleji...

CONTENIDO RELACIONADO

CONTENIDO RECOMENDADO