Nuevos chipsets para el procesamiento de lenguaje natural y del sonido ambiental

  • Inteligencia Artificial

Cada vez hay más servicios digitales vinculados al reconocimiento del habla, desde asistentes de voz a chatbots de uso comercial o sistemas de seguridad avanzados. Proporcionar estos servicios a usuarios finales requiere dispositivos dotados de capacidades internas de procesamiento de lenguaje natural y de tratamiento automático del sonido ambiental, una tecnología de chipsets que va a expandir rápidamente su mercado en los próximos cinco años.

Recomendados: 

Entendiendo la Era del dato: tecnologías y propuestas para gestionar la "datificación" Webinar 

IT Trends 2021. Asimilando la aceleración digital Leer

Las tecnologías basadas en el procesamiento del lenguaje natural (NLP) y el procesamiento del sonido ambiental han ido ganando presencia en el ecosistema digital gracias a los asistentes digitales como los de Google, Apple y Amazon, aunque tienen otros usos en chatbots de atención al cliente, por ejemplo. Principalmente se trata de servicios basados en la nube, una fórmula que les ha permitido expandirse en estos ámbitos, pero que ha impedido su adopción en otros mercados donde lo principal es la seguridad, la privacidad y la continuidad del servicio, aunque no se tenga conexión a Internet.

Pero la industria está avanzando mucho en la creación de software y también de componentes electrónicos específicamente diseñados para ciertas funciones inteligentes, y los chipsets de procesamiento de lenguaje natural y de sonido ambiental están cada vez más evolucionados. Los principales expertos en la materia están empleando tecnologías de compresión de aprendizaje profundo y chipsets de IA de nueva generación que permiten la integración de estas dos capacidades en un dispositivo sin necesidad de que tenga acceso a los servicios PNL en la nube.

Esto permite construir dispositivos que pueden reducir los riesgos de seguridad y privacidad de datos y ofrecer un servicio de reconocimiento de voz y sonido ambiente sin interrupciones, lo que según los expertos va a impulsar un mercado emergente con grandes perspectivas de futuro. La última investigación de ABI Research pronostica que para el año 2026 habrá más de 2.000 millones de dispositivos finales dotados de un chipset específico para el procesamiento del sonido ambiental o para el procesamiento de lenguaje natural.

En opinión de Lian Jye Su, analista principal de Inteligencia Artificial y Aprendizaje Automático en ABI Research, “NLP y el procesamiento de sonido ambiental seguirán el mismo camino evolutivo de nube a borde que la visión artificial. A través de tecnologías eficientes de compresión de modelos y hardware, esta tecnología ahora requiere menos recursos y puede integrarse completamente en los dispositivos finales”.

Aunque esta tecnología tiene lógicamente ciertas limitaciones, ya que un dispositivo de tamaño y capacidades informáticas reducidas no puede procesar por sí solo la misma cantidad de información que las grandes plataformas de la nube. Por ello, Su explica que, de momento, “la mayoría de las implementaciones se centran en tareas simples, como la detección de palabras de activación, el reconocimiento de escenas y la biometría de voz. Sin embargo, en el futuro, los dispositivos habilitados para IA contarán con aplicaciones de procesamiento de voz y audio más complejas”.

En el ámbito de los smartphones los principales fabricantes como Apple ya están moviéndose para integrar ciertas capacidades NLP offline a través de nuevos chips integrados en los terminales, para facilitar el uso de sus asistntes de voz. Pero más allá de este mercado de consumo, el segmento empresarial de chipsets con estas capacidades es el que más potencial tiene de cara al futuro. En cuanto al procesamiento de sonido ambiente, la tecnología de chipsets está todavía en una etapa temprana de desarrollo, y el proveedor más destacado es Infineon. Pero están surgiendo nuevos usos interesantes que están abriendo vías en desarrollo para otros fabricantes. En ABI Research pone como ejemplo el reconocimiento del sonido que emite cualquier tipo de maquinaria, lo que permite monitorizar su actividad de forma muy sencilla. Y, en combinación con sensores de temperatura, presión o par esto permitiría detectar anomalías de cara al mantenimiento predictivo.

En combinación con el reconocimiento de lenguaje natural las posibilidades de estas tecnologías son enormes, y algunos grandes fabricantes de chips y empresas emergentes están sumando fuerzas para desarrollar soluciones vinculadas a las plataformas de inteligencia artificial más avanzadas. En ellas se combinan sistemas de reconocimiento de voz, de sonido ambiente, de imagen y diferentes parámetros del entorno, con el fin de hacer máquinas capaces de desenvolverse en el mundo real.

En su informe, Su dice que “además del hardware dedicado, los desarrolladores de aprendizaje automático también buscan aprovechar varias técnicas novedosas de aprendizaje automático, como el aprendizaje multimodal y el aprendizaje federado. A través del aprendizaje multimodal, los sistemas de inteligencia artificial de borde pueden volverse más inteligentes y seguros si combinan conocimientos de múltiples fuentes de datos. Con el aprendizaje federado, los usuarios finales pueden personalizar la IA de voz en los dispositivos finales, ya que la IA de borde puede mejorar basándose en el aprendizaje de sus entornos locales únicos”.