El gran reto de gestionar los datos no estructurados ante la revolución digital

  • Actualidad

El gran reto de gestionar los datos no estructurados ante la revolución digital

Resulta imposible entender el ecosistema digital de las empresas sin tener en cuenta las nuevas fuentes de datos no estructurados, como las que contienen los correos electrónicos, las imágenes o los documentos digitales. Pero la necesidad de capturar la información que éstas encierran está planteando serios problemas para la gestión de los datos. Y ante el creciente volumen de información digital que les llega de fuentes cada vez más diversas, las organizaciones están buscando soluciones que hagan más fácil y productivo el trabajo.

Recomendados: 

Informe IT Trends: 2020, el año de la consolidación digital Leer

Ciberseguridad en 2020, ¿qué podemos esperar? Registro

Tendencias TI 2020, visionando el futuro. Webinar ondemand.

Las fuentes de datos tradicionales contienen información, pero muchas veces la más importante o valiosa se encuentra en los archivos considerados como no estructurados. Por ejemplo, las fotografías, los emails, los documentos de texto y los ficheros de audio o vídeo. Obtener información de estas fuentes es complicado, ya que se requieren tecnologías capaces de determinar la naturaleza específica de estos archivos y de extraer la información que contienen. Además, es vital que los datos resultantes sean analizados en cierta forma para poder contextualizarlos y categorizarlos, de forma que puedan añadirse a los sistemas.

Esto se ha convertido en una especialidad en sí misma, pero las organizaciones no cuentan con personal capacitado para gestionar este tipo de información, lo que les impide extraer un valor que de otra forma quizá no podrían obtener. Según la versión de 2020 del estudio Rise of the Data Economy, publicado recientemente por la empresa Igneus, el 70% de las organizaciones considera extremadamente difícil gestionar los datos no estructurados.

Esto genera una importante preocupación a los líderes de datos, ya que estas fuentes se están convirtiendo en vitales para las organizaciones, y no poder identificarlas, gestionarlas y extraer la información valiosa que contienen supone un problema creciente. Las empresas que más están avanzando en la digitalización, especialmente aquellas que ya han reorientado sus modelos de negocio para aprovechar el valor del dato, comienzan a percibir este problema, y a enfrentarse a los retos que genera el trabajo con datos no estructurados.

Desafíos en la gestión de datos no estructurados

Una de las dificultades más importantes que enfrentan las organizaciones digitalizadas es que las principales fuentes de datos no estructurados son máquinas que funcionan constantemente. Debido a ello generan datos "en bruto" de forma permanente, a una escala de petabytes, tan rápido que resultan difíciles de asimilar por las infraestructuras tecnológicas que tienen las organizaciones.

Otro de los problemas es que estos archivos no se pueden incluir en ningún sistema tradicional de organización o clasificación que permita contextualizar los datos que contienen, por lo que no se pueden introducir en bases de datos tal cual. Primero se debe extraer la información que contienen y, después, categorizarla para que pueda entrar a formar parte del sistema de datos. Además, según el estudio, estos archivos se encuentran casi siempre en sistemas NAS locales, lo que dificulta aún más su gestión.

A estos dos retos se suma la creciente complejidad de las infraestructuras empresariales, que actualmente incluyen multitud de fuentes de datos internas y externas, donde ya no hay una única nube, sino varias. Esto hace que sea más difícil mover los archivos entre las distintas plataformas locales y cloud, lo que reduce, igualmente, la visibilidad de los millones de archivos que manejan las organizaciones, y más aún la gestión de los datos no estructurados que estos contienen.

Los estudios más optimistas sobre el asunto indican que aproximadamente un tercio de los datos que tienen las organizaciones carece de valor, pero se ven incapaces de eliminarlos. Esto se debe, según los expertos, a una combinación de la dificultad para mover estos datos y la falta de visibilidad de los mismos. Una invisibilidad que complica el proceso de archivado y respaldo de la información, lo cual redunda en un grave problema, especialmente en lo que se refiere al creciente volumen de datos en la nube, y más particularmente en el porcentaje proveniente de archivos desestructurados.

Crecimiento exponencial de los datos

La encuesta de Igneus indica que el 60% de las organizaciones se ven obligadas a administrar más de 1.000 millones de archivos de forma constante. De ellas, el 10% que más archivos gestiona supera la barrera de los 150.000 millones, con una capacidad total de, al menos, 83 Petabytes de datos. Y estas cifras no paran de crecer, haciendo que la ingente cantidad de información a administrar por las organizaciones se vuelva inmanejable con las técnicas tradicionales.

Los ejemplos de crecimiento explosivo son claros en industrias como la de la salud, donde se están empleando sistemas de secuenciación de ADN e imágenes de diagnóstico digitales, generando archivos no estructurados que contienen enormes cantidades de datos. Para comprenderlos y utilizarlos en los tratamientos médicos y en la lucha contra enfermedades se está recurriendo cada vez más a sistemas como la inteligencia artificial, la visión por ordenador y el aprendizaje automático, que parecen ser las únicas tecnologías capaces de manejar tal cantidad de información.

Otra industria en la que se prevé un crecimiento explosivo de los datos no estructurados, y en la que se alcanzará la escala de Exabytes con sorprendente facilidad, será la de los vehículos autónomos. De hecho, lo que se considera como su versión preliminar, la industria de vehículos conectados, ya está experimentando un aumento enorme de los datos generados por los coches, tanto de imágenes como de posicionamiento y servicios asociados a la conducción.

Mejorando la visibilidad de los datos

Todos estos desafíos ponen en jaque a las organizaciones a la hora de administrar las nuevas fuentes de datos no estructurados, ya que la falta de visibilidad les impide trabajar con la información en sus diferentes ubicaciones de forma precisa y fiable. Y los líderes de datos echan en falta acuerdos de nivel de servicio adaptados a sus necesidades actuales y futuras en cuanto a los datos, que actualmente quedan desprotegidos.

Esto está suponiendo un freno para las estrategias de digitalización de muchas organizaciones, que no logran aprovechar bien las posibilidades de la nube para reducir el volumen de su TI local. Por ello, las organizaciones están buscando la forma de recuperar el control de la situación, para lo que los expertos recomiendan trabajar en dos principales líneas de acción.

El primer frente de batalla para optimizar el trabajo con datos no estructurados es mejorar la visibilidad de esta información, ya que los responsables de TI necesitan contar con datos fiables para la toma de decisiones y para la propia administración de los archivos. Esto les permite determinar con más precisión el lugar adecuado para todos los datos, ya sea en un nivel primario, secundario o en el almacenamiento en frío, y también saber cuáles pueden ser eliminados sin riesgos.

Esto es algo imposible de lograr con las herramientas tradicionales, que tardan demasiado tiempo en proporcionar información fiable sobre el estado del almacenamiento. Además, no son capaces de determinar la naturaleza de los datos con la precisión que se requiere para el trabajo con archivos desestructurados. Por ello, según afirman los analistas de Igneus en su informe, las organizaciones deben optar por soluciones que les proporcionen una buena visibilidad teniendo en cuenta estos tres factores fundamentales:

Escala: el problema de muchas herramientas de administración de datos convencionales es su incapacidad para funcionar al rendimiento adecuado cuando la escala se incrementa hasta la barrera de los mil millones de archivos. Porque la cantidad de archivos no estructurados que manejan las organizaciones va a superar esta cifra, si no lo hace ya, y es necesario acelerar al máximo el análisis de esta información. Por ello, es necesario contar con un sistema capaz de realizar el trabajo en horas o días, en vez de en semanas o meses, como ocurre actualmente.

Alcance: otro de los terrenos donde las herramientas de gestión de datos convencionales fallan es en su capacidad para trabajar en entornos altamente diversificados. Y este es precisamente el contexto en el que se mueven las empresas en la era digital, ya que sus datos provienen de múltiples fuentes y se encuentran repartidos entre diferentes sistemas de archivos locales, en la nube, en el borde y en las aplicaciones finales. Por este motivo, es vital que las organizaciones escojan una herramienta de gestión capaz de moverse ágilmente en todos estos entornos, proporcionando una buena visibilidad independientemente de la ubicación.

As-a-Service: las organizaciones ya tienen suficientes cargas tecnológicas que aumentan la complejidad y el gasto de capital, por lo que añadir a la lista un sistema propio para la gestión de archivos puede generar demasiada complejidad a la TI local. Por ello, y especialmente para las empresas de menor volumen y recursos, los expertos recomiendan buscar soluciones entregadas como servicio que se puedan integrar en el ecosistema de TI existente aportando la visibilidad que se necesita.

Más capacidad de movimiento para los datos

La segunda etapa que enfrentan las organizaciones para la gestión de datos no estructurados, tras aumentar la visibilidad, es mejorar la capacidad que tienen para mover la información entre las diferentes plataformas en los que se alojan. Como señalan los responsables de este estudio, las soluciones tradicionales fallan de nuevo cuando deben trabajar con grandes cantidades de datos, especialmente al pasar la barrera de los mil millones de archivos, que fácilmente alcanza la escala de petabytes.

Como en el caso anterior, de cara al movimiento de los datos se recomienda a las organizaciones que escojan una solución de gestión de datos rápida, eficiente y rentable, en la que deben considerar tres aspectos fundamentales:

Grandes volúmenes de archivos: el reto más importante para las soluciones de gestión de datos no estructurados es que puedan ocuparse de la gran avalancha de información que reciben las organizaciones en la era digital. En este sentido, lo principal es que se garantice la capacidad de mover grandes volúmenes de archivos, a una escala de Petabytes o superior, entre las diferentes plataformas de la organización. Y para ello es vital que sea capaz de aprovechar al máximo el ancho de banda de la red, así como contar con capacidad para escalar horizontalmente con eficiencia para manejar las cargas de transferencia más elevadas.

Administración eficiente de la red: aprovechar las capacidades de la red no consiste sólo en poder hacer grandes transferencias de datos entre las diversas fuentes disponibles, sino en hacerlo de la forma más eficiente posible. Para ello, es vital que la solución de gestión de datos sea capaz de monitorizar la red y de modificar su desempeño en tiempo real, para que la experiencia del usuario no se vea afectada.

Experiencia en la nube: las organizaciones están moviendo buena parte de sus datos a la nube a la vez que incrementan su capacidad en la TI local, ya que el coste en ambos entornos está reduciéndose. Pero esto no implica que sea fácil mover la información y los archivos entre estos entornos, especialmente cuando se trata de datos no estructurados. Por ello, es preferible escoger una solución que cuente con ciertas capacidades de inteligencia en lo que se refiere al trabajo en la nube, lo que permitirá reducir los costes de las transferencias de datos desde y hacia la TI local.

TAGS Tech Data