Fin de la «fuente única de la verdad» al gestionar datos

Durante el artículo se expone el objetivo de que las empresas pasen menos tiempo entendiendo y preparando los datos y más tiempo usándolos, ganan protagonismo propuestas basadas en la estructura de la información, como el data fabric y el data mesh, la integración del vídeo y la imagen ya no es una opción y se impone la descentralización
Eugenio Mallol
29 de agosto de 2022 | Compartir: Compartir en twitter Compartir en LinkedIn
Fin de la «fuente única de la verdad» al gestionar datos
DAN CRISTIAN PADURE / UNSPLASH

La consultora IDC preguntó a 1.100 directivos de 10 países sobre cómo utilizan los datos en la toma de decisiones y, en el 83% de los casos, manifestaron el deseo de que sus organizaciones sean más data driven. Según el informe, las industrias con una cultura liderada por los datos son 3,3 veces más propensas a usarlos en las grandes decisiones; 7,2 veces más a usarlos en las reuniones diarias; 11,1 veces más a hacerlo en la aproximación al trabajo; y 13 veces para apoyar propuestas.

La forma tradicional de administrar los datos, la más habitual hoy, a menudo requiere su traslado a una ubicación central para que estén listos para el análisis. Esto no solo ralentiza la capacidad de los consumidores de datos para obtener los que necesitan rápidamente, sino que crea una gran cantidad de actividades ineficientes para el ártea de TI, como la creación y administración de canalizaciones de datos y también la administración de las copias. Más de dos tercios de las empresas usan más de 20 fuentes de datos diferentes para informar sus sistemas de inteligencia artificial, integración comercial y análisis, y las empresas más grandes a veces llegan a emplear hasta 500 fuentes de datos.

La sintomatología tiene sentido. El informe The 2022 State of Data and What’s Next de Red Hat y Starburst revela que las organizaciones tienen un promedio de cuatro a seis plataformas de datos y hasta 12 separadas, lo que crea un panorama intrincado que incluye muchas aplicaciones y sistemas, así como la capa de integración que los conecta. Las empresas emergentes lo están convirtiendo en una ventaja competitiva, ya que pueden crear una estrategia de datos sólida sin tener que lidiar con esa complejidad y, en muchos casos, eso las sitúa en mejor posición de madurez en el “viaje basado en datos”.

Una arquitectura basada en la estructura de los datos aprovecha la IA (inteligencia artificial) para reducir este tipo de complejidades mediante el aprendizaje de patrones sobre cómo se transforman y utilizan esos datos. Con una estructura de datos, la empresa “pasa menos tiempo entendiendo y preparando los datos, y más tiempo usándolos”, según afirma a Big Data, Quarterly Kristian Gravelle, vicepresidente de marketing y transformación digital de Adastra.

Jess Iandiorio, CMO de Starburst, es partidario, en ese sentido, de abandonar el paradigma de la “Fuente Única de la Verdad”. Según dice, “es hora de que abordemos el ‘elefante en la habitación’ e implementemos un concepto más ágil y con visión de futuro que permita a las empresas aprovechar mejor los datos descentralizados”: el Data Mesh o Malla de Datos. El concepto fue acuñado por por Zhamak Dehghani, director de tecnologías emergentes de Thoughtworks. Parte de un enfoque sociotécnico y va más allá de los modelos centralizados de data lake y data warehouse (almacén de datos) y, en cambio, se centra en un modelo distribuido de arquitectura e infraestructura de datos de varios planos.

“Ya no es necesario que haya un equipo central para transformar, limpiar o integrar los datos para que los use la siguiente persona porque cada dominio tendrá a alguien responsable de hacerlo todo dentro de su dominio, por lo que una vez que llegue a la responsabilidad del consumidor de datos, pueden usar directamente esos datos. Para que esto sea lo más fluido posible, es una buena idea establecer estándares globales dentro de las organizaciones”, apunta Iandiorio.

Los líderes de la industria mencionan también con frecuencia el Data Fabric (tejido de datos) como la tecnología a tener en cuenta en 2022. A diferencia del Data Mesh, que propicia que grupos distintos de equipos administren los datos como mejor les parezca, aunque con algunas disposiciones de gobernanza comunes, el Data Fabric busca construir una única capa de administración virtual sobre los datos distribuidos.

En su sesión en La Hora Premium, Marco Laucelli, cofundador y CEO de Galeo Tech, apuntó que, para que un activo sea valioso, “tenemos que poder gestionarlo, debemos ser propietarios de ese activo y esto tiene que ver con la capacidad de acceso al dato, pero también con disponer de todos los elementos para gestionarlo”. De ahí la importancia del ecosistema en el que se genera, porque “cuando soy consciente de que debo tener esa propiedad, debo hacerlo con un entorno que me proporcione seguridad y eso se traduce en calidad de gobierno”. Y, en una línea similar, en el Diálogos 4.0 de Atlas Tecnológico, Alejandro Alija, cofundador y director de la misma compañía, afirmó que “todo el ecosistema, empresas, proveedores, tecnología, todos tenemos que poner el foco en la escalabilidad, en esos aspectos que no son tan funcionales, pero están relacionados con ella, por ejemplo, las infraestructuras o la tecnología”.

“La naturaleza distribuida de los centros de datos perimetrales hace que la coordinación de las transferencias de datos de IoT sea aún más desafiante. Superar estos retos será clave para permitir que las empresas hagan realidad sus ambiciones de IoT, y la industria de servicios en la nube está comenzando a progresar en estas áreas”, en opinión de Paul Scott-Murphy, director de tecnología de WANdisco. Otra de las tendencias en la gestión de datos está relacionada con las nuevas tecnologías de análisis de imagen. Robert Muehlbauer, de Axis Communications, apunta que “las cámaras de red avanzadas con procesadores de aprendizaje automático o de aprendizaje profundo pueden proporcionar información más granular y descriptiva, como la clasificación de un vehículo”.

El único límite a las aplicaciones de análisis de vídeo parece ser ahora mismo la imaginación. Actualmente, existen soluciones en el mercado para contar personas, leer matrículas, monitorizar flujos de tráfico… y las cámaras con plataformas abiertas permiten a desarrolladores de software independientes crear análisis personalizados para resolver casos de uso específicos. El desafío con este tipo de datos es cómo administrar millones o miles de millones de imágenes para extraer el valor. La respuesta es: metadatos, que brindan información rica y descriptiva en tamaños más procesables. Los metadatos nos proporcionan información sobre los propios datos. Su destino ha dejado de ser ya el simple almacenamiento e incluye la posibilidad de aportar valor a las operaciones comerciales.

La inteligencia artificial y el machine learning usan mapas semánticos subyacentes para informar de la calidad de los datos, su ubicación, la optimización de las cargas de trabajo en implementaciones híbridas y de múltiples nubes. “Con metadatos activos, las plataformas de datos se vuelven más autónomas en la arquitectura para costos y acceso a datos óptimos”, según Anu Mohan, director de gestión de productos de Teradata en Big Data Quarterly. Junto a todo ello, la gobernanza de los datos está emergiendo como un conjunto de tecnologías que ayudan a las organizaciones a aprovecharlos y al mismo tiempo cumplir con los mandatos regulatorios e internos.

La nube ha sido la opción principal para las empresas durante muchos años, y ahora sirve cada vez más como repositorio principal de datos y aplicaciones de análisis asociadas. El desafío es administrar entornos de datos en varias nubes. Mientras se produce el desembarco de las nuevas tecnologías que contribuirán a ello, conviene identificar las brechas que existen en las organizaciones, con el fin de establecer prioridades.

Algunas de estas brechas se producen entre los catálogos de datos y la aplicación real de la normativa que protege la información de identificación personal. Otras son de naturaleza cultural y tienen que ver con la batalla en el seno de las organizaciones luchan por adoptar un futuro basado en datos. La propiedad de los datos y el gobierno de los datos deben transformarse en “una propiedad conjunta federada entre el negocio y TI”, dice Rajiv Dholakia, vicepresidente senior de productos de Privacera.

Por último, la nube sirve cada vez más como repositorio principal de datos y aplicaciones de análisis asociadas, pero el desafío es administrar entornos de datos en varias nubes. Las ofertas de plataforma como servicio (PaaS) basadas en la nube están cambiando la forma en que se administran los datos. “Muchas organizaciones aún está en pañales”, dice Grant Fritchey, del área DevOps de Redgate.

Automatizar la ciencia de datos y auge del ‘streaming’ en 2023

La necesidad de lograr un acceso más rápido y seguro a los datos en múltiples plataformas ha acentuado la llamada a que las organizaciones consuman de forma masiva soluciones de inteligencia artificial y, específicamente, de machine learning, según el informe The 2022 State of Data and What’s Next de Red Hat y Starburst. Las cargas de trabajo de ciencia de datos están aumentando, lo que ejerce presión sobre plataformas que son ya complejas de por sí, de ahí que las empresas estén buscando soluciones para automatizarlas, ahorrando tiempo y recursos.

La primera y más obvia solución para la dispersión de datos y la complejidad multiplataforma es pasarse a la nube. Los directivos encuestados en 2021 mencionaron que el 56% de sus datos estaban en la nube, y en 2022 eran ya el 59%. Aunque, los expertos insisten, esta tendencia debe ser compatible con el imperativo de pasar de un modelo centralizado tradicional a un modelo descentralizado. En cuanto a la modalidad de los datos, a raíz del incremento de las actividades en remoto derivado de la pandemia, no debe sorprender que el 65% de los encuestados por Red Hat y Starburst afirmen que los datos de streaming, que se procesan con técnicas de procesamiento de flujo, son los datos principales que recopilarán el próximo año, seguidos, a juicio del 60% de los encuestados, por los datos de vídeo y eventos.

Los datos de imágenes y los datos sensoriales también son significativos: más de la mitad de las empresas indican que habrá un aumento en la recopilación de datos en estas áreas durante el próximo año. Habrá que acostumbrarse también a que los ingenieros de datos no solo seguirán residiendo en el área central de TI central, donde seguirán teniendo responsabilidades básicas de administración de datos, sino que ahora también comenzarán a integrarse en los equipos comerciales.

Scroll al inicio
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad