Claves 2024: hacia el ‘Zero ETL (extract, transform, load) future’ en datos

La inteligencia artificial necesita de la información de tu organización para ayudarte, conceptos como 'data mesh organization' y 'data integration' van a marcar la diferencia, según Jonathan Allen, de AWS
Eugenio Mallol
30 de enero de 2024 | Compartir: Compartir en twitter Compartir en LinkedIn
Claves 2024: hacia el ‘Zero ETL (extract, transform, load) future’ en datos
El director de estrategia de empresa de AWS, Jonathan Allen.

“La IA generativa no es magia, son matemáticas”, comienza diciendo Jonathan Allen, director de estrategia de empresa de Amazon Web Services (AWS). “Necesitas tus datos para esos LLM conozcan tu negocio y tus clientes”.

“La ventana de contexto de Claude”, el asistente diseñado por Anthrophic, “tiene 100.000 tokens, que corresponden a alrededor de 75.000 palabras. Esto significa que puedes enviar cientos de páginas de materiales para que Claude las digiera y analice, y las conversaciones con Claude pueden durar horas o incluso días”, explica.

Cuando bajamos a la realidad, nos planteamos cómo dar “la última información al agente”, ya sea comercial o de atención al cliente. “Antes era un problema inabordable” plantearse la posibilidad de un agent asistant bot.

En definitiva, apunta Allen, “¿cuál es el principal desafío de una organización para sacar el máximo provecho a la IA generativa? La calidad del dato”. Y aún hay docenas de desafíos relacionados con eso, según las respuestas más habituales de los directivos: es difícil encontrar datos, si los comparto pierdo control, sólo quiero acceder a los datos que necesito, la arquitectura de datos actual es muy compleja, monolítica y lenta para cambiar.

“No es un desafío tecnológico, es un desafío humano”, afirma el director de estrategia de empresa de AWS. Su consejo es apostar, en primer lugar, por el data integration y lo resume en un claim: “hay que invertir en Zero ETL (extract, transform, load) future, conectar centenares de fuentes de datos.

Junto a ello, hay que dar prioridad a los “hechos” frente a los “sentimientos”, ya no hay “feudos que satisfacer, el 79% de los desafíos de los negocios para adoptar los datos son culturales”. Allen cita a Brian Chesky, cofundador y CEO de Airbnb: “la cultura es simplemente una forma compartida de hacer algo con pasión”. Y subraya la palabra “compartida”. Conviene detenerse en ella.

“Muchas veces los datos son compartidos y probablemente recompartidos, pero de una forma ad hoc, no gobernada a partir de conexiones del equipo. Esto puede incrementar el riesgo asociado a la protección de datos sensibles. Otro de los problemas es que todo el mundo quiere ser el consumidor, nadie quiere ser productor”. Todos estos problemas hacen que “el 69% de los chief data officers” dediquen la mayor parte de su tiempo “a iniciativas de cultura dirigida por datos”.

Jeff Bezos es un defensor del “riesgo calculado”. Según explica Allen, “hablo con muchos equipos de dirección y suelen mencionar la palabra agilidad”. En AWS casi todas las reuniones empiezan con media hora de silencio en la que se analiza el documento de trabajo y una de las claves “es si dispone de los datos necesarios. El dominio de los datos es una core skill, y cuando haces un cambio de cultura tienes que mirar a todas las nuevas habilidades para incorporar la IA generativa”.

En cuanto a las habilidades necesarias para la implementación exitosa, Allen las dividió en habilidades duras y blandas. Las habilidades duras incluyen conocimientos en deep learning y machine learning, ingeniería de datos para IA, y marcos y herramientas para IA generativa. Las habilidades blandas abarcan creatividad, ética en la IA, aprendizaje continuo y adaptabilidad, y la ingeniería y verificación de AI Prompting para garantizar la fiabilidad.

Tras detallar la evolución desde el concepto de organización al de organizaciones proxy, hemos desembocado en las proxy data lake organization en las que productores y consumidores de datos van al data lake, donde la tecnología tiene datos estructurados o semiestruicturados.

“Hemos cambiado la tecnología, pero no las organizaciones”, afirma Allen, y todo esto conduce a una situación en la que los productores y los consumidores están desconectados, porque no hay incentivos para compartir datos y tienen skills analíticas escasas, y los del data lake están sobrepasados, desconectados y desconfiados, con actividades orientadas a roles laborales”.

Frente a eso, y siguiendo las tesis de Zhamak Dehghani, presentó la idea de una “Data Mesh Organization”, donde productores y consumidores de datos están conectados directamente a través de una plataforma que proporciona la infraestructura de datos. Esta simplificación, con un flujo lógico de datos analíticos, pretende superar los desafíos de organizaciones tradicionales donde productores y consumidores están desconectados.

El último desafío que abordó Allen fue encontrar el caso de uso correcto para la implementación de IA generativa. Propuso una inversión en el negocio al revés, comenzando desde el negocio hacia el dato, en lugar de la ruta más común. Destacó la dificultad de encontrar “tesoros” en un data lake y enfatizó la importancia de comprender que lo que tienes hoy no te llevará necesariamente a donde quieres ir.

Scroll al inicio
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad