En el juego de tronos de los datos ganan la confianza y el diseño flexible

La capacidad de adaptación del software y el hardware que hay detrás de los sistemas de datos a los distintos casos de uso que surgen y la reinvención de las organizaciones a partir de la ia generativa, marcan la innovación en el sector, pero todos los esfuerzos pasan por superar una doble premisa: disponer de datos fiables, escalables y útiles y cumplir con la regulación en materia de privacidad
Eugenio Mallol
4 de marzo de 2024 | Compartir: Compartir en twitter Compartir en LinkedIn
En el juego de tronos de los datos ganan la confianza y el diseño flexible
Imagen de Guillaume Bourdages

¿Está provocando la inteligencia artificial (IA) generativa un juego de tronos? No sólo es una tecnología capaz de democratizar, sino también de alterar las jerarquías de poder. El presidente del evento Big Data LDN en Londres, Mike Ferguson, resume las principales tendencias clave en gestión y análisis de datos: la IA generativa encabeza la innovación, la nube híbrida se mercantiliza, la arquitectura se moderniza, y la pila de software y FinOps, centrada en una mayor transparencia financiera y precios basados en el consumo, se racionaliza.

Barr Moses, CEO y cofundador de Monte Carlo, habla de la “próxima gran crisis para los equipos de datos” y advierte de que la IA generativa corre el riesgo de ser una oportunidad perdida a menos que las organizaciones encuentren casos de uso. “El meollo del desafío”, si quieren salir victoriosos del envite, “es garantizar la confianza en los datos”. Si consiguen superar ese primer gran escollo, “el potencial será enorme y hará que los ingenieros de datos sean mucho más productivos y que los productos de datos e IA sean más escalables y útiles”, afirma.

“No se trata de automatización, sino de aumento”, sostiene Tim Ward, CEO y cofundador de CluedIn. La gente sigue “preocupada por los datos, adónde van, qué sucede con la privacidad; pero necesitamos atribuir de dónde provienen, se necesita una mejor gobernanza”, añade. Para Peter Jackson, director de tecnología y datos de Outra, “el próximo gran avance en datos no será la tecnología, sino la ética de los datos. Tenemos proyectos de ley sobre privacidad y seguridad de datos y la gente está muy preocupada por cómo se utilizan la IA generativa, el machine learning ML y la ciencia de datos”.

A las empresas que consideren implementar soluciones basadas en IA o internet de las cosas (IoT) con gran cantidad de datos les conviene planificar el rediseño de su arquitectura de datos para el futuro. Una de las opciones es la infraestructura como código (IaC) se trata principalmente de la gestión y el aprovisionamiento de infraestructura a través de código. En lugar de la configuración de hardware físico convencional, la IaC incorpora en el código las instrucciones de asignación de recursos y otros detalles de la gestión de la infraestructura. Pero hay que haber sacado nota en los pasos previos: es posible que no muchos se den cuenta de que todo esto implica gestión de datos.

Líneas de investigación

Stratos Idreos, director del Laboratorio de Sistemas de Datos de Harvard, sostiene que una de las razones por las que las aplicaciones modernas basadas en datos incurren en enormes costes en la nube y en la parte de desarrollo es porque disponer de un diseño correcto del sistema de datos que sirva para cualquier escenario dado es muy difícil. La pátina de diseños posibles es enorme y nunca se alcanzará uno perfecto para todos los contextos de datos, consultas y hardware.

La solución en la que trabaja Idreos plantea crear automáticamente sistemas de datos de diseño propio que pueden adoptar formas drásticamente diferentes para optimizar la carga de trabajo, el hardware y el presupuesto de nube. Estas formas incluyen estructura de datos, algoritmos y diseños generales de sistemas que se descubren automáticamente y no siempre existen en la literatura o la industria, pero pueden ser más de 10 veces más rápidos, por ejemplo, a la hora de entrenar redes neuronales.

Por su parte, Vipin Kumar, de la Universidad de Minnesota, afirma que con la enorme cantidad de datos que se generan ahora mismo sobre la Tierra y su entorno, mediante satélites de observación y sensores in situ, existe una gran oportunidad para avanzar sistemáticamente en el modelado de los dominios ambientales, mediante el uso de métodos de aprendizaje automático de última generación que ya han revolucionado la visión por ordenador y la traducción de idiomas. Aprovechar esta oportunidad no es sencillo: depende de un cambio de paradigma en los descubrimientos científicos intensivos en datos, ya que el uso de ML en la “caja negra” que se encuentra detrás de ellos a menudo conduce también a graves descubrimientos falsos.

Desde la Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou), la profesora Qiong Luo trabaja en las unidades de procesamiento de gráficos, o GPU, que se emplean habitualmente como aceleradoras de hardware en diversas aplicaciones, como el comercio algorítmico, la visión por ordenador y el entrenamiento de modelos de lenguaje extensos (LLM).  En particular, las GPU de NVIDIA, junto con su interfaz compute-unified device architecture (CUDA), proporcionan una plataforma masivamente paralela a la computación de propósito general.

Sin embargo, a menudo es difícil acelerar el procesamiento de datos y las tareas analíticas en la GPU cuando son irregulares y no coinciden bien con su arquitectura o su paradigma de programación. La tendencia a seguir, según Qiong Luo es que, conforme se impongan los recursos informáticos equipados con GPU y se extiendan las aplicaciones de big data de creciente complejidad y escala, surgirán más oportunidades.

Minos Garofalakis, además de pertenecer al Centro de Investigación e Innovación ATHENA y ser profesor de la Universidad Técnica de Creta, trabaja como consultor de investigación sénior para Huawei Research y es cofundador de Agora Labs. Según explica, a medida que aumenta la importancia de la legislación sobre protección de información sensible y de la privacidad individual en todo el mundo, se convierte cada vez más en un gran desafío para los sistemas modernos de análisis de datos y de big data.

La violación de datos importantes es evidente y los casos en que se produce no dejan de aumentar, lo que claramente demuestra, en opinión de Garofalakis, la insuficiencia de las soluciones ad hoc anteriores al problema, así como como la necesidad de tender puentes entre las interpretaciones jurídicas y técnicas de la privacidad de los datos.

Su apuesta son las diferentes tecnologías modernas de mejora de la privacidad, como el aprendizaje federado, la informática segura, la privacidad diferencial y los datos sintéticos. Todas ellas pueden habilitar nociones formales y criptográficas de la privacidad en el análisis de datos a gran escala.

El profesor Jungong Han es catedrático de Visión por Ordenador en el Departamento de Ciencias de la Computación de la Universidad de Sheffield (Reino Unido). En la última década, la investigación para la comprensión visual se ha vuelto cada vez más frecuente debido al gran éxito del aprendizaje profundo, especialmente las deep convolutional neural networks (DCNN). Al introducir datos de entrenamiento de alta calidad en un motor de aprendizaje totalmente supervisado (FSL), los modelos DCNN podrían incluso superar el rendimiento a nivel humano en muchas tareas de comprensión visual, como la clasificación de objetos y el reconocimiento facial.

Sin embargo, realizar FSL en escenarios del mundo real es un desafío debido a que la técnica de aprendizaje profundo genera características visuales de alta dimensión, lo que hace que aplicaciones como la comparación de características en tiempo real sean intratables; existen categorías de objetos potencialmente ilimitadas en la vida real, de modo que es casi imposible recolectar suficientes muestras bien anotadas para cada categoría; y las soluciones DCNN existentes a menudo requieren una gran cantidad de recursos, que no están disponibles en dispositivos integrados de la vida real.

Vuelve la mirada hacia el blockchain ante el aumento de costes de la nube

Este 2024 va a ser un año de reencuentro con tecnologías que vivieron su hype particular y parecían haber entrado en hibernación. Desplegar una estrategia de big data apoyándose en proveedores tradicionales de almacenamiento en la nube puede costar una fortuna, por lo que algunas empresas apuestan por volver la mirada hacia el blockchain que sigue enarbolando la vitola de la seguridad y el coste. Además, en un tiempo marcado por las exigencias regulatorias de control de la información, desde el punto de vista ético y de la privacidad de los usuarios, mejora los procesos de verificación, ya que es posible rastrear el origen de los datos. El News Provenance Project de The New York Times e IBM Garage tiene como objetivo combatir la desinformación en internet mediante el uso de blockchain y big data.

Scroll al inicio
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad