Escala la IA con inteligencia: pon el foco en el entrenamiento y en el hardware
No ha sido fácil reordenar las organizaciones para responder al desafío de la pandemia dando un salto digital, pero el desafío ahora es gobernar ese nuevo escenario caracterizado por multitud de nubes, infraestructuras, datos y procesos distribuidos, y hacerlo sin dejar de lado el auge de la inteligencia artificial y de los modelos de código abierto y serverless
Ilustración creada por el sistema de IA DALL-E.
En 2019, Gartner predijo que hasta 2022 alrededor del 85% de los casos de uso basados las tecnologías de inteligencia artificial (IA) fallarían. “La tasa de fracaso de los proyectos de IA es definitivamente alta”, afirma Thomas Weber, jefe de producto de IA en Huawei, en la antesala del World Artificial Intelligence Festival de Cannes (Francia) que se celebra en febrero, pero dado que la IA se ha convertido en una clara prioridad para las empresas, «estos números muestran una necesidad real de mejores prácticas”.
La mayoría de las empresas se aventuran en la IA con objetivos muy claros en mente, como el de acelerar los tiempos de comercialización, pero sin una hoja de ruta clara de cómo implementar su proyecto de manera estructurada y oportuna. Hay que encontrar los datos correctos, tomar las decisiones adecuadas en el área de ingeniería y verificar qué factores se deben incorporar a sus modelos de IA.
Conforme se van aclarando las estrategias, el éxito de la IA se va convirtiendo “en la regla, no en la excepción”, según el PwC AI Business Survey 2022. Algunas empresas empiezan distinguirse, de hecho. Se trata de aquellas que “en lugar de centrarse primero en un objetivo y luego pasar al siguiente, están avanzando con IA en tres áreas a la vez: transformación empresarial, toma de decisiones mejorada y sistemas y procesos modernizados. De los 1.000 directivos encuestado por PwC, «364 ‘líderes de IA’ están adoptando este enfoque holístico y cosechando las recompensas”, dice el informe.
Para Weber resulta fundamental disponer de “un marco sólido que orqueste organizativa y tecnológicamente todos los factores críticos”: un científico de datos no puede ejecutar un proyecto a gran escala solo, necesita el apoyo de la infraestructura y las líneas de negocio específicas. Por eso el plan debe centrarse en crear resultados rápidos e involucrar a la dirección desde el principio. Esto puede parecer algo obvio, pero se necesita disciplina para mantener el objetivo durante semanas o meses, si además hay presión para demostrar el ROI y el valor comercial.
Modelos de lenguaje como GPT-3 y ChatGPT han generado enorme entusiasmo en torno a la IA por su extraordinaria capacidad para realizar tareas y generar texto similar al humano, pero sus llamativas capacidades tienen un precio: la escala. Si bien el aumento en el tamaño de los modelos de IA, basado en el creciente volumen de datos con los que son entrenados, conduce a un mejor rendimiento, también introduce nuevos desafíos de complejidad.
Uno de ellos consiste, precisamente, en hacer que los modelos de IA sean asequibles, valiosos y fáciles de implementar. Las compañías de vanguardia se están esforzando en crear, por eso, tecnologías que ayuden a simplificar y automatizar las tareas más lentas relacionadas con el entrenamiento previo a grandes modelos de IA, desde la preparación hasta el etiquetado y el ajuste fino. Empezar por ahí permite lograr retornos de la inversión en plazos cortos, de uno a tres meses.
Desde AMD también se cree que para continuar logrando avances en la inferencia de IA la clave está en el entrenamiento. En estos momentos, la innovación de IA depende de la rapidez con la que puede entrenar su modelo con datos de la vida real cada vez mayores. Generalmente se lleva a cabo en centros de datos empresariales o en la nube, donde muchos servidores de alta potencia, aceleradores de hardware y redes de alta velocidad operan juntos dentro de una carga de trabajo. A pesar de la infraestructura masiva, todavía se necesitan muchas horas, incluso días, para entrenar un solo modelo.
En los últimos cuatro años, el tamaño de los parámetros de los modelos de lenguaje basados en IA ha crecido casi 2.000 veces: de alrededor de 100 millones de parámetros a casi 200.000 millones. “Llevo seis años inmerso en la tarea de llevar realmente la IA a las masas”, decía en una entrevista reciente el líder de esa tecnología en Google y uno de los grandes referentes del sector, Lawrence Moroney. “Cuando empecé en esto, había unos 300.000 especialistas en IA en todo el mundo, ahora hay alrededor de 15 millones. Hoy en día, podemos localizar a los profesionales que escriben código y usan el aprendizaje automático”.
Por tomar prestada una analogía del mundo de la moda, la IA ahora tiene su alta costura, la vanguardia de la investigación y la innovación, tiene una sastrería a medida, una industria basada en la adaptación de los cimientos y otros modelos preexistentes a las necesidades de cada organización, y tiene la calle principal, donde la IA se encuentra con el mercado masivo.
Para algunos, el hardware se ha abstraído por completo. Las empresas de IA as a servioce como Pienso están construyendo herramientas de código bajo y sin código para usuarios sin experiencia previa en inteligencia artificial, que permiten a los expertos en la materia y a los jefes de departamento ejecutar modelos sofisticados de IA en datos de texto, como conversaciones de servicio al cliente, sin necesidad de depender de equipos de ciencia de datos.
En cuanto al hardware, el coste de la IA generalizada supondrá un aumento exponencial en los requisitos de procesamiento de datos y eficiencia energética impuestos a los semiconductores que alimentan a los dispositivos inteligentes. Incluso el centro de datos más avanzado está alcanzando limitaciones físicas en el suministro de energía y térmico, lo que impide una mayor escalabilidad de los recursos de hardware. Otro desafío para la innovación.
Para implementar lo último y lo mejor en IA, se necesita hardware que pueda mantenerse al día. Para acortar el tiempo de entrenamiento de IA y combatir las limitaciones de potencia, las GPU se están volviendo cada vez más eficientes en el consumo de energía, con potencias capaces de alcanzar las operaciones de coma flotante por segundo de Peta (1.000.000.000.000.000.000) y se llenan con la memoria de alto ancho de banda (HBM) más avanzada con terabytes por segundo en una sola GPU. Debido a que los modelos más grandes de hoy en día simplemente no caben en una sola GPU, las conexiones de GPU a GPU también alcanzan un rango de terabytes por segundo con una latencia extremadamente baja para permitir escalar el entrenamiento en muchas GPU con una sobrecarga mínima.
En última instancia, la respuesta al progreso en IA radica en el hardware. Juntas, estas innovaciones en hardware ayudarán a reducir los requisitos de energía en los centros de datos, permitiendo que se ejecute más capacitación y permitiendo un rápido avance en los modelos de IA, según AMD. En computación, gran parte del tiempo y la energía que se gasta en el procesamiento se gasta cambiando electrones de un lado a otro entre el procesador y la memoria de un dispositivo. Durante años, los investigadores de IBM han estado trabajando en el desarrollo de chips de computadora analógicos en memoria, donde la computación se lleva a cabo en la propia memoria. El objetivo de estos chips es ahorrar energía y construir dispositivos que puedan usarse para entrenar e inferir con sistemas de IA.
En la última Reunión Internacional de Dispositivos Electrónicos (IEDM) de IEE, los investigadores de IBM presentaron un trabajo que detalla cómo los futuros chips analógicos eficientes podrían usarse para el aprendizaje profundo, tanto para entrenamiento como para inferencia. Crear sistemas que puedan entrenar a la IA es una tarea mucho más desafiante que construir sistemas que puedan inferir. Los investigadores de IBM, en colaboración con Tokyo Electron (TEL), han estado trabajando en cómo entrenar IA en hardware analógico.