
Bernardino Romera (exDeepmind y HiVerge) sube el Collaborate al reactor de la IA: «tras ChatGPT, la próxima ola es la industria»
Tras participar dentro del Science Team de Google Deepmind en proyectos tan emblemáticos como AlphaFold, AlphaTensor y FunSearch, en su última etapa como líder de equipos de investigación, Bernardino Romera, uno de los ponentes estrella del Collaborate Barcelona, lleva todo ese conocimiento a su startup HiVerge y en conversación con Eugenio Mallol explica por qué ha puesto el foco en los procesos industriales

Eugenio Mallol.-Buena parte de la iniciativa en ciencia de frontera la llevan a cabo hoy empresas. Cuéntame cómo es la experiencia de investigar en Google Deepmind.
Bernardino Romera.-A la hora de investigar el tema de inteligencia artificial y machine learning es evidente que en las grandes compañías hay muchos más recursos disponibles. Tener acceso a esa gran capacidad de procesamiento, a tantas GPU, hace que muchísimo talento se acerque a ellas. Muchos compañeros en Google Deepmind han puesto en marcha, después de su paso por la compañía, startups con un gran componente de investigación, especialmente de biotecnología, y quizás eso sea un fenómeno más nuevo. Una de las razones de ello es que la mayoría de los ámbitos científicos se pueden beneficiar si se aplica inteligencia artificial. Eso está abriendo oportunidades para el emprendimiento. Desde luego en bioquímica, como se ha visto en AlphaFold.
Eugenio Mallol.-Has liderado además equipos en el Science Team con resultados realmente impresionantes en proyectos como AlphaTensor y FunSearch.
Bernardino Romera.-Donde yo estuve era muy fácil liderar y colaborar, porque el equipo estaba compuesto de personas que no solamente eran muy buenas en lo que hacían, los mejores, sino que además era muy fácil trabajar con ellos, no había egos o al menos no se interponían en el trabajo. Se discutía a nivel de las ideas y no se llegaba al plano personal. De hecho, que criticasen tu idea era algo positivo porque indicaba interés. Si la ignoraban era peor. Fue algo muy enriquecedor.
Eugenio Mallol.-Explícame el objetivo de FunSearch, porque oyéndote uno puede pensar que hacíais cosas convencionales, pero realmente estabais consiguiendo que la inteligencia artificial creara contenido inédito por primera vez.
Bernardino Romera.-Cuando empezamos con este proyecto, aún no había salido ChatGPT. Había una inclinación de fondo a usar los LLM (modelos de lenguaje extenso), pero faltaba mucho por aterrizar. Los utilizamos para obtener nuevos algoritmos capaces de mejorar una tarea o un resultado matemático. Empecé con la idea de utilizar LLM para producir programas que se pudiesen ejecutar de manera que se obtuviera feedback inmediato sobre si la salida que producía el LLM era válida o no, si era ventajosa sobre otras. De esta manera fue fácil crear un bucle en el que se iban manteniendo las mejores ideas, los mejores algoritmos, que a su vez se iban devolviendo y retroalimentando, de forma que el bucle se automejorara cada vez más. Esta idea, que a nivel conceptual es muy sencilla, da muy buenos resultados. A nivel de implementación con ingeniería requiere hacer otras cosas, pero funciona muy bien.
Eugenio Mallol.-Hace unos meses, decides abandonar Google Deepmind y lanzar una startup, HiVerge. ¿Dónde has querido llevar ese conocimiento que habías desarrollado?
Bernardino Romera.-Partimos de la buena experiencia que adquirimos en Google Deepmind, y especialmente en este último proyecto, FunSearch. Creíamos que había potencial para aplicar no tanto esta idea en concreto, pero sí una serie de ideas estábamos desarrollando relacionadas con el tipo de sistemas de producción de algoritmos, de síntesis de código. El objetivo es no solamente mejorar estados teóricos, como los matemáticos, sino ofrecer un valor a casos de uso reales de la industria. Esa es nuestra tesis y queremos probarla. Me ha encantado trabajar en temas científicos, pero podemos ofrecer gran valor a la industria. Por una parte, aportamos la parte de generación de código de forma automática, pero tenemos un punto de vista muy pragmático, en el sentido que no esperamos a que la AGI (inteligencia artificial general) esté formada. Queremos aplicar esto ya a casos de uso concretos.
Eugenio Mallol.-Estáis considerando los sectores de la energía y la industria. De hecho, tú mismo participarás en el programa de visitas del Collaborate Barcelona como un asistente más. Lo primero que os va a preguntar un CEO es en qué me puede ayudar lo que estáis haciendo.
Bernardino Romera.-Estamos explorando distintos verticales. El energético es un sector muy interesante, pero hay más. El sistema que estamos construyendo funciona especialmente bien en aquellos casos de uso en los que haya que tomar decisiones de manera muy rápida, por ejemplo, a la hora de hacer allocation Research, y en tiempo real. No tienes todo el tiempo del mundo para pensar cómo hacer las cosas, sino que son situaciones dinámicas en las que se necesita actuar constantemente. Un caso muy sencillo es el de dock serving en data centers, donde van llegando cargas de trabajo y hay que enviarlos automáticamente a servidores para que se ejecuten de la forma más eficiente posible
Eugenio Mallol.-El Collaborate Barcelona ha escogido precisamente el lema de Productivity2. Cuál va a ser el impacto de la inteligencia artificial en la productividad de los negocios.
Bernardino Romera.-La primera oleada de LLMs, básicamente hasta el momento ChatGPT, ha tenido un gran impacto en el ciudadano de a pie. Todo el mundo ha tenido acceso, de la noche a la mañana, literalmente a un chatbot bastante inteligente. En la siguiente oleada, este ciudadano no va a ver una gran diferencia, porque va a estar más centrada en la industria. Ya estamos viendo cómo la inferencia, el test time, mejora la capacidad de razonamiento de los LLM. Donde más van a cambiar las cosas será a nivel de tareas en las distintas partes de la industria. Esto lo estamos empezando a ver ya, pero queda muchísimo por hacer y queremos ayudar en ese proceso.
Eugenio Mallol.-¿Por qué la industria? ¿Quizás porque genera espacios acotados de datos homogéneos con los que puede trabajar la IA?
Bernardino Romera.-No es tanto por los datos, sino porque cuando la inteligencia artificial es capaz de hacer algo que es próximo a razonar, e incluso a generar nuevas ideas, que de alguna forma se puede demostrar que funcionan, estamos llegando a otro nivel distinto. Queremos reemplazar la forma de hacer un algoritmo, por ejemplo, o sustituir la estrategia con la que se hace una determinada tarea por otra mejor. Este tipo de este tipo de casos de uso se da bastante la industria, por ejemplo, para optimizar procesos. A otro nivel distinto, hay un eterno debate sobre si van a hacer falta programadores en el futuro o gente que escriba código. Está claro que va a cambiar su trabajo, tenemos a Copilot ayudando y cada vez lo hace mejor. Los programadores serán managers de una armada de agentes de IA que escribirán código por ellos. Es un mundo de posibilidades realmente.
Eugenio Mallol.-Hay que sumar la inteligencia artificial física, capaz no solo de operar con datos, sino de comprender el mundo, las leyes físicas, el concepto de causa y efecto.
Bernardino Romera.-Estamos viendo modelos multimodales muy buenos. Cualquier tipo de datos de la realidad es susceptible de ser introducido en un LLM o en un gran modelo. Ya no es sólo lenguaje, sino cualquier otro tipo de señal. Efectivamente la IA comprenderá el conocimiento codificado en este nuevo sentido que se le da al sistema. Eso también es algo muy prometedor.
Eugenio Mallol.-Este último año diversas voces se han levantado para decirnos que la IA generativa basada en Transformers es prehistoria. Fenómenos como DeepSeek, centrados todavía en la parte de los LLM, parecen por eso una cuestión más interesante para la especulación financiera que para la tecnología.
Bernardino Romera.-Los Transformers fueron una gran revolución en el momento en el que salieron y se ha visto que escalan muy bien a grandes cantidades de datos, por lo que han dado lugar a los LLM. Esto hace que un gran número de compañías, especialmente con mucho dinero, se enfoquen en optimizar al máximo cualquier resquicio de los transformers o en rediseñar parte de ellos, de manera que se mejore al máximo el tiempo y la energía tanto de entrenamiento como inferencia. Hay una serie de equipos, como DeepSeek, que han hecho una gran labor de ingeniería y han incorporado ciertas ideas interesantes también. ¿Son Transformers lo que hacen? Es una cuestión de nomenclatura, pero en mi bajo mi punto de vista, sí. De alguna forma, la tecnología ha ido evolucionando, como evoluciona todo, y tienen técnicas que hacen que sea más eficiente. Hay otro tipo de arquitecturas, no tan relacionados con los Transformers, que también pueden ser interesantes y están dando un buen resultado. A fin de cuentas, lo que se está viendo es lo normal siempre que algo funciona bien, genera la atención de ingenieros e investigadores y eso hace que cambie y vaya mejorando.
Eugenio Mallol.-Pero la batalla está en otro sitio.
Bernardino Romera.-Es una pregunta que depende de quién la responda. Creo que aún quedan cosas por hacer a nivel de modelo. He trabajado en construir modelos: AlphaFold iba de eso; y en AlphaTensor, el proyecto que hicimos para descubrir algoritmos de multiplicación de matrices, estuvimos muy involucrados en el diseño de redes neuronales. Pero esa fue la última vez que yo personalmente estuve involucrado en eso. A partir de ahí, utilizamos modelos que ya estaban ahí. Para mí dejó de tener ese interés que tenía en un principio, simplemente porque funcionaban. Eran tan buenos ya de por sí que veía que había otras muchas ideas que podíamos explorar sin necesidad de meternos en el modelo. Sí, bajo mi punto de vista personal, está superado. Eso no quita que hay mucho esfuerzo por hacer. Este tipo de arquitectura se utiliza ahora mismo en todos lados y consume muchísimos recursos. Hay una gran labor todavía por hacer para minimizar la energía necesaria y seguro que va a habrá muchos de esfuerzos dedicados a eso.
Eugenio Mallol.-En HiVerge os centráis en el lado de las aplicaciones.
Bernardino Romera.-Sí, tomamos en parte modelos, pero el sistema tiene otros componentes. El objetivo es producir código para obtener los mejores resultados en una tarea concreta.
Eugenio Mallol.- ¿Dónde pones el foco tecnológico? Háblame de eso que te interesa tanto que cualquier cosa que salga publicada acerca de ello tiene que llegar a tus manos.
Bernardino Romera.-Es muy difícil estar al día de todo. El test time computing es un tema que me interesa mucho. Hasta hace no mucho, la principal forma de mejorar los LLM era escalando en la parte de entrenamiento. Se supone que el modelo, cuantos más datos, cuanto más limpio se ve todo mejor y cuanto más grande, mejor. Tras esa primera etapa, hemos visto a laboratorios enfocados en hacer modelos más pequeños para que sean más eficientes y rápidos. Y recientemente, OpenAI o1 y o3 o DeepSeek R1 lo que hacen es utilizar tiempo de inferencia. Cuando tú le preguntas algo, se da un tiempo para pensar, elucubrar o discernir. Analizar varias líneas de hipótesis, antes de coger la que considera más indicada y finalmente responde. Se trata de utilizar el tiempo a nivel ya de inferencia. El modelo está entrenado, no se reentrena, simplemente se le hace una pregunta y se toma más tiempo para contestar. Un poco como hacemos las personas, cuando tenemos una pregunta que involucra planear o formular hipótesis en nuestra cabeza. Nos tomamos más tiempo.