Radar Atlas
Radar Atlas 06/06: ahorrar en el uso de la IA, la Autonomía Confiable, un nuevo modelo de Administración y un estándar de datos... chino
El primer Radar del mes siempre es más IT: controlar los costes de la IA se ha convertido en un asunto capital, varias herramientas para hacerlo, reforzar los LLM puede aumentar sus alucinaciones, el paradigma de ciberseguridad de Rik Ferguson y la invitación a redefinir el sector público: en lugar de inventar un agente de IA gubernamental, mejor crear la arquitectura para que los usuarios accedan a la Administración usando los suyos, ¡aporta!

TokenTuner ayuda a controlar los costes de la IA al identificar dónde las empresas pueden utilizar modelos de la manera más productiva y barata. Intenta vincular el uso de tokens con los resultados comerciales y evalúa a individuos y a los equipos según la eficacia con la que utilizan su presupuesto. Por otro lado, la era de la inferencia se caracteriza por el uso, el coste y la infraestructura de la IA, impulsados por la inferencia en lugar del entrenamiento. Las GPU siguen siendo importantes, pero la demanda relativa de CPU aumenta. Y Together AI opera una plataforma de IA en la nube diseñada específicamente para la inferencia, no para el entrenamiento, y que proporciona acceso API a más de 200 modelos de ponderación abiertos. A medida que aumenta el uso de la IA, la capacidad de ejecutar modelos y proporcionar respuestas de manera eficiente se vuelve más importante que la capacidad de entrenar nuevos modelos.

¿Fortalecer el razonamiento de los LLM aumenta la alucinación? Mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes (LLM) es una estrategia clave para construir agentes que "piensen y luego actúen". Sin embargo, observaciones recientes sugieren una paradoja: un razonamiento más fuerte a menudo coincide con un aumento de la alucinación. Ningún trabajo anterior ha examinado sistemáticamente este asunto. Para responder a esto, el paper presenta SimpleToolHalluBench, un punto de referencia de diagnóstico que mide la alucinación de herramientas. Su conclusión es que sí, mejorar progresivamente el razonamiento aumenta la alucinación de herramientas de forma proporcional a las ganancias en el rendimiento. Se necesitan nuevos objetivos de entrenamiento que optimicen conjuntamente la capacidad y la fiabilidad.

Una colección de modelos de lenguaje pequeños con la que empezar a trabajar. IBM ha lanzado Granite 4.1, una colección de modelos pequeños, de 30.000 millones de parámetros o menos. Abarca nuevos modelos de lenguaje, visión, voz, integración y protección, diseñados a medida para las cargas de trabajo empresariales. El objetivo es que los desarrolladores puedan integrar fácilmente estos modelos en sistemas de IA empresariales reales. Y a pesar de su tamaño, estos modelos son muy potentes.

No un agente de IA gubernamental, sino la arquitectura para que los ciudadanos se relacionen con la Administración usando agentes. ¡Aporta!. Los agentes de IA ofrecen una oportunidad única para simplificar la experiencia de las personas que interactúan con organizaciones complejas, como la Administración. Se necesitan nuevos tipos de infraestructura que proporcionen la accesibilidad de los sistemas basados en agentes, sin comprometer la privacidad ni la libertad individual. Este paper argumenta que la necesidad es urgente, que los elementos básicos ya existen en Massachusetts y que la ciudad de Boston (cuna de la primera biblioteca pública, el primer metro y la primera llamada telefónica), es el lugar idóneo para comenzar a construirla. Propone no ya un agente gubernamental para cada ciudadano, sino una capa de infraestructura pública que garantice a cada residente la capacidad de acceder a su vida cívica a través de un agente de IA, sin que las empresas capturen sus datos privados.

La Autonomía Confiable, el paradigma de seguridad de Rik Feguson. Este artículo formaliza el concepto de Autonomía Confiable, un argumento que Rik Ferguson, uno de los directivos más influyentes en el ámbito de la ciberseguridad a nivel mundial, ha desarrollado públicamente desde 2017. Plantea que la IA permita el uso de maquinaria de ataque autónoma, obligue a los defensores a considerar el comportamiento adversario no humano y requiera acciones defensivas autónomas autenticadas, autorizadas, observadas y reversibles. El término Autonomía Confiable se utiliza en el contexto de la ciberdefensa, no como una afirmación sobre el término de investigación más amplio. En este artículo, se refiere a una acción defensiva autónoma que opera dentro de límites controlados por humanos, en condiciones adversarias, sin generar más riesgo del que elimina.

Las medidas de seguridad que aplicamos al software podrían funcionar con la IA. El informe "No Security Meter for AI" ofrece una excelente perspectiva del estado de la seguridad de la IA. En los últimos 30 años, la ingeniería de seguridad para software ha evolucionado desde las pruebas de penetración de caja negra al análisis de código de caja blanca y el análisis de riesgos arquitectónicos, hasta llegar a estándares basados en procesos como el Modelo de Madurez de la Seguridad en la Construcción (BSIMM). ¿Funcionará con la IA una medida de seguridad similar a la del software? Probablemente. Mientras tanto, podemos avanzar en la seguridad de la IA depurando nuestros procesos y gestionando el riesgo mediante la identificación y aplicación de buenos procesos de garantía.

El próximo estándar de datos podría proceder de… China considera los datos como un factor de producción, no como un derecho a la privacidad ni un activo corporativo, y está construyendo una infraestructura económica en torno a ellos: intercambios de datos regulados, más de 30 nuevos estándares previstos en 2026 y una Ruta de la Seda Digital que exporta marcos de gobernanza junto con hardware de telecomunicaciones a países en desarrollo. La UE dedicó una década a convertir el RGPD en un referente mundial para la protección de datos, pero el modelo chino ofrece algo que Bruselas no puede: las carreteras, los cables, los centros de datos y los intercambios necesarios para que funcione una economía de datos. El país que construya la infraestructura podría marcar la pauta.
