OpenAI replantea su plan Stargate & Prompts raros: veto a “goblins” - Noticias de IA (1 may 2026)
OpenAI enfría Stargate, IA “obsesionada” con goblins, ataque a PyPI lightning, fallo crítico en GitHub y TPUs on‑prem. AI News 1‑may‑2026.
Our Sponsors
Today's AI News Topics
-
OpenAI replantea su plan Stargate
— OpenAI reduce la apuesta por construir centros de datos propios en “Stargate” y prioriza contratos de capacidad a largo plazo; impacto en credibilidad y acceso a compute. -
Prompts raros: veto a “goblins”
— Un system prompt de Codex incluye reglas repetidas para no mencionar “goblins” salvo que sea relevante; muestra cómo se parchean conductas emergentes vía instrucciones. -
Vulnerabilidad crítica en GitHub Enterprise
— CVE-2026-3854 permite posible RCE con acceso de push en GitHub Enterprise Server; Wiz aceleró el reverse engineering con ayuda de IA, elevando el riesgo para defensores y atacantes. -
Ataque a la cadena PyPI lightning
— Las versiones comprometidas de PyPI “lightning” ejecutan malware al instalar/importar; robo de secretos, propagación y riesgo sistémico en stacks de entrenamiento de IA. -
Evaluar agentes cuesta una fortuna
— La evaluación de agentes se vuelve un cuello de botella: rollouts caros, ruido alto y dependencia de scaffolding; riesgo de concentración de auditoría en labs con presupuesto. -
Recompensas por proceso en análisis
— Un paper propone DataPRM para premiar el proceso en agentes de análisis de datos y detectar “errores silenciosos”; mejora fiabilidad en benchmarks como DABench. -
Benchmark de creatividad con desacuerdo
— Human Creativity Benchmark (HCB) separa convergencia y divergencia entre expertos; clave para medir calidad creativa sin forzar un ‘único’ score que favorece outputs genéricos. -
TPUs en centros de datos privados
— Alphabet empezará a vender TPUs para instalación on-prem; competencia directa con GPUs de Nvidia y movimiento para ampliar mercado y controlar costes de infraestructura. -
El mercado de inferencia se fragmenta
— La inferencia de IA se divide por latencia, modalidad y entorno (cloud/edge); surgen ‘stacks’ especializados y oportunidades para nuevos ganadores de infraestructura. -
IA en triaje médico: resultados mixtos
— Un estudio en Science sugiere que un modelo de OpenAI supera a médicos en diagnóstico tipo triaje con información limitada; promete segunda opinión, pero deja dudas de responsabilidad y sesgos. -
Gen Z usa IA pero desconfía
— Encuestas muestran que Gen Z usa chatbots a menudo, pero cae el optimismo por empleo, desinformación y coste ambiental; podría frenar adopción institucional sin reglas claras. -
Agentes que trabajan en paralelo
— Mistral lanza agentes remotos asíncronos para tareas de programación y flujos multi-herramienta; empuja el salto de ‘asistente’ a ‘ejecutor’ con control humano. -
Cómo diseñar servidores MCP robustos
— Lecciones al construir servidores MCP: menos herramientas, nombres claros y ‘breadcrumbs’ en respuestas; reduce errores del modelo y mejora seguridad operativa. -
Vídeo generativo con coherencia 3D
— World-R1 de Microsoft Research busca vídeos con consistencia espacial y 3D; al liberar código y dataset, facilita reproducibilidad y comparaciones serias. -
Nuevas rutas para razonar y entrenar
— Apple explora LaDiR para razonamiento con difusión latente y IBM detalla Granite 4.1 priorizando calidad de datos; señales de que el avance no es solo ‘más grande’, sino ‘mejor entrenado’.
Sources & AI News References
- → OpenAI Shifts Away From Owning Stargate Data Centers, Turns to Leased Compute
- → DataPRM Targets Silent Errors by Rewarding the Process in Agentic Data Analysis
- → Contra Labs Proposes Human Creativity Benchmark to Measure Both Craft Agreement and Taste Disagreement in AI Outputs
- → AI-Assisted Reverse Engineering Finds GitHub Enterprise Server RCE Flaw
- → AI’s Real Parallel Is Electrification, Not the Dot-Com Bubble, Joe Reis Argues
- → Codex System Prompt Reveals OpenAI Rule to Stop GPT-5.5 From Mentioning “Goblins”
- → AWS Marketplace Releases Book on Data Foundations for Agentic AI
- → AI Evaluation Costs Are Emerging as a Major Compute Bottleneck
- → Harvard Study Finds AI Beats Doctors in Emergency Triage Diagnoses
- → Gen Z Uses Chatbots Widely but Becomes More Hostile to AI, Polls Show
- → Mistral brings Vibe coding agents to the cloud and launches Medium 3.5-powered Work mode
- → Developer Shares Practical Patterns for Reliable MCP Server Toolchains
- → PyTorch Lightning PyPI Package Compromised, Malware Steals Secrets and Spreads via npm
- → DeepMind open-sources ProEval to cut GenAI evaluation cost and surface failure cases
- → AWS Marketplace Releases ‘Data and AI Leader Insights’ Book on Foundations for Agentic AI
- → PyTorch Introduces AutoSP to Automate Sequence Parallelism for Long-Context LLM Training
- → Musk Says He Was a ‘Fool’ to Fund OpenAI, Accuses Altman of Misleading on Mission
- → CrewAI Says Its Self-Improving Slack Agent ‘Iris’ Is Producing a Quarter of Company PRs
- → Microsoft Research Unveils World-R1 to Reinforce 3D Consistency in Text-to-Video
- → Alphabet to Sell TPUs to Select Customers, Escalating Rivalry With Nvidia
- → AWS Marketplace Releases Data and AI Leaders Book on Foundations for Agentic AI
- → LaDiR Uses Latent Diffusion to Iteratively Refine LLM Reasoning
- → IBM Details Training Pipeline Behind Granite 4.1 Open-Source LLMs
- → AI Inference Market Splits Into Specialized Stacks by Latency, Modality, and Edge Needs
Full Episode Transcript: OpenAI replantea su plan Stargate & Prompts raros: veto a “goblins”
¿Por qué un modelo de OpenAI necesitó una regla explícita —y repetida— para “no hablar de goblins”? Hoy eso nos sirve de pista sobre lo frágil y poderoso que puede ser un simple system prompt. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 1 de mayo de 2026. Soy TrendTeller, y en cinco minutos repasamos lo más relevante de IA, seguridad e infraestructura: desde el giro de OpenAI con Stargate hasta un ataque a la cadena de suministro que apunta directo al corazón de muchos entornos de ML.
OpenAI replantea su plan Stargate
Empecemos por OpenAI y su estrategia de infraestructura. Según Financial Times, el plan “Stargate” —aquel objetivo enorme de co-invertir en centros de datos en EE. UU.— se estaría despriorizando para apostar más por alquilar capacidad a terceros con acuerdos a largo plazo. En la práctica, menos “poseer” y más “arrendar”. ¿Por qué importa? Porque construir data centers para IA es un pozo de capital y de complejidad: energía, permisos, riesgos de ejecución y, sobre todo, control entre socios. El reporte habla de tensiones por quién manda, proyectos pausados o reformulados, y una sensación de “nos vendieron otra cosa” entre algunos desarrolladores. OpenAI seguirá buscando compute para crecer, pero este giro también pone a prueba su credibilidad como socio industrial.
Prompts raros: veto a “goblins”
Y sin salir de OpenAI, la nota más curiosa del día: en el prompt del Codex CLI apareció una regla extraña, repetida varias veces, que ordena al modelo no mencionar “goblins” y otras criaturas salvo que sea claramente relevante. La interpretación más plausible es simple: estaban apareciendo menciones espontáneas y no deseadas en conversaciones normales, y la forma más rápida de contenerlo fue un parche por instrucciones. El detalle interesante no es el chiste; es el recordatorio de que los modelos no solo se “entrenan”: también se gobernan con capas de control, y a veces esos controles son reactivos y muy específicos. Además, ya hay forks y ‘mods’ para desactivar la restricción, lo que anticipa un tema recurrente: quién decide el comportamiento por defecto de un asistente que muchos integran en su trabajo.
Vulnerabilidad crítica en GitHub Enterprise
Otro frente alrededor de OpenAI, pero ahora legal y político: Elon Musk declaró en un juicio que fue un “tonto” por financiar a OpenAI cuando era una organización sin ánimo de lucro, argumentando que su apoyo ayudó a crear lo que hoy es un gigante comercial. El caso vuelve a poner en el centro una pregunta que no se va: cómo se gobiernan los laboratorios de IA cuando pasan de misión pública a escala industrial. Para el ecosistema, el resultado importa menos por el drama y más por el precedente: expectativas de transparencia, control y responsabilidades en organizaciones que empiezan con un relato de interés público y acaban compitiendo por mercados y capital.
Ataque a la cadena PyPI lightning
Pasamos a seguridad, con una historia que también habla del papel de la IA en el trabajo ofensivo y defensivo. GitHub divulgó la CVE-2026-3854, un fallo de severidad alta en GitHub Enterprise Server que podría permitir ejecución remota de código a un atacante con permisos para hacer push. Lo llamativo: Wiz afirma que usó una herramienta asistida por IA para acelerar el reverse engineering de binarios cerrados y llegar a un exploit funcional en menos de 48 horas. GitHub dice que parchó rápido y no vio explotación en github.com, pero el mensaje es claro: bajar el coste de investigación de vulnerabilidades acelera el ciclo para todos. Si tu empresa usa GitHub Enterprise, la urgencia no es teórica: actualizar es la diferencia entre “incidente potencial” y “problema real”.
Evaluar agentes cuesta una fortuna
Y la segunda gran alerta de seguridad es todavía más peligrosa por alcance: un compromiso de cadena de suministro en PyPI, afectando al paquete “lightning” en versiones recientes. El reporte indica que, con solo instalar e importar, se activaba malware diseñado para robar secretos: tokens, variables de entorno y credenciales cloud, tanto en máquinas de desarrolladores como en CI. Además, la campaña intenta saltar entre ecosistemas: entra por PyPI y busca propagarse usando tokens para publicar en npm, como si fuese un gusano. Esto importa muchísimo para equipos de IA: “lightning” está en muchos pipelines de entrenamiento. Hoy la recomendación práctica es la de siempre, pero más seria que nunca: pinning de versiones, revisión de releases, y controles en CI para minimizar secretos expuestos y detectar exfiltración.
Recompensas por proceso en análisis
Hablemos ahora de evaluación, que se está convirtiendo en el gran cuello de botella. Un artículo del equipo de Hugging Face advierte que evaluar agentes —no solo modelos estáticos— puede costar decenas de miles de dólares en rollouts, y que el resultado depende muchísimo del “andamiaje” con el que ejecutas al agente: herramientas, presupuesto de tokens, reintentos. La consecuencia es incómoda: si validar cuesta tanto, el poder de auditar se concentra. Y si encima los leaderboards no obligan a publicar logs y detalles, es difícil saber qué es rendimiento real y qué es gastar más compute hasta que salga. En otras palabras: benchmarking sin contabilidad puede premiar el derroche.
Benchmark de creatividad con desacuerdo
En esa misma línea, DeepMind liberó ProEval, un toolkit open-source para hacer evaluación más barata y, supuestamente, más informativa cuando el presupuesto de etiquetado o juzgado es limitado. La idea es estimar rendimiento con muchas menos muestras y, a la vez, buscar patrones de fallo en lugar de quedarse solo con una media. Si esto funciona bien en la práctica, cambia la dinámica: más equipos podrían evaluar con rigor sin quemar presupuesto de GPU, y además detectar de forma más proactiva en qué se equivoca un sistema, no solo cuánto “acierta”.
TPUs en centros de datos privados
Y un paper en arXiv trae un matiz clave para agentes de análisis de datos: los modelos de recompensa por proceso —tan útiles en matemáticas— fallan cuando supervisan flujos donde hay código que “corre” pero da resultados erróneos. Son los famosos “errores silenciosos”. La propuesta, DataPRM, intenta ser más consciente del entorno de ejecución para revisar estados intermedios y separar errores recuperables de fallos irreparables. ¿Por qué importa? Porque si de verdad queremos agentes que hagan análisis científico o de negocio sin supervisión constante, necesitamos señales de calidad durante el camino, no solo un veredicto al final cuando ya es tarde.
El mercado de inferencia se fragmenta
En creatividad, Contra Labs presentó el Human Creativity Benchmark, que trata el desacuerdo entre expertos como señal útil, no como ruido. Separan la parte donde suele haber consenso —legibilidad, jerarquía, artefactos— de la parte donde el gusto manda y la intención creativa cambia. El hallazgo es revelador: ningún modelo destaca de forma consistente a la vez en “cumplir requisitos verificables” y en ser realmente maleable según preferencias estéticas. Para herramientas creativas esto es crucial: si lo reduces todo a una sola puntuación, empujas a resultados genéricos, correctos pero sin carácter. Y eso, para un profesional, suele ser poco utilizable.
IA en triaje médico: resultados mixtos
Ahora infraestructura y chips. Alphabet dijo que empezará a vender sus TPUs para que algunos clientes las instalen en sus propios centros de datos, en lugar de limitarse a alquilarlas por cloud. Es un movimiento directo contra el dominio de Nvidia y también una forma de ampliar mercado con una propuesta: hardware más integrado con el stack de Google. Detrás hay un cambio de época: las grandes tecnológicas ya no solo compiten en modelos y APIs, sino en controlar la cadena de suministro de compute. Y cuando la demanda aprieta, tener alternativas a una sola familia de GPU puede ser una ventaja estratégica.
Gen Z usa IA pero desconfía
Relacionado con eso, una tesis que gana fuerza: la inferencia de IA se está fragmentando en submercados, como pasó con las bases de datos. No es lo mismo servir chat con contextos largos, que generar vídeo, que correr modelos en edge con límites de energía y latencia. ¿La consecuencia práctica? No va a existir un “stack universal” que optimice todo. Veremos infraestructuras especializadas por modalidad, por tiempos de respuesta y por entorno de despliegue. Y donde hay fragmentación, suele haber espacio para nuevos líderes de categoría.
Agentes que trabajan en paralelo
En el mundo de herramientas para desarrolladores, Mistral lanzó “agentes remotos” para su producto de programación: tareas largas se ejecutan en sesiones aisladas en la nube, de forma asíncrona y en paralelo, y luego vuelven con cambios listos para revisión. Esto empuja el trabajo del “copiloto” al “operador”: menos sugerencias línea por línea y más trabajos completos con aprobaciones humanas. Si cuaja, el impacto no es solo productividad: también cambia cómo se gestionan permisos, auditoría y responsabilidad cuando un agente toca repos y pipelines reales.
Cómo diseñar servidores MCP robustos
Y para quien esté construyendo herramientas tipo MCP, un desarrollador compartió lecciones muy terrenales: los modelos no “planifican” como creemos; eligen el siguiente tool de manera oportunista. Por eso, un servidor robusto debe facilitar el siguiente paso correcto con herramientas bien nombradas, pocas y claras, y respuestas que incluyan pistas operativas. Es un recordatorio útil: la calidad de un sistema con agentes depende tanto del diseño de la interfaz de herramientas como del modelo que tengas detrás. Menos magia, más ergonomía.
Vídeo generativo con coherencia 3D
En salud, un estudio liderado por Harvard y publicado en Science reporta que un sistema de IA superó a médicos de urgencias en un escenario de triaje con información limitada de historiales electrónicos. Con más información, la IA se acercó a rendimiento experto. La lectura responsable es la que dan los propios autores: esto no reemplaza al clínico, porque faltan señales no textuales y el contexto del paciente real. Pero sí sugiere que los LLM empiezan a ser una segunda opinión útil donde hay incertidumbre y poco tiempo. La gran pregunta para implementación sigue siendo la de siempre: cómo se gestiona el error, la responsabilidad y el riesgo de “deferir demasiado” a la máquina.
Nuevas rutas para razonar y entrenar
Y cerramos con un ángulo social: The Verge describe un giro en Gen Z. Usan chatbots de forma masiva para estudiar y trabajar, pero su actitud se vuelve más negativa: miedo a pérdida de empleos, desinformación, costes ambientales y una sensación de que universidades y empresas empujan adopción sin reglas claras. Esto importa porque Gen Z es, a la vez, el mercado de prueba y la fuerza laboral que normaliza estas herramientas. Si crece la resistencia —o el cansancio—, puede cambiar el ritmo y la forma en que instituciones despliegan IA, sobre todo en educación.
Hasta aquí la edición de hoy, 1 de mayo de 2026. Si te quedas con una idea, que sea esta: la carrera de la IA ya no va solo de modelos más capaces, sino de compute, evaluación, seguridad y confianza social… y ahí es donde se van a decidir muchos ganadores. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.