OpenAI replantea su plan Stargate & Prompts raros: veto a “goblins” - Noticias de IA (1 may 2026)

¿Por qué un modelo de OpenAI necesitó una regla explícita —y repetida— para “no hablar de goblins”? Hoy eso nos sirve de pista sobre lo frágil y poderoso que puede ser un simple system prompt. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 1 de mayo de 2026. Soy TrendTeller, y en cinco minutos repasamos lo más relevante de IA, seguridad e infraestructura: desde el giro de OpenAI con Stargate hasta un ataque a la cadena de suministro que apunta directo al corazón de muchos entornos de ML.

OpenAI replantea su plan Stargate

Empecemos por OpenAI y su estrategia de infraestructura. Según Financial Times, el plan “Stargate” —aquel objetivo enorme de co-invertir en centros de datos en EE. UU.— se estaría despriorizando para apostar más por alquilar capacidad a terceros con acuerdos a largo plazo. En la práctica, menos “poseer” y más “arrendar”. ¿Por qué importa? Porque construir data centers para IA es un pozo de capital y de complejidad: energía, permisos, riesgos de ejecución y, sobre todo, control entre socios. El reporte habla de tensiones por quién manda, proyectos pausados o reformulados, y una sensación de “nos vendieron otra cosa” entre algunos desarrolladores. OpenAI seguirá buscando compute para crecer, pero este giro también pone a prueba su credibilidad como socio industrial.

Prompts raros: veto a “goblins”

Y sin salir de OpenAI, la nota más curiosa del día: en el prompt del Codex CLI apareció una regla extraña, repetida varias veces, que ordena al modelo no mencionar “goblins” y otras criaturas salvo que sea claramente relevante. La interpretación más plausible es simple: estaban apareciendo menciones espontáneas y no deseadas en conversaciones normales, y la forma más rápida de contenerlo fue un parche por instrucciones. El detalle interesante no es el chiste; es el recordatorio de que los modelos no solo se “entrenan”: también se gobernan con capas de control, y a veces esos controles son reactivos y muy específicos. Además, ya hay forks y ‘mods’ para desactivar la restricción, lo que anticipa un tema recurrente: quién decide el comportamiento por defecto de un asistente que muchos integran en su trabajo.

Vulnerabilidad crítica en GitHub Enterprise

Otro frente alrededor de OpenAI, pero ahora legal y político: Elon Musk declaró en un juicio que fue un “tonto” por financiar a OpenAI cuando era una organización sin ánimo de lucro, argumentando que su apoyo ayudó a crear lo que hoy es un gigante comercial. El caso vuelve a poner en el centro una pregunta que no se va: cómo se gobiernan los laboratorios de IA cuando pasan de misión pública a escala industrial. Para el ecosistema, el resultado importa menos por el drama y más por el precedente: expectativas de transparencia, control y responsabilidades en organizaciones que empiezan con un relato de interés público y acaban compitiendo por mercados y capital.

Ataque a la cadena PyPI lightning

Pasamos a seguridad, con una historia que también habla del papel de la IA en el trabajo ofensivo y defensivo. GitHub divulgó la CVE-2026-3854, un fallo de severidad alta en GitHub Enterprise Server que podría permitir ejecución remota de código a un atacante con permisos para hacer push. Lo llamativo: Wiz afirma que usó una herramienta asistida por IA para acelerar el reverse engineering de binarios cerrados y llegar a un exploit funcional en menos de 48 horas. GitHub dice que parchó rápido y no vio explotación en github.com, pero el mensaje es claro: bajar el coste de investigación de vulnerabilidades acelera el ciclo para todos. Si tu empresa usa GitHub Enterprise, la urgencia no es teórica: actualizar es la diferencia entre “incidente potencial” y “problema real”.

Evaluar agentes cuesta una fortuna

Y la segunda gran alerta de seguridad es todavía más peligrosa por alcance: un compromiso de cadena de suministro en PyPI, afectando al paquete “lightning” en versiones recientes. El reporte indica que, con solo instalar e importar, se activaba malware diseñado para robar secretos: tokens, variables de entorno y credenciales cloud, tanto en máquinas de desarrolladores como en CI. Además, la campaña intenta saltar entre ecosistemas: entra por PyPI y busca propagarse usando tokens para publicar en npm, como si fuese un gusano. Esto importa muchísimo para equipos de IA: “lightning” está en muchos pipelines de entrenamiento. Hoy la recomendación práctica es la de siempre, pero más seria que nunca: pinning de versiones, revisión de releases, y controles en CI para minimizar secretos expuestos y detectar exfiltración.

Recompensas por proceso en análisis

Hablemos ahora de evaluación, que se está convirtiendo en el gran cuello de botella. Un artículo del equipo de Hugging Face advierte que evaluar agentes —no solo modelos estáticos— puede costar decenas de miles de dólares en rollouts, y que el resultado depende muchísimo del “andamiaje” con el que ejecutas al agente: herramientas, presupuesto de tokens, reintentos. La consecuencia es incómoda: si validar cuesta tanto, el poder de auditar se concentra. Y si encima los leaderboards no obligan a publicar logs y detalles, es difícil saber qué es rendimiento real y qué es gastar más compute hasta que salga. En otras palabras: benchmarking sin contabilidad puede premiar el derroche.

Benchmark de creatividad con desacuerdo

En esa misma línea, DeepMind liberó ProEval, un toolkit open-source para hacer evaluación más barata y, supuestamente, más informativa cuando el presupuesto de etiquetado o juzgado es limitado. La idea es estimar rendimiento con muchas menos muestras y, a la vez, buscar patrones de fallo en lugar de quedarse solo con una media. Si esto funciona bien en la práctica, cambia la dinámica: más equipos podrían evaluar con rigor sin quemar presupuesto de GPU, y además detectar de forma más proactiva en qué se equivoca un sistema, no solo cuánto “acierta”.

TPUs en centros de datos privados

Y un paper en arXiv trae un matiz clave para agentes de análisis de datos: los modelos de recompensa por proceso —tan útiles en matemáticas— fallan cuando supervisan flujos donde hay código que “corre” pero da resultados erróneos. Son los famosos “errores silenciosos”. La propuesta, DataPRM, intenta ser más consciente del entorno de ejecución para revisar estados intermedios y separar errores recuperables de fallos irreparables. ¿Por qué importa? Porque si de verdad queremos agentes que hagan análisis científico o de negocio sin supervisión constante, necesitamos señales de calidad durante el camino, no solo un veredicto al final cuando ya es tarde.

El mercado de inferencia se fragmenta

En creatividad, Contra Labs presentó el Human Creativity Benchmark, que trata el desacuerdo entre expertos como señal útil, no como ruido. Separan la parte donde suele haber consenso —legibilidad, jerarquía, artefactos— de la parte donde el gusto manda y la intención creativa cambia. El hallazgo es revelador: ningún modelo destaca de forma consistente a la vez en “cumplir requisitos verificables” y en ser realmente maleable según preferencias estéticas. Para herramientas creativas esto es crucial: si lo reduces todo a una sola puntuación, empujas a resultados genéricos, correctos pero sin carácter. Y eso, para un profesional, suele ser poco utilizable.

IA en triaje médico: resultados mixtos

Ahora infraestructura y chips. Alphabet dijo que empezará a vender sus TPUs para que algunos clientes las instalen en sus propios centros de datos, en lugar de limitarse a alquilarlas por cloud. Es un movimiento directo contra el dominio de Nvidia y también una forma de ampliar mercado con una propuesta: hardware más integrado con el stack de Google. Detrás hay un cambio de época: las grandes tecnológicas ya no solo compiten en modelos y APIs, sino en controlar la cadena de suministro de compute. Y cuando la demanda aprieta, tener alternativas a una sola familia de GPU puede ser una ventaja estratégica.

Gen Z usa IA pero desconfía

Relacionado con eso, una tesis que gana fuerza: la inferencia de IA se está fragmentando en submercados, como pasó con las bases de datos. No es lo mismo servir chat con contextos largos, que generar vídeo, que correr modelos en edge con límites de energía y latencia. ¿La consecuencia práctica? No va a existir un “stack universal” que optimice todo. Veremos infraestructuras especializadas por modalidad, por tiempos de respuesta y por entorno de despliegue. Y donde hay fragmentación, suele haber espacio para nuevos líderes de categoría.

Agentes que trabajan en paralelo

En el mundo de herramientas para desarrolladores, Mistral lanzó “agentes remotos” para su producto de programación: tareas largas se ejecutan en sesiones aisladas en la nube, de forma asíncrona y en paralelo, y luego vuelven con cambios listos para revisión. Esto empuja el trabajo del “copiloto” al “operador”: menos sugerencias línea por línea y más trabajos completos con aprobaciones humanas. Si cuaja, el impacto no es solo productividad: también cambia cómo se gestionan permisos, auditoría y responsabilidad cuando un agente toca repos y pipelines reales.

Cómo diseñar servidores MCP robustos

Y para quien esté construyendo herramientas tipo MCP, un desarrollador compartió lecciones muy terrenales: los modelos no “planifican” como creemos; eligen el siguiente tool de manera oportunista. Por eso, un servidor robusto debe facilitar el siguiente paso correcto con herramientas bien nombradas, pocas y claras, y respuestas que incluyan pistas operativas. Es un recordatorio útil: la calidad de un sistema con agentes depende tanto del diseño de la interfaz de herramientas como del modelo que tengas detrás. Menos magia, más ergonomía.

Vídeo generativo con coherencia 3D

En salud, un estudio liderado por Harvard y publicado en Science reporta que un sistema de IA superó a médicos de urgencias en un escenario de triaje con información limitada de historiales electrónicos. Con más información, la IA se acercó a rendimiento experto. La lectura responsable es la que dan los propios autores: esto no reemplaza al clínico, porque faltan señales no textuales y el contexto del paciente real. Pero sí sugiere que los LLM empiezan a ser una segunda opinión útil donde hay incertidumbre y poco tiempo. La gran pregunta para implementación sigue siendo la de siempre: cómo se gestiona el error, la responsabilidad y el riesgo de “deferir demasiado” a la máquina.

Nuevas rutas para razonar y entrenar

Y cerramos con un ángulo social: The Verge describe un giro en Gen Z. Usan chatbots de forma masiva para estudiar y trabajar, pero su actitud se vuelve más negativa: miedo a pérdida de empleos, desinformación, costes ambientales y una sensación de que universidades y empresas empujan adopción sin reglas claras. Esto importa porque Gen Z es, a la vez, el mercado de prueba y la fuerza laboral que normaliza estas herramientas. Si crece la resistencia —o el cansancio—, puede cambiar el ritmo y la forma en que instituciones despliegan IA, sobre todo en educación.

Hasta aquí la edición de hoy, 1 de mayo de 2026. Si te quedas con una idea, que sea esta: la carrera de la IA ya no va solo de modelos más capaces, sino de compute, evaluación, seguridad y confianza social… y ahí es donde se van a decidir muchos ganadores. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.

OpenAI replantea su plan Stargate & Prompts raros: veto a “goblins” - Noticias de IA (1 may 2026)

Our Sponsors

Today's AI News Topics