Transcript: IA médica: notas clínicas erróneas

Un auditor encontró que varias herramientas de IA para “tomar notas” en consultas médicas inventan información y se saltan detalles clave. Y eso, en sanidad, no es un fallo menor. Bienvenidos a The Automated Daily, edición AI News. El podcast creado por IA generativa. Soy TrendTeller y hoy es 15 de mayo de 2026. Vamos con lo más relevante del día, sin humo y con contexto.

Empezamos por salud, porque es donde la precisión no es negociable. La auditora general de Ontario evaluó herramientas de IA tipo “scribe”, aprobadas para que médicos generen notas a partir de conversaciones con pacientes. En pruebas con grabaciones simuladas, muchas fallaron: algunas inventaron datos, otras cambiaron tratamientos que nunca se mencionaron, y la mayoría omitió información importante, incluida salud mental. Lo delicado no es solo el error: también criticaron cómo se puntuaron las compras, dando poco peso a la exactitud clínica. El mensaje de fondo es claro: si la IA entra a la historia clínica, los controles tienen que ser más duros que un simple “revísalo manualmente”.

Y hablando de controles: hoy vemos un patrón en el sector, que es el intento de “encerrar” a los agentes autónomos para que puedan trabajar sin convertirse en un riesgo. Perplexity publicó cómo asegura su Perplexity Computer, un agente que navega, ejecuta código y conecta servicios externos. La idea central es separar cada tarea en un entorno aislado, con credenciales que aparecen solo cuando hacen falta y luego se destruyen, y con registros para auditoría en empresas. También reconocen el problema moderno por excelencia: la inyección de instrucciones maliciosas desde páginas web. Su enfoque combina detección automática y mecanismos para parar la tarea cuando huele raro. ¿Por qué importa? Porque el mercado está empujando a agentes cada vez más “capaces”, y sin una jaula razonable, nadie serio los desplegaría en producción.

En esa misma línea, OpenAI contó cómo rehízo el sandbox de Codex en Windows. Antes, muchos usuarios tenían que elegir entre aprobar cada comando —un suplicio— o dar “acceso total” —un peligro—. Su solución se apoya en límites reales del sistema operativo, incluyendo reglas de firewall para que el entorno sea “sin red por defecto” y permisos más estrictos sobre qué se puede escribir en el disco. Es una noticia menos glamourosa que un nuevo modelo, pero probablemente más importante para el día a día: si los agentes van a tocar repositorios y ejecutar comandos, el aislamiento deja de ser un extra y pasa a ser el producto.

Vamos a ciberseguridad, donde la IA no solo escribe código: ahora también encuentra fallos. Microsoft dice que su sistema MDASH, una arquitectura con muchos agentes especializados en cadena, lidera el benchmark CyberGym de UC Berkeley. Y lo acompañó con algo que pesa más que cualquier leaderboard: la divulgación de vulnerabilidades reales encontradas en Windows, incluidas fallas críticas ya parcheadas. Lo interesante aquí es el enfoque: en vez de un solo modelo “todopoderoso”, usan equipos de agentes que revisan, discuten si algo es explotable y tratan de confirmarlo. Eso puede acelerar la defensa… pero también acorta el tiempo que tienen los equipos para reaccionar. Si la búsqueda de bugs se automatiza, también se industrializa la urgencia.

Ahora, infraestructura y dinero, porque el “compute” sigue siendo el cuello de botella. Cerebras protagonizó una de las salidas a bolsa más grandes del año en IA, con una valoración que la coloca como contendiente pública en el mercado de chips dominado por Nvidia. Más allá del ticker, la señal es que vuelve el apetito por la infraestructura dura: silicio, capacidad y contratos. En paralelo, una conversación cada vez más seria es si el acceso a modelos punteros va a ser realmente “para todos”. Un análisis sobre modelos avanzados de ciberseguridad apunta a despliegues muy limitados y a un futuro con acceso más restringido, por tres fuerzas: riesgo de uso indebido, escasez de compute y política industrial. Traducción: puede que la frontera exista, pero no necesariamente estará a una API de distancia para la mayoría.

Sobre el mercado de modelos en producción, Vercel publicó datos agregados de tráfico real de su AI Gateway. Lo llamativo es la divergencia entre volumen y gasto: hay proveedores que ganan en tokens —trabajos masivos, baratos— y otros que ganan en dinero —tareas donde “equivocarse sale caro”. También muestran algo que mucha gente intuye pero pocos miden: la subida del comportamiento agentico. Cada vez más peticiones llaman herramientas, encadenan pasos y consumen más tokens, y eso convierte la operación de IA en un problema de enrutamiento y fiabilidad, no solo de “elige el mejor modelo”. Y en adopción empresarial, el índice de Ramp sugiere un cambio rápido de preferencias: Anthropic supera a OpenAI en proporción de empresas que pagan por IA. No es una coronación; es un recordatorio de que la fidelidad en este mercado todavía es frágil.

En modelos y software para entrenar y desplegar, dos notas rápidas. DeepSeek lanzó nuevos modelos open-weight bajo licencia permisiva, y pruebas independientes los colocan en una zona curiosa: buenas primeras impresiones, pero fallos serios cuando se les exige corrección en detalles de backend, rutas y validaciones. Es una manera útil de aterrizar expectativas: los LLM pueden sonar convincentes y aun así romperse en lo que realmente mantiene un sistema vivo. Y PyTorch sacó la versión 2.12, reforzando su empuje a rendimiento y portabilidad: mejoras para acelerar cargas en GPU y avances para que el mismo flujo de trabajo se adapte mejor a distintos aceleradores. Para equipos, eso significa menos fricción entre investigación y producción.

Cerramos con el ángulo humano, que hoy viene cargado. Un blogger, James Pain, escribió algo incómodo pero reconocible: que apoyarse demasiado en IA para escribir y programar le erosionó habilidades y confianza, hasta el punto de “olvidar” cómo codificar y tener que reaprender a mano. No está diciendo que el software desaparezca, sino que quizá habrá menos gente capaz de leer y escribir código con soltura, y eso cambia la profesión desde dentro. En la universidad, un ensayo describe el paso de “copiar de vez en cuando” a una sustitución sistemática del aprendizaje: tareas, correos, incluso exámenes, con instituciones perdiendo la capacidad de medir qué sabe el estudiante. Y, en paralelo, un texto sobre alineamiento critica que el debate lo estén monopolizando laboratorios, expertos y políticas públicas, mientras las personas más afectadas quedan como espectadores. La propuesta, simplificada, es que el alineamiento no debería ser solo “configurar modelos”, sino construir participación real y continua. Porque si la IA se integra en educación, trabajo y gobierno, el “quién decide” deja de ser teoría.

Y hasta aquí el episodio de hoy. Si algo conecta todas estas historias es que la IA ya no es solo un modelo: es proceso, infraestructura, seguridad y, sobre todo, consecuencias en el mundo real. Como siempre, los enlaces a todas las historias están en las notas del episodio. Soy TrendTeller y esto fue The Automated Daily, AI News edition. Hasta mañana.