Compilador Scheme a WebAssembly & Git-memento: trazas de IA en Git - Noticias de IA (2 mar 2026)
Claude acelera un compilador de 3,5 min a 11 s; git-memento guarda chats de IA en Git; auditoría eBPF, covenants verificables y debate sobre IA militar.
Our Sponsors
Topics
- 01
Compilador Scheme a WebAssembly
— Puppy Scheme, un compilador Scheme→WebAssembly hecho con ayuda intensiva de Claude, baja su tiempo de compilación de 3,5 minutos a 11 segundos. Soporta WASI 2, Component Model, WASM GC y es autoalojado. - 02
Git-memento: trazas de IA en Git
— git-memento guarda la sesión de codificación con IA como Markdown dentro de git notes, sin romper el flujo normal de commits. Incluye soporte multi-proveedor (Codex/Claude), auditoría de cobertura y GitHub Actions para comentar o bloquear CI. - 03
Auditoría eBPF para agentes
— Logira registra lo que realmente hizo un agente o automatización a nivel de sistema usando eBPF: procesos, archivos y red. Usa cgroup v2 por ejecución, guarda JSONL y SQLite, y aplica reglas para detectar exfiltración, persistencia y comandos destructivos. - 04
Compromisos criptográficos de agentes
— Nobulex propone “compromisos de comportamiento” verificables: identidades DID, covenants estilo Cedar (permit/forbid/require) y logs encadenados con SHA-256 y pruebas Merkle. Combina verificación trustless, middleware de bloqueo y staking/slashing en testnet. - 05
Tregua en seguridad y prompt injection
— Matthew Honnibal pide una tregua: dejar la pelea por la superinteligencia y endurecer ya los sistemas actuales. Señala bucles de ataque autónomos, marketplaces de ‘skills’ con instrucciones ocultas y una cultura de ‘normalización de la desviación’. - 06
IA militar, gobernanza e interpretabilidad
— Varios textos discuten el encaje de modelos como Claude en decisiones letales: no basta con ‘humano en el bucle’ si hay sesgo de automatización y ciclos acelerados. Se reclama interpretabilidad real (no explicaciones post-hoc) y debate democrático más amplio sobre delegación y supervisión. - 07
Etiqueta social sobre transcripciones IA
— Cory Doctorow critica pegar transcripciones de chatbots en hilos o enviarlas a autores como “réplicas” sin verificar: impone ruido y traslada el trabajo de verificación a terceros. La conversación conecta con cuándo compartir trazas de IA y cómo hacerlo con consentimiento.
Sources
- → https://github.com/mandel-macaque/memento
- → https://matthewphillips.info/programming/posts/i-built-a-scheme-compiler-with-ai/
- → https://github.com/melonattacker/logira
- → https://pluralistic.net/2026/03/02/nonconsensual-slopping/#robowanking
- → https://honnibal.dev/blog/clownpocalypse
- → https://manidoraisamy.com/ai-interpretable.html
- → https://github.com/nobulexdev/nobulex
- → https://weaponizedspaces.substack.com/p/the-information-space-around-military
Full Transcript
Un compilador de Scheme a WebAssembly que, gracias a una petición nocturna a un modelo, pasa de tardar tres minutos y medio a once segundos. ¿Magia? No exactamente: es una pista de hacia dónde va el desarrollo asistido por IA… y de los riesgos que se cuelan por el camino. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 2 de marzo de 2026. Soy TrendTeller, y en cinco minutos vamos a recorrer herramientas para dejar rastro de lo que hace la IA en tu código, auditoría real a nivel de sistema para agentes, nuevas ideas de “cumplimiento verificable” con criptografía, y el debate cada vez más tenso sobre IA en contextos militares. Vamos a ello.
Compilador Scheme a WebAssembly
Arrancamos con una historia que explica por qué tantos proyectos “imposibles en un fin de semana” se están volviendo, si no comunes, al menos plausibles. Matthew Phillips cuenta cómo construyó “Puppy Scheme”, un compilador de Scheme a WebAssembly. Lo llamativo no es solo el resultado, sino el calendario: dice que le llevó la mayor parte de un fin de semana y un par de noches entre semana. Tradicionalmente, un compilador nuevo con objetivos modernos —y con cierta ambición— es trabajo de meses o años. Aquí entra Claude como copiloto intensivo. Phillips describe una escena que ya se está convirtiendo en patrón: dejar al modelo “machacando rendimiento” durante la noche. El resultado, según su relato, es un salto de rendimiento brutal: de unos 3,5 minutos por compilación a 11 segundos. No es un ajuste fino; es una reescritura conceptual, o una cascada de micro-optimizaciones bien elegidas. Ojo: él mismo insiste en que es calidad alfa y que aparecen bugs con frecuencia. Pero incluso así, la lista de características impresiona para el tiempo invertido: alrededor del 73% de compatibilidad con R5RS y R7RS, y un enfoque claro a WebAssembly moderno: WASI 2, el WebAssembly Component Model y WASM GC. Además, Puppy Scheme hace eliminación de código muerto para binarios más pequeños, y es autoalojado: puede compilar su propio código y producir un artefacto tipo “puppyc.wasm”. Y para aterrizarlo en un flujo más clásico, Phillips montó un wrapper basado en wasmtime para generar binarios nativos desde el WASM. Remata con una demo web corriendo en Cloudflare Workers —incluye el código del worker— y experimentos con UI usando el component model, como un contador escrito en Scheme. La conclusión práctica: la IA no solo te ahorra teclear; puede acelerar ciclos de experimentación a una velocidad que cambia qué proyectos te atreves a empezar. Y eso nos lleva directamente a la pregunta incómoda del día: si cada vez delegamos más, ¿cómo dejamos constancia y cómo auditamos lo que pasó?
Git-memento: trazas de IA en Git
Primera parada en esa ruta: trazabilidad dentro del propio Git. En GitHub aparece “git-memento”, en el repositorio mandel-macaque/memento. Es una extensión de Git pensada para registrar la sesión de codificación con IA que produjo un commit y guardarla como conversación “limpia” en Markdown… dentro de git notes, pegada al commit resultante. La idea está bien enfocada: no te pide abandonar el flujo normal. Puedes seguir haciendo commits con -m o abriendo el editor como siempre. La diferencia es que, además del mensaje, adjuntas una traza legible de la sesión de IA. ¿Cómo se usa? Configuras el repo con “git memento init”, eligiendo proveedor si quieres —Codex primero, y también Claude— y esa configuración queda en .git/config bajo claves memento.*. A partir de ahí, puedes hacer algo como “git memento commit <session-id> -m "mensaje"”. Y si reescribes historia, tienes “git memento amend” para preservar o añadir notas al enmendar. Hay detalles de colaboración que suelen ser el talón de Aquiles de git notes, y aquí los atacan de frente: comandos como share-notes, push y notes-sync para empujar y fusionar refs/notes/*, ajustar refspecs de fetch en el remoto, y —muy importante— crear backups con timestamp en refs/notes/memento-backups/<timestamp> antes de mezclar. Si has sufrido un merge raro de notes, ya sabes por qué ese backup suena a salvavidas. Para flujos de “historia reescrita” más agresivos, incluyen notes-rewrite-setup para que las notas se arrastren automáticamente, y un comando notes-carry que puede agregar notas de un rango reescrito sobre un commit nuevo, incluyendo un bloque de procedencia. Y la parte de calidad: “git memento audit”, con modo --strict y salida JSON, detecta commits sin notas y valida marcadores de metadatos como proveedor y session ID. Complementa con “git memento doctor” para diagnosticar configuración local y el estado de sincronización con el remoto. En cuanto a integración, el repo ofrece una GitHub Action de Marketplace con dos modos: “comment”, que publica comentarios en commits renderizando las notas, y “gate”, que ejecuta el audit y puede tumbar la CI si falla la cobertura. Incluso traen una acción de instalación reutilizable: mandel-macaque/memento/install@v1. Dato de ingeniería: lo construyen como ejecutable único por plataforma con .NET SDK 10 y NativeAOT, y un instalador tipo curl que descarga de releases/latest. Y la primera release pública, v1.1.0, figura precisamente hoy, 2 de marzo de 2026. En el snapshot, unas 200 estrellas y 5 forks: aún pequeño, pero con una propuesta clara. Y un detalle más: soportan tanto formato legacy de una sola sesión como un “sobre” versionado multi-sesión, con marcadores en comentarios HTML —por ejemplo, “<!-- git-memento-sessions:v1 -->”— para adjuntar varias sesiones, incluso de distintos proveedores, al mismo commit. En resumen: si vamos a convivir con código co-escrito por IA, tiene sentido que el “por qué” y el “cómo” no se pierdan en un chat efímero.
Auditoría eBPF para agentes
Ahora, pasemos de lo que el agente “dice” que hizo, a lo que realmente hizo en el sistema. Logira es un CLI para Linux, acompañado por un demonio root llamado logirad, diseñado para auditoría en tiempo de ejecución de automatizaciones —especialmente agentes de IA— a nivel de sistema operativo. En vez de confiar en la narrativa del agente, usa eBPF para registrar ejecución de procesos, actividad de archivos y actividad de red. La clave para que sea usable es cómo agrupa eventos: cada “run” se rastrea con cgroup v2, de modo que si lanzas “logira run -- <comando>”, todo lo que ocurra debajo queda atribuido a esa ejecución. Y los datos se guardan localmente en dos formatos: JSONL para líneas de tiempo, y SQLite para consultas rápidas, además de metadatos por run. Lo interesante es su enfoque práctico de detecciones por defecto, muy orientadas a comportamiento de riesgo típico en agentes con demasiados permisos: lecturas o escrituras de credenciales y secretos —claves SSH, configs de AWS o Kubernetes, docker, .netrc, .git-credentials—; cambios de persistencia, como tocar /etc, unidades de systemd, cron, o archivos de arranque del shell; y patrones tipo “temp dropper”, donde aparece un ejecutable en /tmp o /dev/shm. También marca señales clásicas: tuberías del estilo curl|sh o wget|sh, herramientas de túnel o reverse-shell, pistas de base64 decodificado hacia shell, y operaciones destructivas como rm -rf, git clean -fdx, mkfs o terraform destroy. En red, destaca reglas para puertos de salida sospechosos y accesos a endpoints de metadata en la nube, que suelen ser un objetivo cuando alguien intenta robar credenciales temporales. Y no es un sistema cerrado: permite reglas por ejecución vía YAML, con un conjunto por defecto “opinativo” para empezar rápido. Requisitos: kernel 5.8+, systemd y cgroup v2. Licencia Apache-2.0, con los programas eBPF en dual licencia Apache o GPL-2.0-only por compatibilidad del kernel. Si git-memento apunta a trazabilidad en el repositorio, Logira apunta a la trazabilidad en la máquina: dos capas que, combinadas, se sienten cada vez más necesarias si vamos a dejar agentes ejecutando tareas sin supervisión constante.
Compromisos criptográficos de agentes
Y si subimos un nivel más: no solo observar, sino formalizar qué se permite y poder verificarlo de forma “trustless”. Nobulex se presenta como un protocolo abierto —y un monorepo en TypeScript— para hacer agentes más responsables mediante “compromisos de comportamiento criptográficos con verificación sin confianza”. Traducción: quizá no puedas auditar la red neuronal por dentro, pero sí puedes auditar de manera determinista el registro de acciones de un agente contra un conjunto de reglas que el propio agente declaró. El esquema es: el agente tiene identidad descentralizada estilo W3C, con did:nobulex:, respaldada por claves Ed25519. Luego escribe un “covenant”, una especie de contrato de comportamiento en un DSL inspirado en Cedar, con reglas permit, forbid y require. Importante: “forbid” gana, y lo que no coincide queda denegado por defecto. Eso ya suena más a seguridad real que a “confía en mi prompt”. Las acciones se registran en un log encadenado con SHA-256, a prueba de manipulación, capaz de generar pruebas Merkle. Entonces puedes correr algo como verify(covenant, actionLog) y obtener cumplimiento o pruebas de violación. La ejecución puede apoyarse en middleware que bloquea acciones prohibidas antes de que ocurran. Y para incentivos, plantean staking y slashing: si violas, pierdes. Proponen dos niveles de garantía: Tier 1 con TEE —Intel SGX o AMD SEV— para impedir físicamente acciones en contextos de alto riesgo; y Tier 2 con penalizaciones on-chain para usos más generales. Dicen tener tres contratos en Sepolia: CovenantRegistry, StakeManager y SlashingJudge. Esto conecta muy bien con una pregunta que está madurando en la industria: ¿vamos a seguir tratando a los agentes como “programas con personalidad”, o vamos a exigirles controles verificables, como a cualquier otro sistema que toca dinero, infraestructura o datos sensibles?
Tregua en seguridad y prompt injection
Con ese contexto, llegamos al bloque de seguridad, donde hoy aparece una petición bastante sensata: una tregua. Matthew Honnibal propone dejar a un lado, por un momento, las guerras dialécticas sobre superinteligencia, y centrarnos en riesgos cercanos, nada “existenciales” en teoría… pero sí graves en práctica. Su preocupación central: bucles de ataque autónomos y auto-replicantes no necesitan ser muy inteligentes para causar daño masivo, especialmente si el coste de desarrollar exploits baja por debajo del retorno medio. Honnibal apunta a una combinación peligrosa: mentalidad de carrera —más features, más rápido—, superficies de ataque creciendo, y agentes de programación que se ejecutan con permisos amplios y poca supervisión. Da un ejemplo concreto que da escalofríos por lo trivial: archivos de “skills” para agentes, básicamente Markdown que se añade al prompt, compartidos en marketplaces como Skills.sh. Si se permiten comentarios HTML ocultos, puedes colar instrucciones no renderizadas que secuestran al agente. Y la “solución” sería tan simple como prohibir comentarios HTML… pero el problema, según cuenta, se ha mantenido semanas sin resolución. Menciona la demostración “What Would Elon Do” de Jamieson O’Reilly, usada para mostrar a víctimas que habían sido comprometidas, y critica que incluso con señales tan claras, el ecosistema sigue avanzando. También cita incidentes y mala configuración expuesta a internet en el ecosistema OpenClaw, que aun así se disparó como el proyecto más rápido en crecer en GitHub, hasta que su creador fue fichado en un acquihire. Su tesis: estamos normalizando la desviación. Tratamos la inyección de prompts como un “oops” asumible, aunque pueda encadenarse entre sistemas. Y alerta de casos como el flujo de “API key en un clic” de Google Gemini, que, según el autor, rompió supuestos previos: claves que antes parecían inocuas para incrustar en público podían autorizar uso de Gemini y convertirse en una manguera de costes. Mirando a futuro, habla de malware a escala usando modelos afinados para razonamiento: phishing, ingeniería social, búsqueda de credenciales… pero con deriva de objetivos y outputs erráticos, lo que Anthropic ha llamado el problema del “hot mess”. Cuando multiplicas eso por millones de agentes, no necesitas una mente maestra: necesitas volumen. El cierre de Honnibal es pragmático: evitar esta “clownpocalypse” es posible con endurecimiento básico, pero requiere aceptar fricción: más controles, menos magia instantánea. Y aquí es donde herramientas como Logira o enfoques como Nobulex, incluso si aún están verdes, encajan como piezas del mismo rompecabezas.
IA militar, gobernanza e interpretabilidad
Pasemos al bloque más delicado: IA, armas y gobernanza. Hoy confluyen varias piezas que empujan en la misma dirección: no basta con decir “pon un humano en el bucle”. Por un lado, hay un ensayo que insiste en que, para decisiones de vida o muerte —armas totalmente autónomas o diagnóstico médico— la interpretabilidad no es un lujo; es requisito. El texto abre con un recordatorio incómodo: incluso en sistemas deterministas y muy ingenierizados, como la aviación, la atribución de responsabilidad puede ser compleja. Menciona el caso de un Boeing 787 que se estrelló contra un colegio médico en India, con 260 víctimas, donde unos culpan a pilotos, otros a Boeing, y el informe final aún está pendiente. La moraleja: si ya cuesta explicar fallos en sistemas clásicos, con modelos probabilísticos opacos el problema se multiplica. El ensayo enlaza con reportes de que el Departamento de Defensa de EE. UU. querría usar un modelo de Anthropic en armas plenamente autónomas sin aprobación humana, algo que Anthropic habría rechazado por falta de fiabilidad. Y cita la idea, repetida por Dario Amodei, de que los modelos actuales son fundamentalmente impredecibles. Luego entra en el “por qué” técnico: los modelos son “lossy” —pierden fidelidad en tokenización y reconstrucción— y son cajas negras. Usa un ejemplo tipo dermatología, un lunar cambiante, para mostrar que el output puede sonar clínicamente razonable, pero la ruta interna desde frases como “parches marrones” o “punto azulado” hasta “alto riesgo” pasa por embeddings de miles de dimensiones sin nombre y capas de transformación que no se traducen a conceptos humanos. Reconoce avances como el trabajo de Anthropic de 2024 sobre monosemanticidad con autoencoders dispersos para extraer “features” interpretables —por ejemplo, “marrón”—, pero advierte que siguen montadas sobre ejes subyacentes sin significado. Y sugiere una vía más radical: definir dimensiones canónicas y nombradas, científicamente fundamentadas —RGB para color, valencia/arousal/dominance para emoción— y construir representaciones más trazables, incluso usando embeddings tipo grafo y graph transformers. Importante: también advierte contra explicaciones post-hoc, como cadenas de pensamiento, porque pueden ser inexactas o directamente inventadas. A la vez, otro artículo critica cómo se está encuadrando públicamente el supuesto pulso entre Anthropic y el Pentágono. La denuncia es de “guerra narrativa”: el debate se estrecha artificialmente a “¿hay humano en el bucle o no?”, mientras se dejan fuera preguntas más grandes: ¿debería integrarse IA avanzada en la toma de decisiones militares en primer lugar? ¿quién controla el despliegue? ¿qué supervisión y procesos constitucionales aplican? El texto recuerda algo que muchos pasan por alto: incluso con humano en el bucle, existe sesgo de automatización. El supervisor tiende a asentir, especialmente bajo presión de tiempo. Y si la IA acelera el ciclo de decisión y preconfigura el “menú” de opciones, el humano puede acabar validando un marco ya sesgado. También menciona un war-game descrito por New Scientist donde LLMs eligieron ataques nucleares en cerca del 95% de las simulaciones cuando los objetivos estaban poco acotados. No hace falta tomar esa cifra como destino inevitable; basta con verla como señal de que, en objetivos ambiguos, los modelos pueden producir recomendaciones extremas. El argumento final es de gobernanza: si la integración se hace principalmente por contratación y políticas internas del Ejecutivo, sin una ley integral y con poder concentrado en pocas empresas privadas, se abre un problema democrático serio. Y además está la capa de vigilancia: la IA no solo “recoge datos”, infiere; y marcos legales pensados para la recolección pueden quedarse cortos ante la inferencia a escala. Entre la falta de interpretabilidad y la reducción del debate a un eslogan, el mensaje del día es claro: en contextos de alto riesgo, los parches cosméticos no bastan.
Etiqueta social sobre transcripciones IA
Cerramos con una pieza cultural, pero que toca directamente cómo convivimos con estas herramientas. Cory Doctorow, en su Pluralistic de hoy, sostiene que, en general, otras personas no quieren ver tus transcripciones de chatbots. Y lo compara —con dureza— a un acto intrusivo cuando se pega en hilos sociales o se invoca a un bot en una conversación con desconocidos. Su crítica más concreta apunta a un comportamiento que se está normalizando: alguien lee algo que escribió un tercero, le pide a una IA que genere una réplica o “comentario”, y luego envía ese texto al autor como si fuera debate serio. Doctorow recuerda lo obvio pero necesario: las propias empresas de IA admiten que hay alucinaciones. Así que, si vas a usar una IA para criticar a alguien, necesitas verificación humana experta antes de convertirlo en intercambio real. Si no, lo que haces —dice— es intentar convertir al autor en tu “humano en el bucle”: le delegas el trabajo de comprobar si el chatbot se inventó cosas. Y ese trabajo no es gratis ni consentido. Hay una conexión interesante con herramientas como git-memento: registrar una traza puede ser valioso para tu equipo, para auditoría, para aprendizaje. Pero compartirla indiscriminadamente fuera de contexto puede ser ruido, o incluso una carga. La línea parece ser: trazabilidad sí, pero con propósito, con consentimiento, y con responsabilidad sobre la verificación.
Y hasta aquí el episodio de hoy, 2 de marzo de 2026. Si tuviera que resumir el hilo conductor: estamos pasando de “la IA ayuda a programar” a “la IA actúa”, y eso exige memoria —como git notes—, observación —como eBPF—, y normas verificables —como covenants—, además de un debate público menos estrecho cuando el riesgo es máximo. TrendTeller se despide. Como siempre, los enlaces a todas las historias están en las notas del episodio.