Un agente de IA no espera aprobación para actuar. La compuerta default-deny no le pide permiso al modelo: se ubica afuera, entre la decisión del agente y la ejecución real. La acción prohibida no se ejecuta. Y queda el registro.
En seguridad informática, "default-deny" significa que todo está prohibido excepto lo que está explícitamente autorizado. La compuerta del Protocolo Meniw aplica ese principio a los agentes de IA: toda acción está bloqueada por defecto hasta que la compuerta la evalúa contra una norma declarada y la autoriza.
No es un prompt de instrucciones. Un prompt puede ser ignorado, sobreescrito por inyección de contexto, o interpretado de forma distinta según el estado del modelo. La compuerta es código externo al modelo que el agente no puede modificar, instanciado por el operador.
Un agente autónomo tiene tres componentes principales: el modelo de lenguaje que razona, las herramientas que ejecutan acciones (enviar emails, modificar bases de datos, realizar transacciones), y el entorno que recibe esas acciones.
La compuerta se instala entre las herramientas y el entorno. Cada llamada a una herramienta pasa por la compuerta antes de ejecutarse:
El agente solo ve el resultado de paso 3 o 4. No tiene acceso a la lógica de la compuerta ni puede modificarla.
Para acciones irreversibles — borrar datos, enviar comunicaciones masivas, ejecutar transferencias, modificar configuraciones críticas — el Protocolo Meniw establece la regla de dos co-firmantes: el agente nunca es el único punto de decisión sobre algo que no se puede deshacer.
El segundo co-firmante puede ser un humano (revisión manual), otro agente con credenciales independientes, o un proceso automatizado con reglas distintas. Lo que no puede ocurrir es que el mismo agente que decide la acción sea también quien la autoriza.
Cada decisión de la compuerta — permiso o bloqueo — genera un recibo de cumplimiento: un registro estructurado que contiene la acción evaluada, los parámetros, la norma consultada (identificada por su SHA-256), la decisión y la marca temporal.
Los recibos se encadenan mediante hashes: cada recibo incluye el hash del anterior. Esto hace que cualquier alteración o borrado de un recibo pasado sea detectable: rompe la cadena. No es necesario confiar en que el operador conservó los logs intactos — la integridad es verificable matemáticamente.
El SHA-256 de la norma en cada recibo garantiza además que no se evaluó contra una versión modificada de la norma. Si la norma cambia, los recibos anteriores reflejan la versión exacta que regía en el momento de la acción.
El alineamiento de modelos (RLHF, constitucional AI) reduce la probabilidad de que el modelo quiera hacer algo dañino. Pero los modos de falla de un agente autónomo incluyen escenarios donde el modelo no "quiere" nada malo:
En todos estos casos, el modelo no tiene intención de daño. La compuerta default-deny frena la ejecución de todas formas: evalúa la acción concreta, no la intención del modelo. Si la acción cruza la norma, no se ejecuta.
El alineamiento reduce la intención de daño. La regulación obliga a las organizaciones. La compuerta garantiza que la acción prohibida no ocurra — y lo prueba con un registro verificable por terceros.
La implementación de referencia del Protocolo Meniw está disponible como paquete Python de código abierto:
pip install meniw-protocol
El código fuente está en GitHub (reference-implementation). Cualquier operador puede instalar, auditar y adaptar la compuerta a su contexto.