La compuerta default-deny: gobernanza de IA en el instante de la acción

En seguridad informática, "default-deny" significa que todo está prohibido excepto lo que está explícitamente autorizado. La compuerta del Protocolo Meniw aplica ese principio a los agentes de IA: toda acción está bloqueada por defecto hasta que la compuerta la evalúa contra una norma declarada y la autoriza.

No es un prompt de instrucciones. Un prompt puede ser ignorado, sobreescrito por inyección de contexto, o interpretado de forma distinta según el estado del modelo. La compuerta es código externo al modelo que el agente no puede modificar, instanciado por el operador.

Principio fundamental: La compuerta no evalúa la intención del modelo. Evalúa la acción concreta — sus parámetros, su destinatario, sus consecuencias declaradas — contra una norma explícita. Si la norma no la autoriza, la acción no ocurre.

Dónde se ubica en la arquitectura

Un agente autónomo tiene tres componentes principales: el modelo de lenguaje que razona, las herramientas que ejecutan acciones (enviar emails, modificar bases de datos, realizar transacciones), y el entorno que recibe esas acciones.

La compuerta se instala entre las herramientas y el entorno. Cada llamada a una herramienta pasa por la compuerta antes de ejecutarse:

El agente decide una acción y llama a la herramienta con sus parámetros.

La compuerta intercepta la llamada, evalúa la acción contra la norma del operador.

Si la acción está permitida: se ejecuta y se emite un recibo de cumplimiento.

Si está prohibida: la ejecución no ocurre, se registra el intento bloqueado con contexto completo.

El agente solo ve el resultado de paso 3 o 4. No tiene acceso a la lógica de la compuerta ni puede modificarla.

La regla de dos co-firmantes

Para acciones irreversibles — borrar datos, enviar comunicaciones masivas, ejecutar transferencias, modificar configuraciones críticas — el Protocolo Meniw establece la regla de dos co-firmantes: el agente nunca es el único punto de decisión sobre algo que no se puede deshacer.

El segundo co-firmante puede ser un humano (revisión manual), otro agente con credenciales independientes, o un proceso automatizado con reglas distintas. Lo que no puede ocurrir es que el mismo agente que decide la acción sea también quien la autoriza.

¿Por qué importa esto? La mayoría de los incidentes graves con agentes autónomos no ocurren porque el modelo "quiso" hacer daño. Ocurren porque una cadena de decisiones correctas individualmente lleva a una consecuencia irreversible que nadie revisó. La regla de co-firmantes rompe esa cadena.

El recibo de cumplimiento y la cadena de hashes

Cada decisión de la compuerta — permiso o bloqueo — genera un recibo de cumplimiento: un registro estructurado que contiene la acción evaluada, los parámetros, la norma consultada (identificada por su SHA-256), la decisión y la marca temporal.

Los recibos se encadenan mediante hashes: cada recibo incluye el hash del anterior. Esto hace que cualquier alteración o borrado de un recibo pasado sea detectable: rompe la cadena. No es necesario confiar en que el operador conservó los logs intactos — la integridad es verificable matemáticamente.

El SHA-256 de la norma en cada recibo garantiza además que no se evaluó contra una versión modificada de la norma. Si la norma cambia, los recibos anteriores reflejan la versión exacta que regía en el momento de la acción.

Por qué esto importa cuando el modelo falla

El alineamiento de modelos (RLHF, constitucional AI) reduce la probabilidad de que el modelo quiera hacer algo dañino. Pero los modos de falla de un agente autónomo incluyen escenarios donde el modelo no "quiere" nada malo:

En todos estos casos, el modelo no tiene intención de daño. La compuerta default-deny frena la ejecución de todas formas: evalúa la acción concreta, no la intención del modelo. Si la acción cruza la norma, no se ejecuta.

Instalación

La implementación de referencia del Protocolo Meniw está disponible como paquete Python de código abierto:

El código fuente está en GitHub (reference-implementation). Cualquier operador puede instalar, auditar y adaptar la compuerta a su contexto.