Vector de ataque

Los skills como puerta de entrada

El vector de Memory Poisoning más peligroso no es un texto oculto en una página web — es un skill que tú mismo instalas. Marketplaces como ClawHub convierten el código ajeno en una cadena de suministro directa al memory de tu agente.

~7 min de lectura · Vector de ataque

Un skill es una instrucción almacenada — con privilegios

Un skill de OpenClaw es un archivo SKILL.md: instrucciones en Markdown que le enseñan al agente cuándo y cómo usa las herramientas. Suena inofensivo — pero ahí está precisamente el punto: un skill no es "solo una herramienta", sino una instrucción almacenada de forma permanente con los privilegios de tu agente. Quien controla el skill controla una parte del comportamiento — en cada sesión de nuevo.

ClawHub: la puerta de entrada masiva

El registro de skills de OpenClaw, ClawHub, aloja más de 13.700 skills de la comunidad. Se instala uno con un solo comando — openclaw skills install <slug> — y aterriza en ~/.openclaw/skills. Con --global rige al instante para todos los agentes locales. Es tan cómodo como una App Store — y por eso mismo una cadena de suministro: introduces instrucciones ajenas directamente en el centro de mando de tu agente.

Basta un comando — y las instrucciones ajenas viven de forma permanente, con los privilegios de tu agente, en ~/.openclaw/skills.

"Verificado" no significa "seguro"

ClawHub comprueba las instalaciones contra su procedencia y versión (.clawhub/origin.json), y un escáner salta ante código peligroso. Pero: la verificación demuestra de dónde viene un skill — no qué pretende. El escáner es heurístico y solo avisa de lo "sospechoso". La propia documentación de OpenClaw lo dice: "treat third-party skills as untrusted code." Un skill verificado de forma impecable puede aun así transportar una carga útil de prompt injection.

Bypass: las instalaciones por Git y locales se saltan por completo la comprobación del registro.
Alcance: --global afecta a todos los agentes; un skill de workspace anula los gestionados.
Sleeper: instalado hoy de forma inofensiva — malicioso mediante una actualización posterior. Los skills no se actualizan automáticamente, pero una actualización manual trae la nueva versión envenenada.

La representación

Del marketplace hasta el daño — y dónde PoisonZero corta la cadena:

1 · Marketplace

Skill del registro

ClawHub · 13.729 skills. "Verificado" comprueba la procedencia — no la intención.

2 · Install

Un comando, todos los privilegios

openclaw skills install <slug>
→ ~/.openclaw/skills

3 · Activo

Skill = instrucción almacenada

Escribe en el memory al iniciar la sesión o desactiva la protección.

PoisonZero

El daemon evalúa cada escritura en las rutas protegidas.

danger 0.96 → revert

✕ Evitado

Memory envenenado → daño

↳ "La fuente X es de confianza"
↳ El agente actúa con permisos del sistema operativo (Gmail · Stripe · Files)
↳ Exfiltración / sabotaje en el siguiente heartbeat

Sin protección la cadena avanza hasta el daño — en OpenClaw con todos los permisos del sistema operativo. Con PoisonZero termina en la escritura al memory: evaluada, revertida, registrada.

Por qué OpenClaw es especialmente delicado — a diferencia de Claude

OpenClaw no es una ventana de chat, sino un agente autónomo: corre en segundo plano, procesa sus tareas en el heartbeat y tiene acceso total al sistema operativo — sistema de archivos, Gmail, Stripe, mensajeros conectados. Un skill envenenado no provoca aquí solo una respuesta incorrecta; hace que el agente actúe — por su cuenta, con tus privilegios.

Con Claude, un agente se equivoca. Con OpenClaw actúa — de forma autónoma, con tus permisos del sistema operativo. Justo por eso un guardián local en el sistema de archivos no es opcional aquí.

Claude está más acotado (permisos, confirmaciones, sandbox más estrecha). La apertura de OpenClaw es su atractivo — y su riesgo: el radio de impacto de un único skill envenenado es órdenes de magnitud mayor.

Cómo lo cubre PoisonZero

PoisonZero actúa exactamente donde se origina el daño: en el acceso de escritura a los directorios de skills y memory. El daemon vigila localmente ~/.openclaw/skills, ~/.agents/skills, ~/.claude y compañía, y evalúa cada cambio.

Cada escritura se evalúa — grado de peligro + certeza, no solo el primer prompt.
Lo peligroso se revierte (fail-closed): en caso de duda bloquear, no dejar pasar.
Meta-Attack-aware: los skills que quieren desactivar la propia protección son siempre sospechosos.
OpenClaw out of the box: el daemon reconoce automáticamente las rutas de OpenClaw, y el panel ofrece una plantilla de un clic "Proteger OpenClaw".
Audit-Trail completo: cada decisión es trazable.

El resultado: incluso un skill "verificado" que intente escribir en secreto un recuerdo envenenado queda interceptado — antes de que tu agente actúe en consecuencia. Más sobre el principio detrás: Memory Poisoning y Prompt Injection.

Protege los skills de tus agentes.

PoisonZero vigila ~/.openclaw/skills & compañía y revierte fail-closed las entradas envenenadas.

Probar 14 días

Seguir leyendo: ClawHavoc: 1.184 skills envenenados · Claude, MCP y Tool-Poisoning · ¿Qué es el Memory Poisoning?

Todos los artículos