# Cuando algo se rompe

> Agentes y Automatizaciones · Integraciones
> Fuente: https://magoallegri.com/cursos/agentes/integraciones/cuando-algo-se-rompe

---

Cierre del módulo con la verdad que separa a los que operan sistemas de los que los abandonan: **todo se rompe, eventualmente** — la plataforma cambia algo, el form agrega un campo, la API renueva sus llaves. La diferencia entre el incidente de 20 minutos y el desastre silencioso de tres semanas no es la suerte: es el diseño de la rotura. Hoy se diseña.

## Las tres capas de la resiliencia

**Capa 1 — Saberlo (el monitoreo).** Ya la construiste: el pulso de los sistemas (M5) + las alertas de incendio (la vigía). El upgrade del módulo: **el heartbeat de los puentes** — cada integración crítica registra su última corrida exitosa, y la vigía pregunta a diario *"¿corriste cuando debías?"*. El puente caído que nadie nota es el peor escenario del parque entero — y con heartbeat, es imposible.

**Capa 2 — Aguantarlo (los reintentos y la degradación).** Las fallas transitorias (el servicio que no respondió 30 segundos) se resuelven solas con **reintentos** — la mayoría de las plataformas de flujos los traen: activalos con espera creciente (reintentar a los 5 min, a los 30, avisar si falla la tercera). Y para las fallas largas, **la degradación elegante** que ya diseñaste: el plan B manual de cada ficha — el sistema cae, la operación sigue a mano, nadie se entera del otro lado.

**Capa 3 — Repararlo (el protocolo sin pánico).** El incidente tiene método, y es el del camino con uniforme de producción:

1. **Contener** — el botón rojo si está haciendo daño; el plan B manual activado.
2. **Diagnosticar** — el error completo a Claude (el ritual de siempre) + la pregunta de oro de las integraciones: **"¿qué cambió?"** (el 90% de las roturas de puentes vienen de un cambio en una punta: el form editado, la columna renombrada, el permiso vencido).
3. **Reparar y probar** — el arreglo + las dos pruebas de la etapa 4 ANTES de redeclarar vivo.
4. **Documentar** — la ficha del puente suma su historial: qué se rompió, por qué, cómo se arregló. El parque con historial se repara cada vez más rápido — y ese historial es, además, la evidencia de servicio serio para el M7.

```
Blindemos el parque:

1. HEARTBEATS: agregá el registro de última-corrida-exitosa a mis
   puentes críticos y la pregunta diaria de la vigía.
2. REINTENTOS: revisá cada flujo en mi plataforma — ¿los reintentos
   están activos con espera creciente? Configurálos.
3. EL PROTOCOLO: el documento de incidentes (las 4 fases con MIS
   botones rojos y planes B concretos linkeados) — una página, al
   proyecto, impresa en tu cabeza.
4. EL SIMULACRO: rompé un puente a propósito (cambiá el nombre de
   una columna) y corré el protocolo completo, cronometrado. El
   simulacro de hoy es la calma del incidente real.
```

![Saberlo, aguantarlo, repararlo: el heartbeat que vigila, los reintentos que absorben y el protocolo sin pánico](../_assets/tres-capas-de-resiliencia.webp)

> [!info] **Checkpoint** — El parque tiene sus tres capas: heartbeats vigilando, reintentos absorbiendo, y el protocolo probado en simulacro (con tu tiempo de reparación medido). **El módulo 6 cierra con el stack integrado Y resiliente** — que es lo que "integrado" significa en producción.

## 💡 "¿Y si se rompe?" — la respuesta que vende

La pregunta del dueño escéptico en el M7 va a ser exactamente esa. Tu respuesta ya no es retórica: *"se va a romper alguna vez — y por eso el servicio incluye monitoreo que lo detecta en horas, planes B que mantienen tu operación, y este protocolo (mostralo). La diferencia no es que no se rompa: es que vos ni te enteres."* El mantenimiento como retainer (próximo módulo) se vende solo desde esta lección.

## 🟢 Hacelo ahora

1. Las tres capas, montadas.
2. El simulacro completo, cronometrado.
3. El historial inaugurado: la ficha del simulacro como primer incidente documentado.

---

**Módulo 6 completo: el stack habla y aguanta.** Queda el cierre del lab: **empaquetarlo como servicio** — la auditoría cobrada, el scoping, la entrega y el retainer de mantenimiento.