Cuando algo se rompe
Cierre del módulo con la verdad que separa a los que operan sistemas de los que los abandonan: todo se rompe, eventualmente — la plataforma cambia algo, el form agrega un campo, la API renueva sus llaves. La diferencia entre el incidente de 20 minutos y el desastre silencioso de tres semanas no es la suerte: es el diseño de la rotura. Hoy se diseña.
Las tres capas de la resiliencia
Capa 1 — Saberlo (el monitoreo). Ya la construiste: el pulso de los sistemas (M5) + las alertas de incendio (la vigía). El upgrade del módulo: el heartbeat de los puentes — cada integración crítica registra su última corrida exitosa, y la vigía pregunta a diario “¿corriste cuando debías?”. El puente caído que nadie nota es el peor escenario del parque entero — y con heartbeat, es imposible.
Capa 2 — Aguantarlo (los reintentos y la degradación). Las fallas transitorias (el servicio que no respondió 30 segundos) se resuelven solas con reintentos — la mayoría de las plataformas de flujos los traen: activalos con espera creciente (reintentar a los 5 min, a los 30, avisar si falla la tercera). Y para las fallas largas, la degradación elegante que ya diseñaste: el plan B manual de cada ficha — el sistema cae, la operación sigue a mano, nadie se entera del otro lado.
Capa 3 — Repararlo (el protocolo sin pánico). El incidente tiene método, y es el del camino con uniforme de producción:
- Contener — el botón rojo si está haciendo daño; el plan B manual activado.
- Diagnosticar — el error completo a Claude (el ritual de siempre) + la pregunta de oro de las integraciones: “¿qué cambió?” (el 90% de las roturas de puentes vienen de un cambio en una punta: el form editado, la columna renombrada, el permiso vencido).
- Reparar y probar — el arreglo + las dos pruebas de la etapa 4 ANTES de redeclarar vivo.
- Documentar — la ficha del puente suma su historial: qué se rompió, por qué, cómo se arregló. El parque con historial se repara cada vez más rápido — y ese historial es, además, la evidencia de servicio serio para el M7.
Blindemos el parque:
1. HEARTBEATS: agregá el registro de última-corrida-exitosa a mis
puentes críticos y la pregunta diaria de la vigía.
2. REINTENTOS: revisá cada flujo en mi plataforma — ¿los reintentos
están activos con espera creciente? Configurálos.
3. EL PROTOCOLO: el documento de incidentes (las 4 fases con MIS
botones rojos y planes B concretos linkeados) — una página, al
proyecto, impresa en tu cabeza.
4. EL SIMULACRO: rompé un puente a propósito (cambiá el nombre de
una columna) y corré el protocolo completo, cronometrado. El
simulacro de hoy es la calma del incidente real.
Módulo 6 completo: el stack habla y aguanta. Queda el cierre del lab: empaquetarlo como servicio — la auditoría cobrada, el scoping, la entrega y el retainer de mantenimiento.