# El stack de video actual

> Creativos y UGC con IA · Video y avatares IA
> Fuente: https://magoallegri.com/cursos/creativos-con-ia/video-y-avatares-ia/el-stack-de-video-actual

---

El módulo final de producción — y el territorio que más rápido evoluciona de toda la IA: **el video**. Lo que era imposible hace un año es botón hoy. Mismo trato que en imagen: criterios que no vencen, categorías estables, y tu foto actual con rutina de refresco. La diferencia: acá las categorías son cuatro, porque el video habla.

## Las cuatro categorías del stack de video

**1. Imagen-a-video** — tus assets del M4 cobran movimiento: la escena generada se anima (la cámara se acerca, el personaje gira, el ambiente vive). La categoría madre del video IA publicitario: producís la imagen perfecta (que ya sabés) y le pedís el movimiento. *La liga de los grandes modelos de video (Veo, Kling, Runway y la cohorte que rote este año).*

**2. Avatares parlantes** — el personaje que DICE tu guion: desde tu kit de identidad o desde video de referencia, con labios sincronizados. La categoría que hace posible el "UGC sin filmar a nadie". Dos familias: las plataformas de avatares (rápidas, estables, más "presentador") y la generación de video con audio nativo (más natural, más cara, más control).

**3. Voz y lipsync** — la voz sintética en español que suena a persona (con las temperaturas de tus guiones) + la sincronización de labios sobre video existente. A veces integrada en la categoría 2; a veces mejor por separado (*la liga de ElevenLabs y los TTS de los grandes labs*).

**4. Edición y ensamble** — donde los clips se vuelven UN ad: cortes, subtítulos, música, formato. La buena noticia: acá el estándar sigue siendo accesible (*CapCut y la liga de editores gratuitos/baratos*) y tus specs del módulo 3 ya hablan su idioma.

![El stack de video: imagen-a-video, avatares parlantes, voz y lipsync, edición y ensamble](../_assets/cuatro-categorias-video.webp)

## Los criterios de elección (no vencen)

Para producción publicitaria: **naturalidad del habla en ESPAÑOL** (el lipsync y la prosodia en nuestro idioma — testealo siempre en español, los demos en inglés mienten), **consistencia con tu personaje** (¿acepta tu kit de identidad como referencia?), **duración y formato** (¿llega a los 30-40s de tus guiones en 9:16, o produce de a clips de 5-8s a ensamblar?), y **el costo por intento** (el video quema créditos rápido: el precio de iterar importa más que el precio de lista).

## Tu stack mínimo de video

```
Rutina "stack-de-video" (AHORA y cada 3 meses — este paisaje rota
más rápido que el de imagen):

1. Buscá el estado del arte: ¿qué herramientas dominan HOY cada
   categoría (imagen-a-video / avatares parlantes / voz-lipsync /
   edición)? Con foco en: español natural, costo por clip,
   facilidad para UGC vertical.
2. Evaluá contra mis criterios y mi presupuesto: [RANGO].
3. Recomendá MI stack mínimo: una por categoría (la de edición
   puede ser gratuita). Por cada una: su límite gratis/pago y su
   costo por clip aproximado.
4. A stack.md, CON FECHA, junto al de imagen.
```

> [!info] **Checkpoint** — Tu stack de video está elegido con fecha: las cuatro categorías cubiertas, costos por clip anotados, y cuentas creadas. El módulo puede producir — y vos sabés re-decidir cuando todo rote (que va a pasar).

## 🟢 Hacelo ahora

1. La rutina del stack, hoy.
2. El "hola mundo" de cada herramienta: UN clip de prueba de cada categoría (animá un asset, hacé decir una frase al personaje, generá una línea de voz).
3. El test del español: la frase de prueba de voz con una de tus muletillas ("che, mirá esto, posta que funciona") — si la prosodia argentina sobrevive, la herramienta sirve.

---

Stack listo y probado. La próxima lección anima tu mundo: **de imagen a video** — tus escenas del M4, en movimiento que no canta IA.