El stack de video actual — Creativos y UGC con IA

El módulo final de producción — y el territorio que más rápido evoluciona de toda la IA: el video. Lo que era imposible hace un año es botón hoy. Mismo trato que en imagen: criterios que no vencen, categorías estables, y tu foto actual con rutina de refresco. La diferencia: acá las categorías son cuatro, porque el video habla.

Las cuatro categorías del stack de video

1. Imagen-a-video — tus assets del M4 cobran movimiento: la escena generada se anima (la cámara se acerca, el personaje gira, el ambiente vive). La categoría madre del video IA publicitario: producís la imagen perfecta (que ya sabés) y le pedís el movimiento. La liga de los grandes modelos de video (Veo, Kling, Runway y la cohorte que rote este año).

2. Avatares parlantes — el personaje que DICE tu guion: desde tu kit de identidad o desde video de referencia, con labios sincronizados. La categoría que hace posible el “UGC sin filmar a nadie”. Dos familias: las plataformas de avatares (rápidas, estables, más “presentador”) y la generación de video con audio nativo (más natural, más cara, más control).

3. Voz y lipsync — la voz sintética en español que suena a persona (con las temperaturas de tus guiones) + la sincronización de labios sobre video existente. A veces integrada en la categoría 2; a veces mejor por separado (la liga de ElevenLabs y los TTS de los grandes labs).

4. Edición y ensamble — donde los clips se vuelven UN ad: cortes, subtítulos, música, formato. La buena noticia: acá el estándar sigue siendo accesible (CapCut y la liga de editores gratuitos/baratos) y tus specs del módulo 3 ya hablan su idioma.

El stack de video: imagen-a-video, avatares parlantes, voz y lipsync, edición y ensamble

Los criterios de elección (no vencen)

Para producción publicitaria: naturalidad del habla en ESPAÑOL (el lipsync y la prosodia en nuestro idioma — testealo siempre en español, los demos en inglés mienten), consistencia con tu personaje (¿acepta tu kit de identidad como referencia?), duración y formato (¿llega a los 30-40s de tus guiones en 9:16, o produce de a clips de 5-8s a ensamblar?), y el costo por intento (el video quema créditos rápido: el precio de iterar importa más que el precio de lista).

Tu stack mínimo de video

Rutina "stack-de-video" (AHORA y cada 3 meses — este paisaje rota
más rápido que el de imagen):

1. Buscá el estado del arte: ¿qué herramientas dominan HOY cada
   categoría (imagen-a-video / avatares parlantes / voz-lipsync /
   edición)? Con foco en: español natural, costo por clip,
   facilidad para UGC vertical.
2. Evaluá contra mis criterios y mi presupuesto: [RANGO].
3. Recomendá MI stack mínimo: una por categoría (la de edición
   puede ser gratuita). Por cada una: su límite gratis/pago y su
   costo por clip aproximado.
4. A stack.md, CON FECHA, junto al de imagen.

Stack listo y probado. La próxima lección anima tu mundo: de imagen a video — tus escenas del M4, en movimiento que no canta IA.