# Voz y doblaje

> Creativos y UGC con IA · Video y avatares IA
> Fuente: https://magoallegri.com/cursos/creativos-con-ia/video-y-avatares-ia/voz-y-doblaje

---

Tus guiones tienen temperaturas marcadas, tu español está localizado, tu personaje tiene cara. Falta el alma del UGC: **la voz** — la capa donde la síntesis más se nota cuando está mal y más desaparece cuando está bien. Hoy: elegir, dirigir y sincronizar.

## Elegir la voz (el casting de audio)

Tu herramienta de voz tiene catálogo (y/o generación de voces a medida). Los criterios del casting, en orden:

1. **El acento real** — para tu mercado, una voz rioplatense/local genuina, no "español neutro con tonada". Si tu herramienta no tiene voces de tu región dignas, esa herramienta no es para tu mercado (criterio eliminatorio — el acento falso activa el filtro más rápido que cualquier imagen).
2. **La edad y energía del personaje** — la voz tiene que poder ser la cara: un personaje de 40 con voz de locutor de 25 rompe la ilusión.
3. **El rango de temperatura** — ¿puede sonar cansada, entusiasmada, irónica? Tus guiones marcan [tranquilo] [con bronca] [entusiasmado]: la voz que solo tiene un tono no puede decirlos.

## Dirigir la voz (la parte que casi nadie hace)

La diferencia entre voz sintética que canta robot y la que pasa por persona es **dirección**:

- **El texto se prepara para el habla**: tus guiones ya vienen así (frases cortas, muletillas, puntuación oral) — pero el TTS lee literal: los puntos suspendidos generan pausas, las comas respiran, las MAYÚSCULAS según la herramienta enfatizan. Aprendé los controles de la tuya (etiquetas de pausa/énfasis/emoción si los tiene).
- **Por temperatura, por bloque**: generá el guion POR BEATS, no entero de un tirón — el beat del problema con su energía, el del resultado con la suya. Los bloques se ensamblan en edición y la temperatura variable (el marcador de autenticidad #5) aparece.
- **La prueba del doblaje**: cerrá los ojos y escuchá. ¿Es una persona contando algo o un GPS leyendo? Iterá la dirección (no solo el texto) hasta persona.

## El lipsync (la boca que dice lo que suena)

Con la voz generada, el personaje la "dice" — dos caminos según tu stack: **el avatar parlante** (le das la imagen del personaje + el audio → habla; el camino estándar) o **el lipsync sobre video** (tu clip del personaje + el audio → labios sincronizados; para cuando el clip ya existe del M5-L2). El checklist del resultado: ¿los labios van CON el audio (el desfase de 100ms se siente raro antes de saberse por qué)? ¿la cara mantiene tu personaje mientras habla? ¿los dientes/lengua no hacen cosas de pesadilla?

```
Producción de voz de mis 3 guiones:

1. EL CASTING: con [MI HERRAMIENTA DE VOZ], el plan para encontrar
   la voz del personaje (qué buscar en el catálogo / cómo generarla)
   según ficha del personaje y mis criterios. Pruebo 3-4 candidatas
   con la MISMA frase de prueba (una con muletilla y temperatura).
2. LA DIRECCIÓN: preparame cada guion para TTS — por beats, con los
   controles de pausa/énfasis de la herramienta aplicados, y las
   temperaturas anotadas por bloque.
3. EL LIPSYNC: el plan por shot — qué planos del personaje hablan,
   con qué camino (avatar parlante / lipsync sobre clip).

Genero, traigo, iteramos con la prueba del doblaje.
```

> [!info] **Checkpoint** — La voz del personaje está casteada (acento real, edad coherente, rango), los 3 guiones están grabados por beats con temperaturas, y los planos hablados tienen su lipsync aprobado. Tu personaje habla — y suena de acá.

## 🟢 Hacelo ahora

1. Casting → dirección → generación por beats.
2. La prueba del doblaje (ojos cerrados) en cada bloque.
3. Guardá la configuración ganadora (voz elegida + controles que funcionaron) en stack.md: la voz del personaje es un asset de campaña, como su cara.

---

Habla, suena de acá, tiene temperaturas. La próxima lección protege todo eso a escala: **consistencia de campaña** — mismo personaje, misma voz, diez piezas, una identidad.