Voz y doblaje — Creativos y UGC con IA

Tus guiones tienen temperaturas marcadas, tu español está localizado, tu personaje tiene cara. Falta el alma del UGC: la voz — la capa donde la síntesis más se nota cuando está mal y más desaparece cuando está bien. Hoy: elegir, dirigir y sincronizar.

Elegir la voz (el casting de audio)

Tu herramienta de voz tiene catálogo (y/o generación de voces a medida). Los criterios del casting, en orden:

El acento real — para tu mercado, una voz rioplatense/local genuina, no “español neutro con tonada”. Si tu herramienta no tiene voces de tu región dignas, esa herramienta no es para tu mercado (criterio eliminatorio — el acento falso activa el filtro más rápido que cualquier imagen).
La edad y energía del personaje — la voz tiene que poder ser la cara: un personaje de 40 con voz de locutor de 25 rompe la ilusión.
El rango de temperatura — ¿puede sonar cansada, entusiasmada, irónica? Tus guiones marcan [tranquilo] [con bronca] [entusiasmado]: la voz que solo tiene un tono no puede decirlos.

Dirigir la voz (la parte que casi nadie hace)

La diferencia entre voz sintética que canta robot y la que pasa por persona es dirección:

El texto se prepara para el habla: tus guiones ya vienen así (frases cortas, muletillas, puntuación oral) — pero el TTS lee literal: los puntos suspendidos generan pausas, las comas respiran, las MAYÚSCULAS según la herramienta enfatizan. Aprendé los controles de la tuya (etiquetas de pausa/énfasis/emoción si los tiene).
Por temperatura, por bloque: generá el guion POR BEATS, no entero de un tirón — el beat del problema con su energía, el del resultado con la suya. Los bloques se ensamblan en edición y la temperatura variable (el marcador de autenticidad #5) aparece.
La prueba del doblaje: cerrá los ojos y escuchá. ¿Es una persona contando algo o un GPS leyendo? Iterá la dirección (no solo el texto) hasta persona.

El lipsync (la boca que dice lo que suena)

Con la voz generada, el personaje la “dice” — dos caminos según tu stack: el avatar parlante (le das la imagen del personaje + el audio → habla; el camino estándar) o el lipsync sobre video (tu clip del personaje + el audio → labios sincronizados; para cuando el clip ya existe del M5-L2). El checklist del resultado: ¿los labios van CON el audio (el desfase de 100ms se siente raro antes de saberse por qué)? ¿la cara mantiene tu personaje mientras habla? ¿los dientes/lengua no hacen cosas de pesadilla?

Producción de voz de mis 3 guiones:

1. EL CASTING: con [MI HERRAMIENTA DE VOZ], el plan para encontrar
   la voz del personaje (qué buscar en el catálogo / cómo generarla)
   según ficha del personaje y mis criterios. Pruebo 3-4 candidatas
   con la MISMA frase de prueba (una con muletilla y temperatura).
2. LA DIRECCIÓN: preparame cada guion para TTS — por beats, con los
   controles de pausa/énfasis de la herramienta aplicados, y las
   temperaturas anotadas por bloque.
3. EL LIPSYNC: el plan por shot — qué planos del personaje hablan,
   con qué camino (avatar parlante / lipsync sobre clip).

Genero, traigo, iteramos con la prueba del doblaje.

Habla, suena de acá, tiene temperaturas. La próxima lección protege todo eso a escala: consistencia de campaña — mismo personaje, misma voz, diez piezas, una identidad.