Qué Hace Voice Passthrough
La Coincidencia Automática de Voz selecciona la voz TTS preexistente más cercana en el idioma destino para que coincida con las características del hablante. Voice Passthrough hace algo diferente: usa la voz real del hablante como fuente para la síntesis TTS, creando audio traducido que suena como la misma persona hablando el idioma destino.
La diferencia práctica es significativa en contextos donde el reconocimiento de voz importa. Un paciente que ha estado hablando con un médico durante 20 minutos reconoce la voz del médico. Si la salida traducida de las palabras del médico llega en una voz TTS claramente genérica, la conexión entre la persona que el paciente conoce y las palabras que está escuchando se rompe. Voice Passthrough cierra esa brecha.
El Requisito de Consentimiento
La clonación de voz es una capacidad con implicaciones en el mundo real — una voz clonada puede producir audio que suena como alguien diciendo algo que nunca dijo. Puente toma esto en serio.
Voice Passthrough requiere consentimiento explícito en dos pasos antes de la activación:
- Casilla de consentimiento — leer y marcar una casilla que explica qué hace la clonación de voz, qué datos se usan y que el modelo de voz clonado se almacena solo en el dispositivo
- Toque en “Estoy de acuerdo” — un botón de confirmación separado que debe presionarse después de la casilla
El sistema rechaza categóricamente cualquier solicitud de clonación que no incluya consent: true en los parámetros de la solicitud. No hay forma de activar Voice Passthrough para ti mismo ni para nadie más sin completar ambos pasos de consentimiento. Esto se aplica a nivel del Worker — no es una barrera de UI que pueda eludirse.
Cómo Funciona Técnicamente
Cuando Voice Passthrough ha sido autorizado y está activo:
- Se captura una muestra de voz ligera de los primeros 10–15 segundos de habla natural del hablante en la sesión
- La muestra se usa para generar un modelo de síntesis de voz que captura las características vocales clave del hablante: rango de frecuencia fundamental, distribución de formantes y envolvente de energía vocal
- Toda la salida de traducción posterior para ese hablante se sintetiza usando este modelo en lugar de una voz TTS preexistente
- El modelo se almacena solo localmente en el dispositivo — nunca se transmite
Si la muestra de voz es insuficiente (demasiado corta, demasiado ruidosa) o si la síntesis agota el tiempo de espera, el sistema retrocede automáticamente a la Coincidencia Automática de Voz para ese turno de traducción. El retroceso es fluido — no aparece ninguna notificación y la salida de traducción nunca se bloquea.
Voice Passthrough vs. Coincidencia Automática de Voz
| Coincidencia Automática de Voz | Voice Passthrough | |
|---|---|---|
| Fuente | Biblioteca de voces TTS preexistente | Voz propia del hablante |
| Consentimiento requerido | No | Sí (dos pasos) |
| Tiempo de configuración | Ninguno (primeros 3–5 segundos de habla) | ~10–15 segundos para muestra inicial |
| Precisión | Coincidencia disponible más cercana | Coincidencia casi exacta con el hablante |
| Retroceso | Selección de voz de menor confianza | Coincidencia Automática de Voz |
| Ideal para | Todas las sesiones por defecto | Sesiones largas, relaciones conocidas |
Privacidad
El modelo de voz generado por Voice Passthrough se almacena exclusivamente en el dispositivo del usuario. No se transmite a ningún servidor, no se usa para ningún propósito fuera de la salida de traducción de Puente y no se retiene después de que el usuario lo elimine. Los modelos de voz pueden eliminarse en Configuración → Privacidad → Borrar Modelos de Voz.