Voice Passthrough: Clonagem de Voz IA para Saída de Áudio Traduzido

O Que o Voice Passthrough Faz

A Correspondência Automática de Voz seleciona a voz TTS pré-existente mais próxima no idioma de destino para corresponder às características do falante. O Voice Passthrough faz algo diferente: usa a voz real do falante como fonte para síntese TTS, criando áudio traduzido que soa como a mesma pessoa falando o idioma de destino.

A diferença prática é significativa em contextos onde o reconhecimento de voz importa. Um paciente que esteve falando com um médico por 20 minutos reconhece a voz do médico. Se a saída traduzida das palavras do médico chegar em uma voz TTS claramente genérica, a conexão entre a pessoa que o paciente conhece e as palavras que está ouvindo é rompida. O Voice Passthrough fecha essa lacuna.

O Requisito de Consentimento

A clonagem de voz é uma capacidade com implicações no mundo real — uma voz clonada pode produzir áudio que soa como alguém dizendo algo que nunca disse. O Puente trata isso com seriedade.

O Voice Passthrough requer consentimento explícito em duas etapas antes da ativação:

Caixa de consentimento — ler e marcar uma caixa que explica o que a clonagem de voz faz, quais dados são usados e que o modelo de voz clonado é armazenado somente no dispositivo
Toque em “Eu Concordo” — um botão de confirmação separado que deve ser pressionado após a caixa de seleção

O sistema rejeita categoricamente qualquer solicitação de clonagem que não inclua consent: true nos parâmetros da solicitação. Não há como ativar o Voice Passthrough para si mesmo ou para qualquer outra pessoa sem concluir ambas as etapas de consentimento. Isso é aplicado no nível do Worker — não é uma barreira de UI que pode ser contornada.

Como Funciona Tecnicamente

Quando o Voice Passthrough foi autorizado e está ativo:

Uma amostra de voz leve é capturada dos primeiros 10–15 segundos de fala natural do falante na sessão
A amostra é usada para gerar um modelo de síntese de voz que captura as principais características vocais do falante: faixa de frequência fundamental, distribuição de formantes e envelope de energia vocal
Toda a saída de tradução subsequente para aquele falante é sintetizada usando este modelo em vez de uma voz TTS pré-existente
O modelo é armazenado localmente no dispositivo apenas — nunca transmitido

Se a amostra de voz for insuficiente (muito curta, muito ruidosa) ou se a síntese expirar, o sistema retorna automaticamente para Correspondência Automática de Voz para aquele turno de tradução. O retorno é perfeito — nenhuma notificação aparece e a saída de tradução nunca é bloqueada.

Voice Passthrough vs. Correspondência Automática de Voz

	Correspondência Automática de Voz	Voice Passthrough
Fonte	Biblioteca de vozes TTS pré-existente	Própria voz do falante
Consentimento necessário	Não	Sim (duas etapas)
Tempo de configuração	Nenhum (primeiros 3–5 segundos de fala)	~10–15 segundos para amostra inicial
Precisão	Correspondência disponível mais próxima	Correspondência quase exata com o falante
Retorno	Seleção de voz de menor confiança	Correspondência Automática de Voz
Melhor para	Todas as sessões por padrão	Sessões longas, relacionamentos conhecidos

Privacidade

O modelo de voz gerado pelo Voice Passthrough é armazenado exclusivamente no dispositivo do usuário. Não é transmitido a nenhum servidor, não é usado para nenhum propósito fora da saída de tradução do Puente e não é retido depois que o usuário o exclui. Os modelos de voz podem ser excluídos em Configurações → Privacidade → Limpar Modelos de Voz.

Baixe o Puente — Voice Passthrough disponível com Pro