Knowledge Base

Voice Passthrough: Clonagem de Voz IA para Saída de Áudio Traduzido

O Que o Voice Passthrough Faz

A Correspondência Automática de Voz seleciona a voz TTS pré-existente mais próxima no idioma de destino para corresponder às características do falante. O Voice Passthrough faz algo diferente: usa a voz real do falante como fonte para síntese TTS, criando áudio traduzido que soa como a mesma pessoa falando o idioma de destino.

A diferença prática é significativa em contextos onde o reconhecimento de voz importa. Um paciente que esteve falando com um médico por 20 minutos reconhece a voz do médico. Se a saída traduzida das palavras do médico chegar em uma voz TTS claramente genérica, a conexão entre a pessoa que o paciente conhece e as palavras que está ouvindo é rompida. O Voice Passthrough fecha essa lacuna.

O Requisito de Consentimento

A clonagem de voz é uma capacidade com implicações no mundo real — uma voz clonada pode produzir áudio que soa como alguém dizendo algo que nunca disse. O Puente trata isso com seriedade.

O Voice Passthrough requer consentimento explícito em duas etapas antes da ativação:

  1. Caixa de consentimento — ler e marcar uma caixa que explica o que a clonagem de voz faz, quais dados são usados e que o modelo de voz clonado é armazenado somente no dispositivo
  2. Toque em “Eu Concordo” — um botão de confirmação separado que deve ser pressionado após a caixa de seleção

O sistema rejeita categoricamente qualquer solicitação de clonagem que não inclua consent: true nos parâmetros da solicitação. Não há como ativar o Voice Passthrough para si mesmo ou para qualquer outra pessoa sem concluir ambas as etapas de consentimento. Isso é aplicado no nível do Worker — não é uma barreira de UI que pode ser contornada.

Como Funciona Tecnicamente

Quando o Voice Passthrough foi autorizado e está ativo:

  1. Uma amostra de voz leve é capturada dos primeiros 10–15 segundos de fala natural do falante na sessão
  2. A amostra é usada para gerar um modelo de síntese de voz que captura as principais características vocais do falante: faixa de frequência fundamental, distribuição de formantes e envelope de energia vocal
  3. Toda a saída de tradução subsequente para aquele falante é sintetizada usando este modelo em vez de uma voz TTS pré-existente
  4. O modelo é armazenado localmente no dispositivo apenas — nunca transmitido

Se a amostra de voz for insuficiente (muito curta, muito ruidosa) ou se a síntese expirar, o sistema retorna automaticamente para Correspondência Automática de Voz para aquele turno de tradução. O retorno é perfeito — nenhuma notificação aparece e a saída de tradução nunca é bloqueada.

Voice Passthrough vs. Correspondência Automática de Voz

Correspondência Automática de VozVoice Passthrough
FonteBiblioteca de vozes TTS pré-existentePrópria voz do falante
Consentimento necessárioNãoSim (duas etapas)
Tempo de configuraçãoNenhum (primeiros 3–5 segundos de fala)~10–15 segundos para amostra inicial
PrecisãoCorrespondência disponível mais próximaCorrespondência quase exata com o falante
RetornoSeleção de voz de menor confiançaCorrespondência Automática de Voz
Melhor paraTodas as sessões por padrãoSessões longas, relacionamentos conhecidos

Privacidade

O modelo de voz gerado pelo Voice Passthrough é armazenado exclusivamente no dispositivo do usuário. Não é transmitido a nenhum servidor, não é usado para nenhum propósito fora da saída de tradução do Puente e não é retido depois que o usuário o exclui. Os modelos de voz podem ser excluídos em Configurações → Privacidade → Limpar Modelos de Voz.

Baixe o Puente — Voice Passthrough disponível com Pro