Voice Passthrough : Clonage Vocal IA pour la Sortie Audio Traduite

Ce que Fait Voice Passthrough

La Correspondance Vocale Automatique sélectionne la voix TTS préexistante la plus proche dans la langue cible pour correspondre aux caractéristiques du locuteur. Voice Passthrough fait quelque chose de différent : il utilise la voix réelle du locuteur comme source pour la synthèse TTS, créant de l’audio traduit qui ressemble à la même personne parlant la langue cible.

La différence pratique est significative dans les contextes où la reconnaissance vocale est importante. Un patient qui a parlé avec un médecin pendant 20 minutes reconnaît la voix du médecin. Si la sortie traduite des mots du médecin arrive dans une voix TTS clairement générique, le lien entre la personne que le patient connaît et les mots qu’il entend est rompu. Voice Passthrough comble cet écart.

L’Exigence de Consentement

Le clonage vocal est une capacité avec des implications réelles — une voix clonée peut produire de l’audio qui ressemble à quelqu’un disant quelque chose qu’il n’a jamais dit. Puente prend cela au sérieux.

Voice Passthrough nécessite un consentement explicite en deux étapes avant l’activation :

Case de consentement — lire et cocher une case expliquant ce que fait le clonage vocal, quelles données sont utilisées et que le modèle vocal cloné est stocké uniquement sur l’appareil
Appui sur « J’accepte » — un bouton de confirmation séparé qui doit être pressé après la case à cocher

Le système rejette catégoriquement toute demande de clonage qui n’inclut pas consent: true dans les paramètres de la demande. Il n’y a aucun moyen d’activer Voice Passthrough pour soi-même ou pour quelqu’un d’autre sans compléter les deux étapes de consentement. Cela est appliqué au niveau du Worker — ce n’est pas une barrière d’interface qui peut être contournée.

Comment ça Fonctionne Techniquement

Lorsque Voice Passthrough a été autorisé et est actif :

Un échantillon vocal léger est capturé des 10–15 premières secondes de parole naturelle du locuteur dans la session
L’échantillon est utilisé pour générer un modèle de synthèse vocale qui capture les caractéristiques vocales clés du locuteur : plage de fréquence fondamentale, distribution des formants et enveloppe d’énergie vocale
Toute la sortie de traduction ultérieure pour ce locuteur est synthétisée en utilisant ce modèle plutôt qu’une voix TTS préexistante
Le modèle est stocké localement sur l’appareil uniquement — jamais transmis

Si l’échantillon vocal est insuffisant (trop court, trop bruyant) ou si la synthèse expire, le système revient automatiquement à la Correspondance Vocale Automatique pour ce tour de traduction. Le retour est transparent — aucune notification n’apparaît et la sortie de traduction n’est jamais bloquée.

Voice Passthrough vs. Correspondance Vocale Automatique

	Correspondance Vocale Automatique	Voice Passthrough
Source	Bibliothèque de voix TTS préexistante	Propre voix du locuteur
Consentement requis	Non	Oui (deux étapes)
Temps de configuration	Aucun (3–5 premières secondes de parole)	~10–15 secondes pour l’échantillon initial
Précision	Correspondance disponible la plus proche	Correspondance quasi exacte avec le locuteur
Retour	Sélection de voix de moindre confiance	Correspondance Vocale Automatique
Idéal pour	Toutes les sessions par défaut	Sessions longues, relations connues

Confidentialité

Le modèle vocal généré par Voice Passthrough est stocké exclusivement sur l’appareil de l’utilisateur. Il n’est pas transmis à aucun serveur, pas utilisé à d’autres fins que la sortie de traduction de Puente, et pas conservé après que l’utilisateur l’ait supprimé. Les modèles vocaux peuvent être supprimés dans Paramètres → Confidentialité → Effacer les Modèles Vocaux.

Téléchargez Puente — Voice Passthrough disponible avec Pro