Ce que Fait Voice Passthrough
La Correspondance Vocale Automatique sélectionne la voix TTS préexistante la plus proche dans la langue cible pour correspondre aux caractéristiques du locuteur. Voice Passthrough fait quelque chose de différent : il utilise la voix réelle du locuteur comme source pour la synthèse TTS, créant de l’audio traduit qui ressemble à la même personne parlant la langue cible.
La différence pratique est significative dans les contextes où la reconnaissance vocale est importante. Un patient qui a parlé avec un médecin pendant 20 minutes reconnaît la voix du médecin. Si la sortie traduite des mots du médecin arrive dans une voix TTS clairement générique, le lien entre la personne que le patient connaît et les mots qu’il entend est rompu. Voice Passthrough comble cet écart.
L’Exigence de Consentement
Le clonage vocal est une capacité avec des implications réelles — une voix clonée peut produire de l’audio qui ressemble à quelqu’un disant quelque chose qu’il n’a jamais dit. Puente prend cela au sérieux.
Voice Passthrough nécessite un consentement explicite en deux étapes avant l’activation :
- Case de consentement — lire et cocher une case expliquant ce que fait le clonage vocal, quelles données sont utilisées et que le modèle vocal cloné est stocké uniquement sur l’appareil
- Appui sur « J’accepte » — un bouton de confirmation séparé qui doit être pressé après la case à cocher
Le système rejette catégoriquement toute demande de clonage qui n’inclut pas consent: true dans les paramètres de la demande. Il n’y a aucun moyen d’activer Voice Passthrough pour soi-même ou pour quelqu’un d’autre sans compléter les deux étapes de consentement. Cela est appliqué au niveau du Worker — ce n’est pas une barrière d’interface qui peut être contournée.
Comment ça Fonctionne Techniquement
Lorsque Voice Passthrough a été autorisé et est actif :
- Un échantillon vocal léger est capturé des 10–15 premières secondes de parole naturelle du locuteur dans la session
- L’échantillon est utilisé pour générer un modèle de synthèse vocale qui capture les caractéristiques vocales clés du locuteur : plage de fréquence fondamentale, distribution des formants et enveloppe d’énergie vocale
- Toute la sortie de traduction ultérieure pour ce locuteur est synthétisée en utilisant ce modèle plutôt qu’une voix TTS préexistante
- Le modèle est stocké localement sur l’appareil uniquement — jamais transmis
Si l’échantillon vocal est insuffisant (trop court, trop bruyant) ou si la synthèse expire, le système revient automatiquement à la Correspondance Vocale Automatique pour ce tour de traduction. Le retour est transparent — aucune notification n’apparaît et la sortie de traduction n’est jamais bloquée.
Voice Passthrough vs. Correspondance Vocale Automatique
| Correspondance Vocale Automatique | Voice Passthrough | |
|---|---|---|
| Source | Bibliothèque de voix TTS préexistante | Propre voix du locuteur |
| Consentement requis | Non | Oui (deux étapes) |
| Temps de configuration | Aucun (3–5 premières secondes de parole) | ~10–15 secondes pour l’échantillon initial |
| Précision | Correspondance disponible la plus proche | Correspondance quasi exacte avec le locuteur |
| Retour | Sélection de voix de moindre confiance | Correspondance Vocale Automatique |
| Idéal pour | Toutes les sessions par défaut | Sessions longues, relations connues |
Confidentialité
Le modèle vocal généré par Voice Passthrough est stocké exclusivement sur l’appareil de l’utilisateur. Il n’est pas transmis à aucun serveur, pas utilisé à d’autres fins que la sortie de traduction de Puente, et pas conservé après que l’utilisateur l’ait supprimé. Les modèles vocaux peuvent être supprimés dans Paramètres → Confidentialité → Effacer les Modèles Vocaux.