Knowledge Base

Sprachidentität (Akustischer Kompass): Sprecherzuordnung in Echtzeit

Warum Sprecherzuordnung Wichtig Ist

Zu wissen, was gesagt wurde, reicht nicht immer aus. In einem Gespräch mit mehr als einem Sprecher ändert das Wissen, wer es gesagt hat, die Bedeutung, die Dringlichkeit und die angemessene Reaktion.

Eine Krankenschwester und ein Arzt sprechen einen Patienten an. Der Patient spricht den Arzt an. Die übersetzte Ausgabe jedes Sprechers muss der richtigen Person zugeordnet werden — sonst wird das übersetzte Gespräch zu einer verwirrenden Wand von Aussagen ohne relationalen Kontext.

Sprachidentität ist Puentes Antwort darauf. Sie geht über die Wechsel-Kennzeichnungen des Gruppen-Modus und die grundlegende Sprechertrennung des Auto-Erkennungs-Modus hinaus. Sie erstellt einen echten akustischen Fingerabdruck jedes Sprechers, ordnet jeden Übersetzungswechsel einer bestimmten Person zu und präsentiert diese Zuordnungen visuell in der Sprecher-Tabellenansicht.

Die Drei Signale

1. Stimmeinbettung (ECAPA-TDNN)

Puente erstellt einen akustischen Fingerabdruck jedes Sprechers mit einem ECAPA-TDNN-Modell — einer Neuronalnetz-Architektur für die Sprecherverifizierung. Dieser Fingerabdruck erfasst die einzigartige Kombination aus Grundfrequenz, Vokaltrakt-Resonanzen und artikulatorischen Merkmalen, die eine Stimme erkennbar macht.

Der Fingerabdruck wird beim ersten Auftreten in einem Sitzungsregister eingetragen. Bei nachfolgenden Wechseln wird eingehende Audio mit dem Register verglichen. Eine Übereinstimmung über dem Konfidenzschwellenwert ordnet den Wechsel diesem Sprecher zu. Dies ist das primäre Identifizierungssignal und das zuverlässigste für Sprecher, die bereits in der aktuellen Sitzung gehört wurden.

2. Einfallsrichtung

Wenn das native Mikrofonarray-Modul ausgeliefert wird, wird Puente den räumlichen Winkel eingehender Audio verwenden, um Sprecher zu unterscheiden, die physisch in verschiedenen Teilen des Raums befinden. Eine Stimme von 30 Grad links ist ein anderer Sprecher als eine Stimme von 90 Grad rechts.

Einfallsrichtung ist eine Fusionseingabe, kein eigenständiger Identifier — sie hilft, mehrdeutige Fälle zu lösen, in denen zwei Sprecher akustisch ähnliche Stimmen haben. Die Architektur ist bereits vorhanden; das native Modul, das die vollständige Richtungsauflösung freischaltet, befindet sich in der Entwicklung.

3. PTT-Seite

Wenn ein Ohrhörerpaar mit Links-/Rechts-Tastensteuerung verwendet wird, kann Puente den gedrückten Ohrhörerknopf als zuverlässiges Sprecherzuordnungs-Signal nutzen. In einem Zwei-Parteien-Ohrhörergespräch hält Partei A den linken Ohrhörer und Partei B den rechten. Das Drücken des Knopfes des linken Ohrhörers zum Starten des Sprechens ist ein eindeutiges Zuordnungssignal, das keine akustische Analyse erfordert.

PTT-Seite ist die zuverlässigste Methode in Zwei-Parteien-Ohrhörerkontexten, weil sie deterministisch ist — es gibt keinen Wahrscheinlichkeitsschwellenwert, keinen Konfidenz-Score. Es ist das gewinnende Signal in der Fusions-Engine, wenn verfügbar.

Sprecher-Tabellenansicht

Die Sprecher-Tabellenansicht ist ein neues Anzeige-Layout, das verfügbar ist, wenn Sprachidentität aktiv ist. Jeder identifizierte Sprecher erhält eine dedizierte farbcodierte Spur in der Übersetzungsausgabe:

  • Farbcodierung — bis zu 8 verschiedene Farben, eine pro identifiziertem Sprecher
  • Richtungspfeile — wenn Einfallsrichtungs-Daten verfügbar sind, zeigt ein Pfeilsymbol die ungefähre Position des Sprechers im Raum
  • Detail-Sheet mit Langdruck — tippen und halten Sie eine beliebige Sprecher-Spur, um die Identifizierungsaufschlüsselung zu sehen: ECAPA-TDNN-Konfidenz-Score, Richtungsschätzung (falls verfügbar), PTT-Seite (falls zutreffend)

Das Detail-Sheet dient der Transparenz: Puente zeigt Ihnen genau, wie es jeden Sprecher identifiziert hat, damit Sie der Zuordnung vertrauen können — oder sie manuell korrigieren können, wenn das System einen Fehler gemacht hat.

Datenschutz

Stimmeinbettungen, die vom Akustischen Kompass erstellt werden, werden lokal auf dem Gerät gespeichert. Sie werden nie auf einen Server hochgeladen, nie mit Dritten geteilt und nie für andere Zwecke als die Sprecherzuordnung in Puente-Sitzungen verwendet. Sie können alle gespeicherten Sprecherprofile in Einstellungen → Datenschutz → Sprachprofile löschen entfernen.

Puente herunterladen — Sprecher-Tabellenansicht verfügbar mit Pro