Niederbayerische Spracherkennung: Präzision für den Mittelbairischen Sprachraum

Unsere Speech-to-Text-Technologie ist spezifisch auf die phonologischen und lexikalischen Besonderheiten des niederbayerischen Mittelbairisch trainiert. Standardmodelle liefern bei lokaltypischen Vokalfärbungen und Lautverschiebungen häufig fehlerhafte Transkripte; unser Modell minimiert diese Fehler systematisch.

Linguistische Herausforderungen: Warum Standard-KI versagt

Niederbairisch ist mehr als ein Akzent; es ist eine stabilisierte Variante des Mittelbairischen mit eigenen phonologischen Prozessen. Für zuverlässige Transkription müssen systematische phonetische Verschiebungen explizit modelliert werden, nicht nur statistisch approximiert.

Unser Ansatz adressiert diese Besonderheiten gezielt. Im Trainings- und Postprocessing berücksichtigen wir bekannte Merkmale, die in Hochdeutsch-zentrierten Modellen zu Fehlern führen:

  • Vokalverfärbungen: Dominante Verdumpfung von /a/ nach [o] (z.B. "Wasser" → "Wossa").
  • L-Vokalisierung: Umlenkung von /l/ zu vokalischen Realisierungen (z.B. "Geld" → "Geid"), was klassische Graphem-Phonem-Mappings stört.
  • Entrundung: Verlust der Rundung bei Umlauten (z.B. "Hütte" → "Hittn"), was für akustische Modelle Verwechslungen verursacht.

Modelltechniken

Wir verwenden eine Kombination aus gezieltem Data Augmentation, phonetisch informierten Lexika und einem lexikon-angepassten language model. Feature-Extraktion nutzt sowohl klassische MFCC/PLP-Features als auch trainierte wav2vec-ähnliche Repräsentationen, um lokale Prosodie und Segmentierungsgrenzen besser zu fassen.

Training über regionale Grenzen hinweg

Die größte Herausforderung ist die interne Varianz innerhalb Niederbayerns. Unser Datensatz ist geografisch gewichtet, um sowohl archaische, oberpfälzisch beeinflusste Realisierungen (Bayerischer Wald) als auch Einflüsse aus dem österreichischen Innviertel (Rottal-Inn) abzubilden. Indem wir Proben aus Übergangszonen einbeziehen, reduziert das Modell Robustheitsverluste bei Sprecherwechseln zwischen z. B. Passau und Kelheim.

Zusätzlich werden fließende Übergänge (z. B. Landshuter Raum hin zum Oberbairischen) durch stratified sampling und domain-adaptive fine-tuning explizit abgedeckt. Das verhindert, dass ein regionales Submodell die Generalisierbarkeit auf angrenzende Gebiete opfert.

Typische Sprachbeispiele

Unsere niederbayerische Spracherkennung versteht die charakteristischen Ausdrücke und Wendungen des Dialekts:

Beispiele aus dem Trainings-Set

NiederbayerischHochdeutsch (Referenz)
Pfiad di / Pfiat EanaAuf Wiedersehen
I mog diIch mag dich
A HoibeEin halber Liter (Bier)
Kimmst her?Kommst du her?

Anwendungsgebiete in der Praxis

Lokale Medienhäuser profitieren von automatisierter Untertitelung und der Volltext-Durchsuchbarkeit von Audio-Archiven, wodurch journalistische Arbeitsabläufe beschleunigt und redaktionelle Ressourcen geschont werden.

Im Bereich Kultur und Tourismus ermöglicht die Technologie authentische Sprachassistenten und interaktive Museumstools, die lokale Besucher in ihrer eigenen Mundart ansprechen und so die Nutzerakzeptanz erhöhen.

Für Unternehmen ermöglicht die Lösung dialektfähige Kundenservice-Bots und Sprachinterfaces, die regionale Formulierungen erkennen und so die Servicequalität und Effizienz verbessern.

Werden Sie Dialektsammler

Unterstützen Sie die Weiterentwicklung unseres Modells: Mit der Dialektsammler-App können Sie sichere Sprachproben aus Ihrer Gemeinde beitragen. Ihre Daten helfen, die Erkennungsrate für lokale Varianten weiter zu steigern.

Niederbayerisch verstehen lassen

Testen Sie unsere niederbayerische Spracherkennung und werden Sie Teil der Dialektsammler-Community.