Offline-Sprachausgabe (TTS)

Aus der Mikrocontroller.net Artikelsammlung, mit Beiträgen verschiedener Autoren (siehe Versionsgeschichte)
Version vom 28. Februar 2024, 21:02 Uhr von Esko (Diskussion | Beiträge) (c't 15/2023 Stimmprobe)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch Text-to-Speech (TTS).

Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:

  • Eingangstext
  • Lautschrift
  • Phoneme
  • Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.

Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe Wikipedia: Deep learning speech synthesis.

Mikrocontroller

Mit einem kleinen Mikrocontroller ist Sprachsynthese nur in schlechter Qualität möglich, klingt also nach Roboterstimme, z.B.:

Mehr Sinn macht das Abspielen von kurzen Tonfetzen (Samples), die man kreativ zusammenfügt (fünf-zehn Uhr drei-ßig). 8 kHz x 8 Bit = 8.000 Byte/s reicht für Sprache. Bei größerem Speicherbedarf kann man auf SD-Karten zurückgreifen, z.B. Elm-Chan SD8P, und dann ganze Sätze einspeichern.

Software Open-Source

Software kommerziell

Hardware-Modul oder IC

🎧 Hörproben

Siehe auch