Offline-Sprachausgabe (TTS): Unterschied zwischen den Versionen

Aus der Mikrocontroller.net Artikelsammlung, mit Beiträgen verschiedener Autoren (siehe Versionsgeschichte)
Wechseln zu: Navigation, Suche
(Linkfix)
(Komplettüberarbeitung)
Zeile 1: Zeile 1:
Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch ''Text-to-Speech'' (TTS).
Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch ''Text-to-Speech'' (TTS).
Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:
* Eingangstext
* Lautschrift
* Phoneme
* Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.
Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe [https://en.m.wikipedia.org/wiki/Deep_learning_speech_synthesis Wikipedia: Deep learning speech synthesis].


===Mikrocontroller===
===Mikrocontroller===
Zeile 12: Zeile 20:


===Software Open-Source===
===Software Open-Source===
* [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Software Wikipedia Sprachsynthese-Software], darunter Open-Soure:
* Liste auf [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Software Wikipedia: Sprachsynthese-Software], darunter Open-Soure:
** [http://mary.dfki.de MaryTTS vom DFKI] Qualität passabel
** [http://mary.dfki.de MaryTTS vom DFKI]: Qualität passabel
** [https://github.com/naggety/picotts PicoTTS] Qualität ok
** [https://github.com/naggety/picotts PicoTTS] Qualität ok
** [https://de.wikipedia.org/wiki/ESpeak_NG Wikipedia: eSpeak NG] (Qualität mäßig)
** [https://de.wikipedia.org/wiki/ESpeak_NG eSpeak NG auf Wikipedia] und [https://github.com/espeak-ng/espeak-ng GitHub] und [https://f-droid.org/de/packages/com.reecedunn.espeak/ Android-App auf F-Droid]: Wenige MB für mehrere Sprachen. [[C]]. Beste Stunde ist NVDA. Qualität mäßig.
** [https://github.com/mipuc/hts-engine-world HTS] Qualität ok, nur österreichisch  
** [https://github.com/mipuc/hts-engine-world HTS]: Qualität ok, nur österreichisch  
** [https://github.com/mozilla/TTS Mozilla TTS]
* [https://github.com/mozilla/TTS Mozilla TTS]: Neuronalen Netz DNN und maschinelles Lernen vieler Stunden Sprache. Sehr gute Qualität.
*** Deutsche Stimme von [https://twitter.com/ThorstenVoice Thorsten Müller]. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei [https://creativecommons.org/publicdomain/zero/1.0/deed.de CC0].
** Deutsche Stimme von [https://twitter.com/ThorstenVoice Thorsten Müller]. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei [https://creativecommons.org/publicdomain/zero/1.0/deed.de CC0].
**** [https://community.mycroft.ai/t/free-german-tts-voice-for-mycroft-sneak-preview/9458/22 🎧 Hörproben im Mycroft-Forum]
*** [https://community.mycroft.ai/t/free-german-tts-voice-for-mycroft-sneak-preview/9458/22 🎧 Hörproben im Mycroft-Forum]
**** [https://discourse.mozilla.org/t/contributing-my-german-voice-for-tts/48150/224 Mozilla-Forum]
*** [https://discourse.mozilla.org/t/contributing-my-german-voice-for-tts/48150/224 Mozilla-Forum]
**** [https://github.com/thorstenMueller/deep-learning-german-tts/ GitHub]
*** [https://github.com/thorstenMueller/deep-learning-german-tts/ GitHub]
**** [http://www.thorsten-voice.de Thorsten-Voice.de]
*** [http://www.thorsten-voice.de Thorsten-Voice.de]
*** [https://github.com/coqui-ai/TTS 🐸Coqui.ai]
** [https://github.com/coqui-ai/TTS 🐸Coqui.ai]
**** [https://erogol.github.io/ddc-samples/ englische 🎧 Hörproben]
*** [https://erogol.github.io/ddc-samples/ 🎧 Hörproben Englisch]
**** [https://discourse.mozilla.org/t/coqui-ai-is-here/77027 Mozilla-Forum]
*** [https://discourse.mozilla.org/t/coqui-ai-is-here/77027 Mozilla-Forum]
** [https://mycroft.ai/mimic-3/ Mycroft Mimic 3]. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). [http://www.thorsten-voice.de Thorsten-Voice] ist als deutsche Stimme auch mit dabei. Die [https://openvoice-tech.net/index.php?title=Using_Mycroft_with_German_Thorsten_voice alte Anleitung] unnötig.
** [https://mycroft.ai/mimic-3/ Mycroft Mimic 3]. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). [http://www.thorsten-voice.de Thorsten-Voice] ist als deutsche Stimme auch mit dabei. Die [https://openvoice-tech.net/index.php?title=Using_Mycroft_with_German_Thorsten_voice alte Anleitung] ist unnötig.
* [https://github.com/GHPS/txt2pho txt2pho (Hadifix)] Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi
* [https://github.com/GHPS/txt2pho txt2pho (Hadifix)] Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi
* [https://wiki.ubuntuusers.de/Sprachausgabe/ Ubuntu-Wiki: Sprachausgabe] (alte und neue Programme)
* [https://wiki.ubuntuusers.de/Sprachausgabe/ Ubuntu-Wiki: Sprachausgabe] (alte und neue Programme)
Zeile 32: Zeile 40:


===Software kommerziell===
===Software kommerziell===
* [https://www.acapela-group.com/solutions/acapela-tts-voices-for-google-play/ Acapela Stimme Julia deutsch] für Android
* [https://www.acapela-group.com/solutions/acapela-tts-voices-for-google-play/ Acapela Stimme Julia deutsch für Android]. Auch Windows und kundenspezifisch. [https://www.acapela-group.com/de/voices/vocal-smileys-examples/ 🎧 Hörproben]
* [https://www.linguatec.de/voice-reader-studio-15-demo/ Windows-Programm] 500€
* [https://www.linguatec.de/voice-reader-studio-15-demo/ Windows-Programm] 500€
* Vielzahl an kommerziellen Stimmen für [https://de.m.wikipedia.org/wiki/Speech_Application_Programming_Interface SAPI5 (Windows)], z.B. Eloquence und Vocalizer. Mitgelieferte Windows 10 OneCore Voices sind sehr gut.


===Hardware-Modul oder IC===
===Hardware-Modul oder IC===
* [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Hardware Wikipedia: Sprachsynthese-Hardware] (ICs)
* Liste von ICs auf [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Hardware Wikipedia: Sprachsynthese-Hardware]
* [http://www.redcedar.com/sc01.htm Redcedar] (1970er und 80er)
* [http://www.redcedar.com/sc01.htm Redcedar] (1970er und 80er)


Zeile 43: Zeile 52:


==Siehe auch==
==Siehe auch==
* [[Offline-Spracherkennung|Offline-Spracherkennung (speech recognition)]]
* [[Offline-Spracherkennung|Offline-Spracherkennung (speech recognition)]] STT
* [https://de.m.wikipedia.org/wiki/Speech_Synthesis_Markup_Language Speech Synthesis Markup Language (SSML)] um Lautstärke, Tonhöhe oder Geschwindigkeit beeinflussen.
* [https://openvoice-tech.net OpenVoice-Tech Wiki] von Thorsten Müller
* [https://openvoice-tech.net OpenVoice-Tech Wiki] von Thorsten Müller

Version vom 29. Juli 2023, 21:39 Uhr

Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch Text-to-Speech (TTS).

Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:

  • Eingangstext
  • Lautschrift
  • Phoneme
  • Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.

Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe Wikipedia: Deep learning speech synthesis.

Mikrocontroller

Mit einem kleinen Mikrocontroller ist Sprachsynthese nur in schlechter Qualität möglich, klingt also nach Roboterstimme, z.B.:

Mehr Sinn macht das Abspielen von kurzen Tonfetzen (Samples), die man kreativ zusammenfügt (fünf-zehn Uhr drei-ßig). 8 kHz x 8 Bit = 8.000 Byte/s reicht für Sprache. Bei größerem Speicherbedarf kann man auf SD-Karten zurückgreifen, z.B. Elm-Chan SD8P, und dann ganze Sätze einspeichern.

Software Open-Source

Software kommerziell

Hardware-Modul oder IC

🎧 Hörproben

Siehe auch