Offline-Sprachausgabe (TTS): Unterschied zwischen den Versionen
Esko (Diskussion | Beiträge) (Linkfix) |
Esko (Diskussion | Beiträge) (Komplettüberarbeitung) |
||
Zeile 1: | Zeile 1: | ||
Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch ''Text-to-Speech'' (TTS). | Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch ''Text-to-Speech'' (TTS). | ||
Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist: | |||
* Eingangstext | |||
* Lautschrift | |||
* Phoneme | |||
* Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen. | |||
Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe [https://en.m.wikipedia.org/wiki/Deep_learning_speech_synthesis Wikipedia: Deep learning speech synthesis]. | |||
===Mikrocontroller=== | ===Mikrocontroller=== | ||
Zeile 12: | Zeile 20: | ||
===Software Open-Source=== | ===Software Open-Source=== | ||
* [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Software Wikipedia Sprachsynthese-Software], darunter Open-Soure: | * Liste auf [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Software Wikipedia: Sprachsynthese-Software], darunter Open-Soure: | ||
** [http://mary.dfki.de MaryTTS vom DFKI] Qualität passabel | ** [http://mary.dfki.de MaryTTS vom DFKI]: Qualität passabel | ||
** [https://github.com/naggety/picotts PicoTTS] Qualität ok | ** [https://github.com/naggety/picotts PicoTTS] Qualität ok | ||
** [https://de.wikipedia.org/wiki/ESpeak_NG Wikipedia: | ** [https://de.wikipedia.org/wiki/ESpeak_NG eSpeak NG auf Wikipedia] und [https://github.com/espeak-ng/espeak-ng GitHub] und [https://f-droid.org/de/packages/com.reecedunn.espeak/ Android-App auf F-Droid]: Wenige MB für mehrere Sprachen. [[C]]. Beste Stunde ist NVDA. Qualität mäßig. | ||
** [https://github.com/mipuc/hts-engine-world HTS] Qualität ok, nur österreichisch | ** [https://github.com/mipuc/hts-engine-world HTS]: Qualität ok, nur österreichisch | ||
* [https://github.com/mozilla/TTS Mozilla TTS]: Neuronalen Netz DNN und maschinelles Lernen vieler Stunden Sprache. Sehr gute Qualität. | |||
** Deutsche Stimme von [https://twitter.com/ThorstenVoice Thorsten Müller]. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei [https://creativecommons.org/publicdomain/zero/1.0/deed.de CC0]. | |||
*** [https://community.mycroft.ai/t/free-german-tts-voice-for-mycroft-sneak-preview/9458/22 🎧 Hörproben im Mycroft-Forum] | |||
*** [https://discourse.mozilla.org/t/contributing-my-german-voice-for-tts/48150/224 Mozilla-Forum] | |||
*** [https://github.com/thorstenMueller/deep-learning-german-tts/ GitHub] | |||
*** [http://www.thorsten-voice.de Thorsten-Voice.de] | |||
** [https://github.com/coqui-ai/TTS 🐸Coqui.ai] | |||
*** [https://erogol.github.io/ddc-samples/ 🎧 Hörproben Englisch] | |||
*** [https://discourse.mozilla.org/t/coqui-ai-is-here/77027 Mozilla-Forum] | |||
** [https://mycroft.ai/mimic-3/ Mycroft Mimic 3]. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). [http://www.thorsten-voice.de Thorsten-Voice] ist als deutsche Stimme auch mit dabei. Die [https://openvoice-tech.net/index.php?title=Using_Mycroft_with_German_Thorsten_voice alte Anleitung] unnötig. | ** [https://mycroft.ai/mimic-3/ Mycroft Mimic 3]. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). [http://www.thorsten-voice.de Thorsten-Voice] ist als deutsche Stimme auch mit dabei. Die [https://openvoice-tech.net/index.php?title=Using_Mycroft_with_German_Thorsten_voice alte Anleitung] ist unnötig. | ||
* [https://github.com/GHPS/txt2pho txt2pho (Hadifix)] Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi | * [https://github.com/GHPS/txt2pho txt2pho (Hadifix)] Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi | ||
* [https://wiki.ubuntuusers.de/Sprachausgabe/ Ubuntu-Wiki: Sprachausgabe] (alte und neue Programme) | * [https://wiki.ubuntuusers.de/Sprachausgabe/ Ubuntu-Wiki: Sprachausgabe] (alte und neue Programme) | ||
Zeile 32: | Zeile 40: | ||
===Software kommerziell=== | ===Software kommerziell=== | ||
* [https://www.acapela-group.com/solutions/acapela-tts-voices-for-google-play/ Acapela Stimme Julia deutsch | * [https://www.acapela-group.com/solutions/acapela-tts-voices-for-google-play/ Acapela Stimme Julia deutsch für Android]. Auch Windows und kundenspezifisch. [https://www.acapela-group.com/de/voices/vocal-smileys-examples/ 🎧 Hörproben] | ||
* [https://www.linguatec.de/voice-reader-studio-15-demo/ Windows-Programm] 500€ | * [https://www.linguatec.de/voice-reader-studio-15-demo/ Windows-Programm] 500€ | ||
* Vielzahl an kommerziellen Stimmen für [https://de.m.wikipedia.org/wiki/Speech_Application_Programming_Interface SAPI5 (Windows)], z.B. Eloquence und Vocalizer. Mitgelieferte Windows 10 OneCore Voices sind sehr gut. | |||
===Hardware-Modul oder IC=== | ===Hardware-Modul oder IC=== | ||
* [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Hardware Wikipedia: Sprachsynthese-Hardware] | * Liste von ICs auf [https://de.wikipedia.org/wiki/Sprachsynthese#Sprachsynthese-Hardware Wikipedia: Sprachsynthese-Hardware] | ||
* [http://www.redcedar.com/sc01.htm Redcedar] (1970er und 80er) | * [http://www.redcedar.com/sc01.htm Redcedar] (1970er und 80er) | ||
Zeile 43: | Zeile 52: | ||
==Siehe auch== | ==Siehe auch== | ||
* [[Offline-Spracherkennung|Offline-Spracherkennung (speech recognition)]] | * [[Offline-Spracherkennung|Offline-Spracherkennung (speech recognition)]] STT | ||
* [https://de.m.wikipedia.org/wiki/Speech_Synthesis_Markup_Language Speech Synthesis Markup Language (SSML)] um Lautstärke, Tonhöhe oder Geschwindigkeit beeinflussen. | |||
* [https://openvoice-tech.net OpenVoice-Tech Wiki] von Thorsten Müller | * [https://openvoice-tech.net OpenVoice-Tech Wiki] von Thorsten Müller |
Version vom 29. Juli 2023, 21:39 Uhr
Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch Text-to-Speech (TTS).
Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:
- Eingangstext
- Lautschrift
- Phoneme
- Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.
Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe Wikipedia: Deep learning speech synthesis.
Mikrocontroller
Mit einem kleinen Mikrocontroller ist Sprachsynthese nur in schlechter Qualität möglich, klingt also nach Roboterstimme, z.B.:
- µc.net Henrik Haftmann TU Chemnitz. Text -> Lautschrift -> Phoneme -> PCM-Wave
- AVR-Freaks-Diskussion
- SAM Software Automatic Mouth C64-Programm konvertiert nach C
Mehr Sinn macht das Abspielen von kurzen Tonfetzen (Samples), die man kreativ zusammenfügt (fünf-zehn Uhr drei-ßig). 8 kHz x 8 Bit = 8.000 Byte/s reicht für Sprache. Bei größerem Speicherbedarf kann man auf SD-Karten zurückgreifen, z.B. Elm-Chan SD8P, und dann ganze Sätze einspeichern.
- Arduino PCM audio playback from SD card von Falk Brunner 2017 (µc.net)
- LPC-Kompression mit Talkie für Arduino (dazu 🎧 Hörprobe und Zeitungsartikel)
- Verbessert von ArminJo
Software Open-Source
- Liste auf Wikipedia: Sprachsynthese-Software, darunter Open-Soure:
- MaryTTS vom DFKI: Qualität passabel
- PicoTTS Qualität ok
- eSpeak NG auf Wikipedia und GitHub und Android-App auf F-Droid: Wenige MB für mehrere Sprachen. C. Beste Stunde ist NVDA. Qualität mäßig.
- HTS: Qualität ok, nur österreichisch
- Mozilla TTS: Neuronalen Netz DNN und maschinelles Lernen vieler Stunden Sprache. Sehr gute Qualität.
- Deutsche Stimme von Thorsten Müller. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei CC0.
- 🐸Coqui.ai
- Mycroft Mimic 3. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). Thorsten-Voice ist als deutsche Stimme auch mit dabei. Die alte Anleitung ist unnötig.
- txt2pho (Hadifix) Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi
- Ubuntu-Wiki: Sprachausgabe (alte und neue Programme)
- OpenTTS Sammlung von Docker images mit den Engines: Larynx, Coqui-TTS, Glow-Speak, nanoTTS, MaryTTS, flite, Festival, eSpeak
Software kommerziell
- Acapela Stimme Julia deutsch für Android. Auch Windows und kundenspezifisch. 🎧 Hörproben
- Windows-Programm 500€
- Vielzahl an kommerziellen Stimmen für SAPI5 (Windows), z.B. Eloquence und Vocalizer. Mitgelieferte Windows 10 OneCore Voices sind sehr gut.
Hardware-Modul oder IC
- Liste von ICs auf Wikipedia: Sprachsynthese-Hardware
- Redcedar (1970er und 80er)
🎧 Hörproben
- www.TTSsamples.SyntheticSpeech.de von Prof. Dr. Felix Burkhardt - 🎧 Hörproben 1955 bis heute
Siehe auch
- Offline-Spracherkennung (speech recognition) STT
- Speech Synthesis Markup Language (SSML) um Lautstärke, Tonhöhe oder Geschwindigkeit beeinflussen.
- OpenVoice-Tech Wiki von Thorsten Müller