Audio Text Erkennung – Wie gut ist das in 2023? – Seite 2

Da war ich gerade auf einem Vortrag. Auf eine Frage musste eine textliche Korrektur stattfinden. Via Smartphone wäre ‚Voice to Text‘ schon mal möglich um schnell etwas zu erledigen. Aber am Computer mit Tastatur (ggf. Mikrophone dabei) während des Vortrags mal eben etwas zu schreiben, schafft vielleicht nur ein sehr routinierter Vortragender zügig, oder?

Und da kam es wieder auf: Schon vor über 20Jahren hat sich Windows (und ich meine auch Apple) quasi mit Funktionen in Word ja fast förmlich überschlagen. Und die „Speech To Text“ Funktion wollte mit dem Kauf eines Mikrofons auch gleich ausprobiert werden. Seither ist das immer noch irgendwie Tot, oder?

Wenn ich eine Email beantworten möchte. Wenn ich einen Text verfassen möchte. Wenn ich mit ChatGPT interagieren möchte. Der Mensch ist immer noch auf die Tastatur angewiesen um mit der Außenwelt in Textform kommunizieren zu können. Oder mit Umwegen über das Smartphone und dann aber nur in reduzierte Länge. Das ist doch nun wirklich mal echt schlechte Qualität der Software Hersteller. In Zeiten wo KI/AI (Künstliche Intelligenz) in aller Munde ist.

Als offene Lösung fand ich diese hier: https://cmusphinx.github.io/, https://github.com/NVIDIA/NeMo#nvidia-nemo. Ein weiteres Studium einer Software wird nötig. Sieht aber vielversprechend aus.

flobee @ work

the bee @ work

Audio Text Erkennung – Wie gut ist das in 2023?

flobee

Schreibe einen Kommentar Antwort abbrechen

Neueste Beiträge

Kategorien

Archiv

Kategorien

Archiv

Meta

Schlagwörter

Neueste Beiträge