Die Idee steht – aber wie wird daraus ein gut strukturierter Vortrag? Und wie aus der endlosen Audiodatei ein lesbarer Text? Programme mit Künstlicher Intelligenz können lästige Abtipp- und Formulierungsarbeit übernehmen. Aber versteht das dann auch jeder?
Wer mir ohne großen Aufwand richtig auf die Nerven gehen will, schickt mir eine Sprachnachricht. Warum schriftlich formulieren, wenn man endlos mäandern kann? »Ja, und, also … Wegen morgen Abend, genau, da muss ich noch mal schauen … Es kann sein, dass ich da ein bisschen später dazukomme, weil … Also das ist ein bisschen kompliziert, da hat mein Bruder Geburtstag, und naja, also du weißt ja, der ist immer so …«
Ich verstehe schon: Manche Menschen sprechen lieber als zu tippen. Für diese gibt es nun ein praktisches neues Werkzeug, das ich selbst sehr gern nutze: AudioPen verwandelt Gesprochenes in Text. Das gibt es schon länger, aber bisher eben nur als 1:1- Transkription. Und wortwörtlich, mit allen gedanklichen Sackgassen und Füllwörtern aufgeschrieben, wird die obige Bruder-Suada ja nicht unbedingt besser.
AudioPen schreibt aber nicht haarklein auf, was ich ins Mikro meines Smartphones oder Computers diktiere. Es fasst zusammen und ordnet. Und spuckt am Ende einen Text aus, der präziser, organisierter und durchdachter wirkt, als ich es beim Diktat war. Oder vielleicht auch jemals sein werde. »From fuzzy thought to clear text – fast«, also schnell von diffusen Gedanken zu klarem Text kommen, so lautet das Versprechen von AudioPen.
Die KI-Anwendung lässt sich für Mails oder längere Messengernachrichten verwenden, aber auch um Tagebuch zu schreiben, eine kurze Rede zur Goldenen Hochzeit oder das Konzept für ein berufliches Projekt. Ich habe es auch schon genutzt, um Vorträge schriftlich zusammenzufassen. Wer regelmäßig in Meetings mit Menschen sitzt, die sich selbst gern reden hören, wird AudioPen vielleicht auch zu schätzen wissen. Es macht das Protokollieren leichter.
Aber was genau ist an dem Programm jetzt eigentlich Künstliche Intelligenz, kurz KI? AudioPen schreibt aber nicht haarklein auf, was ich ins Mikro meines Smartphones oder Computers diktiere. Es fasst zusammen und ordnet. Und spuckt am Ende einen Text aus, der präziser, organisierter und durchdachter wirkt, als ich es beim Diktat war. Oder vielleicht auch jemals sein werde. »From fuzzy thought to clear text – fast«, also schnell von diffusen Gedanken zu klarem Text kommen, so lautet das Versprechen von AudioPen.
Die KI-Anwendung lässt sich für Mails oder längere Messengernachrichten verwenden, aber auch um Tagebuch zu schreiben, eine kurze Rede zur Goldenen Hochzeit oder das Konzept für ein berufliches Projekt. Ich habe es auch schon genutzt, um Vorträge schriftlich zusammenzufassen. Wer regelmäßig in Meetings mit Menschen sitzt, die sich selbst gern reden hören, wird AudioPen vielleicht auch zu schätzen wissen. Es macht das Protokollieren leichter.
Aber was genau ist an dem Programm jetzt eigentlich Künstliche Intelligenz, kurz KI? Spracherkennung, sei es bei Diktierprogrammen oder Assistenzsystemen wie Alexa oder Siri gibt es ja schon länger. Auch diese basieren auf KI, aber wie lautet dieser zutreffende Satz von John McCarthy, einem der Urväter des Fachs? »Sobald etwas wirklich funktioniert, nennen wir es nicht mehr KI.« Da ist was dran. Das, was wir aktuell meinen, wenn wir von KI sprechen, ist die so genannten »generative KI«, die mit ChatGPT Ende 2022 so richtig bekannt wurde. Diese versteht nicht nur akustisch, wenn ich »Haus« sage und schreibt »Haus«. Sondern sie verwandelt »Haus« auch in einen sogenannten Token. Token können Wörter sein, Wortbestandteile, aber auch Satzzeichen. Und die neue Generation von KI-Systemen (Large Langage Models, LLMs – aber das merkt sich nur, wer mag) lernen dann über Milliarden von Trainingsläufen, welche Token ähnliche Bedeutungen haben und wie unterschiedliche Token inhaltlich wie miteinander zusammenhängen.
Was »generative KI« ebenfalls von ihren Vorgänger-Varianten unterscheidet: Sie hat ein –begrenztes, aber derzeit schnell anwachsendes – Erinnerungsvermögen und versteht Kontext. Systeme wie ChatGPT können also zum Beispiel auf frühere Antworten in einem Chatverlauf Bezug nehmen. Oder Audiopen kapiert eben, wenn sich ein Satz auf einen früheren bezieht oder wenn sich Dinge doppeln und vereinfacht werden können.
Auch vor der neuesten Generation Künstlicher Intelligenz muss niemand Angst haben. Das ist ja das Credo dieser Kolumne, die zum Ausprobieren und Herumspielen mit dieser neuen Welt von Werkzeugen anregen soll. Ein paar Vorsichtsmaßnahmen sind trotzdem sinnvoll.
…
Weiterlesen auf sz-magazin.de …
Text: Christoph Koch
Foto: Screenshot