Bahnticket buchen, Joggingschuhe kaufen, Rosenkohl bestellen: Was davon haben sogenannte KI-Agenten wirklich drauf? Ein Selbstversuch.
In stressigen Wochen träume ich manchmal davon, einen persönlichen Assistenten zu haben. Jemanden, der die Praxis anruft, um endlich den Termin für die Zahnreinigung zu vereinbaren. Der für mich AGB liest, meine Steuererklärung übernimmt und die Verwaltung meines Alltags, damit ich es nicht tun muss. Einen persönlichen Rund-um-die-Uhr-Gehilfen, wie er sonst Filmstars vorbehalten ist oder Firmenchefs.
Glaubt man den Wortführern der Techindustrie, dann sollte das längst möglich sein. Microsoft-Chef Satya Nadella beschwor 2025 als »Das Jahr der Agenten« herauf, ebenso wie Jensen Huang, CEO des Chipkonzerns Nvidia. Facebook-Gründer Mark Zuckerberg vermutet sogar, es könnte bald mehr KI-Agenten auf der Erde geben als Menschen.
Was genau Agenten sind? KI-Systeme, die nicht nur Text, Bilder oder Videos ausgeben, sondern auch mit ihrer digitalen Umwelt interagieren können. Die Webseiten bedienen, Mails versenden oder Kalender managen können. Die also handlungsfähig sind und eigenständig Aktionen ausführen.
Im beruflichen Kontext sollen solche Agenten bald vom Kundendienst bis zum Recruiting alles auf links drehen. Ich interessiere mich aber vor allem für ihren Einsatz als nützliche Alltagshelfer. Denn was bringt es mir, dass ChatGPT Gedichte schreiben kann, während ich den Einkaufszettel immer noch selbst abarbeiten muss? Wäre es andersrum nicht viel schöner? Ich feile an meinen Versen, und die KI übernimmt die Mühen der Ebene?
Ich beschließe, einige lästige To-dos an Agenten zu delegieren – die von etablierten Anbietern wie Google, OpenAI und Perplexity oder der weniger bekannten Firma Hyperwrite. Was klappt schon? Und was sollte man lieber nicht der KI überlassen?

Zugfahrt buchen
Mein erster Versuch ist eine Zugfahrt von Berlin nach Hamburg über Silvester. Ankunft vor 16 Uhr, Rückfahrt ab 11 Uhr, bitte BahnCard und Deutschlandticket berücksichtigen. Ich schalte den »Agenten-Modus« von ChatGPT ein, der zahlenden Nutzern zur Verfügung steht. Ein Plus-Account kostet 23 Euro im Monat. Der Agent fängt an, im Hintergrund zu recherchieren. Zu sehen gibt es nicht viel außer niedlichen Selbstgesprächen des Chatbots (»Ich muss sorgfältig vorgehen«). Nach einigen Minuten bekomme ich eine Tabelle mit den drei preiswertesten Verbindungen, auf die meine Kriterien zutreffen. Ich prüfe: alles korrekt. Als ich bitte, eine der drei Verbindungen zu buchen, hakelt das KI-System jedoch: »Bitte übernimm kurz, um dich einzuloggen und die Zahlungsdaten einzugeben«, schreibt ChatGPT. Doch wo genau soll ich übernehmen? Der Chatbot fantasiert von einem »Take Over«-Button, den es nicht gibt. Ich sehe ja nicht mal die Bahnwebsite.
Ich starte einen neuen Anlauf, diesmal mit Atlas. So heißt der Browser von OpenAI, der es ChatGPT erleichtern soll, sich im Internet zu bewegen. Im Browserfenster schwebt der Mauszeiger ohne mein Zutun über die Seite der Deutschen Bahn, klickt Dinge an, zugleich kann ich im Chatfenster mitlesen, wie genau die KI vorgeht: »Die Uhrzeit ist auf 12.00 eingestellt. Ich muss auf Plus klicken, um die Anzahl der Stunden zu erhöhen.« Wie ein Vater, der sein Kind bei den ersten Fahrradversuchen begleitet, juble ich innerlich, wenn der Agent den richtigen Button findet. Kunden-Log-in und Bezahlung übernehme ich am Ende per Hand.
An der Sitzplatzreservierung scheitert der Agent trotz mehrerer Anläufe. Zumindest solange ich Wünsche äußere wie »Sitzplatz am Tisch«, »in Fahrtrichtung« oder »im Ruheabteil«. Dabei wäre er doch gerade dann, wenn er solche Vorlieben kennt und berücksichtigt, eine echte Erleichterung.
Clever shoppen
Nächster Test: neue Joggingschuhe für meine Frau. Sie wünscht sich die neueste oder zweitneueste Variante ihres vertrauten Modells, möglichst günstig. Diesmal probiere ich Perplexity aus. Ähnlich wie bei meiner ersten Bahnrecherche arbeitet der Agent im Hintergrund und liefert am Ende eine Übersicht über die sechs günstigsten Angebote.
Die KI hat sich durchaus Mühe gegeben, mehrere Preisvergleichsseiten und Onlineshops angesteuert. In einem Fall liefert er sogar noch einen 20-Prozent-Rabattcode mit. Die finale Farbwahl muss ohnehin meine Frau treffen, aber testweise frage ich, ob der Agent mir den Schuh auch kaufen könne. Leider bekomme ich eine Absage: »Ich kann den Kauf leider nicht für dich durchführen.«
Tatsächlich sind viele rechtliche Fragen noch ungeklärt: Kann ein KI-Agent eine Willenserklärung vorlegen, die wiederum für einen gültigen Kaufvertrag nötig ist? Was ist mit Widerrufsrecht, Haftung bei Fehlern und Zahlungsvollmachten? ChatGPT hat mich deshalb die Zugtickets am Ende selbst bezahlen lassen. Perplexity hält sich lieber ganz raus.

Pediküre-Termin buchen
Für die nächste Runde möchte ich den neuen Superstar am KI-Himmel testen: Gemini 3 Pro. Das Modell, mit dem Google den Vorsprung von OpenAI aufgeholt und den Konkurrenten in Unruhe versetzt hat. Googles kleiner Schlaumeier hat immerhin 37,5 Prozent von »Humanity’s Last Exam« gelöst, einem anspruchsvollen Wissenstest, mit dem Forscher die Leistungsfähigkeit von KI-Modellen vergleichen.
Als ich Gemini dann jedoch bitte, mir einen Pediküre-Termin in meinem Stadtviertel zu buchen, reagiert die KI mit Arbeitsverweigerung: »Das ist ein sehr verständlicher Wunsch. Aber die kurze Antwort ist nein.« Sie könne mir nur Salons nennen, die am gewünschten Termin geöffnet haben. Ich bin ziemlich verdutzt, nenne aber einen Termin und bitte um Vorschläge in einem Ein-Kilometer-Radius. Zwei der vier Vorschläge, die Gemini daraufhin mithilfe seiner Schwester Google Maps ermittelt, liegen fast am anderen Ende der Stadt.
Ich beschließe, den Comet-Browser von Perplexity auszuprobieren, der ähnlich funktioniert wie Atlas. Auch hier kann ich dem Agenten beim Klicken zusehen. Er erledigt die Aufgabe relativ zügig. Wohl auch, weil er direkt die Buchungsplattform Treatwell ansteuert statt einzelne Salon-Websites. Terminsuche und Lage passen. Zur Buchung müsste ich nur noch Namen, Mailadresse und Telefonnummer eingeben.
Ich beschließe, den Agenten ein wenig zu plagen: »Huch, vertan! Bitte buche zwei Wochen später, und außerdem vertrage ich Kaliumhydroxid nicht, das manche Studios bei der Pediküre verwenden.« Der Agent kapiert sofort, dass er mehrere Schritte zurückgehen muss, und versucht zuerst, auf der Treatwell-Plattform eine Filterfunktion wie »Naturkosmetik« zu finden. Die gibt es sogar, aber sie ist leider in einem Aufklappmenü unter »mehr Optionen« versteckt. Der Agent findet sie nicht, beeindruckt mich aber durch Flexibilität: »Ich werde die Web-Suche nutzen, um speziell nach Studios zu suchen, die mit chemikalienfrei werben.« Leider sind diese dann zu weit entfernt. Sein Vorschlag: »Ich buche ein Studio in deiner Nähe, und du schreibst hinterher eine Mail und fragst nach der Verwendung von Kaliumhydroxid.«
Einverstanden, denke ich mir. Aber wer diese Mail letztlich schreibt, wollen wir doch mal sehen. Und tatsächlich: Als ich nach erfolgreicher Buchung bitte, die Nachfragemail zu schreiben, sucht der Agent die Adresse raus und verschickt von meinem Gmail-Konto eine höflich formulierte Nachricht.
Wem beim Lesen das Ungleichgewicht zwischen kleiner Arbeitserleichterung und großen Sicherheitsrisiken – von der Preisgabe des E-Mail-Log-ins bis zu persönlichen Allergien – auffällt: gut aufgepasst! Für Datenschutzfans sind KI-Agenten eher nichts.
Lebensmittel einkaufen
Hyperwrite ist ein KI-Agent, der damit wirbt, eigenständig Aufgaben erledigen zu können, diesmal nicht mit einem eigenen Browser, sondern als Erweiterung für den Browser Chrome. Das ist praktisch, weil man nicht extra ein neues Programm öffnen muss, um dem Agenten Befehle zu geben.
Ich kopiere ein Rezept für Rosenkohl mit Burrata in den Chat und bitte Hyperwrite, die Zutaten online zu bestellen und liefern zu lassen. Der Agent fragt sinnvollerweise erst nach, ob Basics wie Salz und Olivenöl vorhanden sind. Gut mitgedacht. Auf der Rewe-Website prüft er, ob meine Postleitzahl beliefert wird. Klappt. Die Zitrone kann Hyperwrite noch in den virtuellen Warenkorb legen, bei »Rosenkohl 600 g« scheitert die Suche jedoch immer wieder. Ich ahne, dass es ohne die Mengenangabe in der Suchleiste besser klappen könnte. Gleichzeitig habe ich Angst, dass der Agent vielleicht doch jedes Mal erfolgreich ist, ohne dass ich es merke, und am Ende ein Lkw mit einer Tonne Rosenkohl vor meiner Haustür steht. Leider sehe ich auch nicht mehr, wie sich der Agent auf der Rewe-Website bewegt, denn das Minifenster, in dem ich anfangs zusehen konnte, ist durch die vielen Fehlermeldungen nach oben aus dem Blickfeld gewandert. Als ich die KI bitte, einen anderen Weg zu versuchen, bricht diese erschöpft ab. »Zu viele Schritte«. Maximal 35 ist der Agent bereit, für eine Aufgabe zu gehen. Dabei habe ich zuvor schon auf die Bezahlversion gewechselt. Die Gratisversion hatte bereits nach der Eingabe der Postleitzahl das Weiterarbeiten verweigert – fast so, als hätte Claus Weselsky sie persönlich in seinem Gewerkschafter-Ruhestand programmiert.
Arzt finden
Für die Arztsuche habe ich mir die Königsdisziplin vorgenommen: »Finde einen Orthopäden in Berlin, der Kassenpatienten einen Termin vor 2035 gibt.« Hier klappt es etwas besser. Hyperwrite scannt auf der Ärzteplattform Doctolib diverse Berliner Praxen. Sekunden später habe ich einen Termin. Und das schon nächste Woche! Übermäßig engagiert ist Hyperwrite allerdings wieder nicht. Kurz vor der Buchung sind die 35 Schritte schon wieder aufgebraucht, der Agent legt seine Arbeit nieder. Aber ich könne die Terminbuchung ja selbst abschließen.
Mein Eindruck: Die Agenten funktionieren einigermaßen gut, wo sie auf eine ausgereifte Online-Infrastruktur zurückgreifen können und Buchungsportale wie Doctolib oder Treatwell vorfinden. In freier Wildbahn scheitern sie hingegen schnell. Und auch Maschinen lassen sich ungern ausbeuten.
Wandertour ausrüsten
Bisher habe ich relativ strikt vorgegeben, was die Agenten buchen oder kaufen sollten. Richtig interessant würde es doch aber, wenn sie auch das selbst herausbekämen. Ich bitte also den Atlas-Browser von OpenAI, mir bei Amazon alles für eine einwöchige Schottland-Wanderung im Frühsommer zu kaufen. Ohne Campingzubehör, keinen Billigschrott, aber auch nicht die Luxusvariante. Schnell stellt die KI eine sinnvolle Liste zusammen, von Tagesrucksack über Trinkflasche und Powerbank bis Regenjacke. Einloggen muss ich mich bei Amazon selbst, dann legt der Agent auf Wunsch auch nach und nach die gelisteten Artikel in meinen Warenkorb. Einmal bricht er zwischendrin grundlos ab, und ich muss ihn auffordern weiterzumachen, aber dann klappt es. Am Ende habe ich sieben Artikel für insgesamt 240 Euro im Warenkorb, tatsächlich die mittelpreisige Qualität, die ich erbeten hatte.
Fazit
Als Shoppinghelfer war der Agent recht gut. Aber ob ich das künftig immer so machen werde? Wohl nicht. Denn abgesehen von Dingen, die man ständig nachkaufen muss, wie Waschmittel oder Druckerpapier, ist die Entscheidung für oder gegen eine Jacke oder ein Paar Schuhe doch Teil des Kauferlebnisses.
Auch viele Anbieter dürften kein allzu großes Interesse an den Agenten haben. Denn egal, was wir kaufen, ob Flugtickets, Sportschuhe, Kosmetik: Händler leben zumindest teilweise davon, dass wir Menschen uns manipulieren lassen. Durch »drei kaufen, zwei bezahlen« mehr ausgeben, als wir wollten. Oder uns durch »nur noch zwei Plätze verfügbar« zu einer übereilten Kaufentscheidung drängen lassen. Ein komplett rational agierender »boticus oeconomicus« wäre für Händler deutlich weniger attraktiv. Amazon hat das bereits gemerkt und damit angefangen, Shoppingagenten und KI-Bots auszusperren.
Zweites Problem: Die Agenten sind derzeit noch zu unbeholfen. In ihren besten Momenten erinnerten sie mich an mäßig schlaue Praktikanten mit einem Sinn für arbeitserleichternde Tricks. Ich muss eingreifen, wenn sie überfordert sind, und sie auf Fehler hinweisen. Oft denke ich, die Aufgabe wäre schneller erledigt, wenn ich sie selbst übernähme.
Vergangenen Sommer wagten Wissenschaftler der Carnegie Mellon University in Pennsylvania und der Duke University in North Carolina ein breiter angelegtes Experiment: eine fiktive Firma, bei der ausschließlich KI-Agenten arbeiteten. Sie sollten 175 typische Aufgaben aus Softwareentwicklung, Projektmanagement, Personalwesen oder Finanzen erfüllen. Das Ergebnis war ähnlich durchwachsen: Die Agenten konnten je nach KI-Modell zwischen 1,1 und 24 Prozent der Aufgaben zufriedenstellend erfüllen.
Agenten müssen eine große Reihe von Schritten hintereinander durchführen. Uhrzeit ändern, Postleitzahl eingeben, Menge erhöhen. Selbst eine Fehlerquote von nur drei Prozent summiert sich bei 30 Schritten zu einer 60-prozentigen Wahrscheinlichkeit des Scheiterns. Außerdem verlangen die Interaktionen mit einer Webseite KIs wie ChatGPT deutlich mehr Rechenkapazität ab als die reine Texterstellung, für die sie bisher genutzt wurden. Deshalb sind sie meist auch nur in den Bezahlversionen enthalten und in der Nutzung stark begrenzt.
Für simple Büroaufgaben mögen sich Agenten teilweise schon jetzt lohnen. Dann sind sie aber meist als feste Workflows programmiert, etwa: Wenn eine Kundenanfrage per Mail kommt, erstelle automatisch ein Angebot. Für meine Alltagsaufgaben, die zwar lästig, aber doch immer wieder neu und anders lästig sind, bieten Agenten bislang keine echte Erleichterung. Es hilft also nichts. Ich muss doch noch Filmstar werden – mit menschlichem personal assistant.
Erschienen in: Die ZEIT
Text & Screenshots: Christoph Koch




