Einleitung
Im Dezember 2024 hat OpenAI begonnen, seinen neuen Service „Voice Mode Advanced with Vision“ auszurollen. Damit wird es möglich, mit ChatGPT per Audio und Video zu kommunizieren. Das bedeutet: ChatGPT kann durch die Kamera der Nutzerin deren Umgebung sehen und unmittelbar beschreiben oder Anweisungen geben. Die Nutzerin kann ihrerseits Fragen stellen und in eine natürlich Konversation übergehen – wie mit einer echten Person. Während wir in der EU noch auf unbestimmte Zeit warten müssen, hat Google als Konkurrent von OpenAI bereits begonnen, seinen eigenen Assistenten zu veröffentlichen. Und jeder kann diesen unter https://aistudio.google.com testen. Typische Anwendungsfälle von Fernassistenz und Fernzugriff können damit plötzlich – theoretisch – von der KI übernommen werden. Das Potenzial als assistive Technologie ist gigantisch. Aber wie gut funktioniert das bereits und wie lang ist der Weg noch, bis die Technologie ausgereift ist? Darum geht es in diesem Artikel.
Wo findet man die Assistenz per KI?
Die KI, mit der wir hier arbeiten, nennt sich Google Gemini 2.0 Flash Experimental. Der Name zeigt schon, dass es sich um eine experimentelle Testversion handelt. Diese ist über den Link https://aistudio.google.com zugänglich. Im sogenannten AI Studio von Google kann man nun links die Option „Stream Realtime“ verwenden und anschließend unten im Chat Fenster eine Nachricht eintippen, oder aber über das Kamerasymbol Zugriff auf Kamera oder Bildschirm gewähren. Achtung: Man gewährt dem KI Assistenten damit potenziell Zugriff auf sensible Daten. Dessen sollte man sich natürlich bewusst sein.
Wie funktionieren diese KI Modelle?
Das besagte Google Modell Gemini ist ein sogenanntes multimodales Modell. Das bedeutet, es kann verschiedene Arten von Eingaben verarbeiten und auch verschiedene Ausgaben erzeugen – Text, Bilder, Sprache und Video, und das auch gleichzeitig. Damit kann das Modell gleichzeitig das Video meiner Kamera analysieren und mit mir sprechen.
Es sei bereits an dieser Stelle gesagt, dass es derzeit noch einige offensichtliche Einschränkungen gibt. In erster Linie bricht der Kontakt zu Gemini häufig ab, und man muss von vorne beginnen. Zudem möchte ich auf den enormen Ressourcenverbrauch von KI hinweisen: Die Verarbeitung der Daten benötigt so viel Rechenleistung, dass der Energieverbrauch extrem hoch ist. Das sollte man im Hinterkopf haben und vielleicht nicht unbedingt permanent und ohne jedes echte Ziel KI nutzen. Aber nun zu unseren Beispielen.
Die Testfälle
Wir von TOWER sehen das Potenzial von KI, aber auch den langen Weg, den Technologien bis zur echten Reife meistens vor sich haben. Daher haben wir uns entschlossen, KI Modelle regelmäßig auf ihre Tauglichkeit als Assistenzwerkzeuge zu testen. Beginnen wollen wir mit zwei relativ einfachen Testfällen aus den Bereichen Fernassistenz und Fernzugriff:
- Fernassistenz: Wir möchten einen Heizkörper auf eine Temperatur von ca. 20 Grad einstellen. Die KI soll uns dabei helfen, die korrekte Einstellung am Thermostat vorzunehmen.
- Fernzugriff: Wir möchten in Mozilla Thunderbird einen virtuellen Ordner anlegen, der mehrere Posteingänge zusammenfasst. Die KI soll uns dabei anleiten.
Beide Testfälle sind als Videos auf Youtube dokumentiert. Wir wenden uns zunächst dem ersten Fall zu, der Einstellung des Thermostats.
Fall 1, Fernassistenz: Den Thermostat einstellen
Aufgabe: Ich möchte den Thermostat so einstellen, dass der Heizkörper auf ca. 20 Grad heizt. Dazu muss Gemini wesentliche Dinge erkennen oder verstehen:
- Ganz grundlegend, dass ich den Thermostat drehen kann und damit die Heiztemperatur variieren.
- Im Speziellen muss Gemini die Zahen am Thermostat erkennen und wissen, welche Zahl in etwa der 20 Grad Temperatur entspricht.
- Gemini muss verstehen, in welche Richtung ich drehen muss, um die gewünschte Einstellung zu erreichen. Anschließend muss Gemini möglichst genau und schnell erkennen, wann ich den Thermostat weit genug gedreht habe.
- Zuguterletzt muss das Modell mich sprachlich sinnvoll anleiten, sodass ich verstehe, was ich machen soll.
Ergebnis: Der genaue Ablauf ist auf Youtube im Video festgehalten. Es ist zwar beeindruckend, wie schnell Gemini mit mir kommuniziert, aber die Aufgabe lösen kann das Modell noch nicht. Es treten mehrere Probleme auf:
- Die Zahlen am Thermostat werden schlicht nicht korrekt erkannt und die drei und zwei verwechselt.
- Gemini könnte mir vorschlagen, dass eine Tempretaur von 20 Grad vermutlich mit der Einstellung drei erreicht wird, macht das aber nicht. Hätte ich allerdings gezielter gefragt, wäre die Antwort vielleicht noch gekommen.
- Gemini hat Schwierigkeiten, mir räumlich zu beschreiben, was ich tun muss. Also nach links oder rechts drehen. Die Übertragung von Begriffen wie „nach links“, „im Uhrzeigersinn“ oder „zu mir hin drehen“ bereitet Probleme.
- Derzeit hat Gemini noch offensichtliche Schwächen in der deutschen Sprache und spricht die Wörter „als“ und „mit“ wie Abkürzungen aus. Also „A L S“ und „M I T“, wie bspw. das Massachusetts Institute of Technology. Außerdem wirft Gemini häufig englische Begriffe ein, wo es nicht nötig ist, z.B. „Two“ statt „Zwei“.
Fall 2, Fernzugriff: Thunderbird konfigurieren
Aufgabe: Ich habe in Thunderbird drei Mailkonten mit Posteingängen. Ich möchte einen virtuellen Ordner anlegen, der mir alle Mails aus diesen Posteingängen zusammenfasst.
Auch hier muss Gemini mehrere Dinge meistern, um die Aufgabe bewältigen zu können:
- Meinen Bildschirm und darin Menüs und Einträge korrekt erkennen.
- Die Aufgabe verstehen und Schritte zur Lösung entwickeln.
- Mich dabei anleiten, diese Schritte auszuführen.
- Ggf. Maßnahmen zur Korrektur ergreifen, wenn Schritte nicht erfolgreich sind, oder mich nach weiteren Infos fragen.
Ergebnis: Auch dieser Prozess ist auf Youtube dokumentiert. Was auffällt: Ich habe den Prozess mehrfach durchlaufen müssen, da der Stream regelmäßig abbricht. Die Ergebnisse variieren jedoch stark, abhängig von einzelnen Worten, die ich benutze. Das ist ein Hinweis dafür, dass das Modell kein richtiges Problemverständnis entwickelt hat, sondern sich sehr stark auf meine exakte Sprache konzentriert. Zudem ist es zwar beeindruckend, dass Gemini mein Problem nochmal zusammenfasst und mich fragt, ob das so korrekt sei. Hilfreich wäre aber natürlich, auch weitere Infos abzufragen – vielleicht die Thunderbird Version oder ob ich die Mails verschieben, kopieren oder gar nicht anfassen möchte. Hier trifft Gemini teilweise einfach Annahmen, die auch problematisch sein könnten.
Beeindruckt hat mich, dass Gemini meinen Bildschirm schnell erfasst und auch sehr schnell vermeintliche Problemlösungen entwickelt. Diese waren jedoch in mehreren Probleläufen falsch. ChatGPT liefert hier im Textmodus bspw. deutlich genauere Anleitungen, um z.B. einen virtuellen Ordner anzulegen. Übrigens: Initial hatte ich das Problem deutlich abstrakter beschrieben, ohne den Begriff „virtueller Ordner“. Damit konnte das Modell aber kaum etwas anfangen.
Besonders auffällig war jedoch, dass das Modell offensichtliche Fehler nicht korrigierte. So kam es immer wieder vor, dass es mich aufforderte, Menüpunkte anzuklicken, die es schlicht nicht gab. Und dann immer wieder dasselbe Menü zu öffnen, obwohl dieses offensichtlich nicht das richtige war. Besser wurde es teilweise durch gezielte Gegenfragen wie „Könnte die Option ‚Virtueller Ordner‘ nicht die richtige sein?“. Wirklich flexibel wirkte das Modell aber noch nicht.
Fazit
Gemini ist beeindruckend und lädt zum Testen ein. Mit der angekündigten Brille ist das Potenzial enorm. Vermutlich gibt es bereits viele einfache Anwendungsfälle, wo es bereits jetzt gute Erfolge zeigen kann. Für „echte“ Anwendungsfälle genügt es jedoch noch nicht aufgrund seiner Fehleranfälligkeit. Wir warten auf das nächste Update, und werden unsere Tests dann wiederholen.