Rabbit’s web-based ‘large action model’ agent arrives on r1 as early as this week

Rabbits webbasierter „Large Action Model“-Agent kommt noch diese Woche auf R1

Das Rabbit r1 war das Must-have-Gadget des Jahres 2024, aber die Schamröte verging ziemlich schnell, als die hochtrabenden Versprechen des Unternehmens nicht eingelöst wurden. CEO Jesse Lyu gibt zu, dass „wir am ersten Tag unsere Erwartungen zu hoch gesteckt haben“ – aber dass ein Update, das diesen Monat für die Geräte erscheint, das gerühmte Large Action Model endlich im Internet freigeben wird.

Während Skeptiker dies (zu Recht) als zu wenig, zu spät oder als eine weitere Verschiebung der Spielregeln betrachten, hat Rabbits Bestreben, einen plattformunabhängigen Agenten für Web- und Mobilanwendungen zu entwickeln, immer noch einen grundlegenden – wenn auch noch weitgehend theoretischen – Wert.

Im Gespräch mit TechCrunch sagte Lyu, dass die letzten sechs Monate ein Wirbelwind aus Auslieferungen, Fehlerbehebungen, verbesserten Reaktionszeiten und dem Hinzufügen kleinerer Funktionen gewesen seien. Doch trotz 16 drahtlosen Updates für das r1 bleibt es grundsätzlich auf die Interaktion mit einem LLM oder den Zugriff auf einen von sieben spezifischen Diensten wie Uber und Spotify beschränkt.

„Das war die allererste Version des LAM, trainiert anhand von Aufzeichnungen von Datenarbeitern, aber es ist nicht generisch – es verbindet sich nur mit diesen Diensten“, sagte er. Ob es das war, was sie LAM nennen, ist an diesem Punkt eher eine akademische Frage – was auch immer das Modell war, es bot nicht die Fähigkeiten, die Rabbit bei seinem Debüt beschrieb.

Ein allgemeiner webbasierter Agent

Aber Rabbit ist bereit, die erste generische, das heißt nicht auf eine bestimmte App oder Schnittstelle bezogene Version des LAM herauszubringen, die Lyu mir vorgeführt hat.

Bei dieser Version handelt es sich um einen webbasierten Agenten, der die Schritte zur Ausführung ganz gewöhnlicher Aufgaben durchgeht, beispielsweise den Kauf von Konzertkarten, die Registrierung einer Website oder sogar das Spielen eines Online-Spiels.

„Unser Ziel ist ganz klar: Ende September wird Ihr r1 plötzlich viel mehr können. Es sollte alles unterstützen, was Sie auf jeder Website tun können“, sagte Lyu.

Bei einer gegebenen Aufgabe zerlegt es diese zunächst in Schritte und beginnt dann mit deren Ausführung, indem es analysiert, was es auf dem Bildschirm sieht: Schaltflächen, Felder, Bilder, unabhängig von Position oder Aussehen. Anschließend interagiert es mit dem entsprechenden Element auf der Grundlage dessen, was es allgemein über die Funktionsweise von Websites gelernt hat.

Ich bat es (über Lyu, die es aus der Ferne bediente), eine neue Website für ein Filmfestival zu registrieren. Alle paar Sekunden führte es eine Aktion aus, suchte bei Google nach Domänenregistern, wählte eines aus (ein gesponsertes, glaube ich), gab „Filmfestival“ in das Domänenfeld ein und wählte aus der resultierenden Liste der Optionen „filmfestival2023.com“ für 14 $ aus. Technisch hatte ich ihm keine Einschränkungen wie „für 2025“ oder „Horrorfestival“ oder so etwas gegeben.

Als Lyu ihn aufforderte, einen R1 zu suchen und zu kaufen, fand er schnell seinen Weg zu eBay, wo Dutzende davon zum Verkauf standen. Für einen Benutzer vielleicht ein gutes Ergebnis, aber nicht für den Firmengründer, der der Presse seine Präsentation hielt! Er lachte darüber und wiederholte die Aufforderung mit dem Zusatz, dass er nur auf der offiziellen Website kaufen sollte. Der Agent hatte Erfolg.

Als nächstes ließ er es das tägliche Wortspiel von Dictionary.com spielen. Es erforderte ein wenig schnelles Engineering (das Modell fand einen Ausweg darin, dass es schnell fertig werden konnte, indem es auf „Spiel beenden“ drückte), aber es funktionierte.

Doch wessen Browser wird verwendet? Einen neuen, sauberen in der Cloud, sagt Lyu. Es wird aber auch an lokalen Versionen gearbeitet, etwa einer Chrome-Erweiterung. Damit könnten bestehende Sitzungen genutzt werden, ohne dass eine Anmeldung bei den Diensten erforderlich wäre.

Da Benutzer verständlicherweise (und zu Recht) davor zurückschrecken, einem Unternehmen vollen Zugriff auf ihre Anmeldeinformationen zu gewähren, ist der Agent nicht mit diesen ausgestattet. Lyu schlug vor, dass in Zukunft ein abgeschottetes kleines Sprachmodell mit Ihren Anmeldeinformationen privat aufgerufen werden könnte, um Anmeldungen durchzuführen. Es scheint eine offene Frage zu sein, wie dies funktionieren wird, was angesichts der Neuheit des Bereichs in gewisser Weise zu erwarten ist.

Immer noch am Lernen

Ein Beispiel für eine UI-Analyse innerhalb von Apps von der Rabbit-Website.
Bildnachweise: Kaninchen

Die Demo hat mir ein paar Dinge gezeigt. Erstens, wenn wir dem Unternehmen und seinen Entwicklern den Vertrauensvorschuss geben, dass dies nicht alles nur ein ausgeklügelter Scherz ist (wie manche glauben), scheint es sich tatsächlich um einen funktionierenden, universellen Web-Agenten zu handeln. Und das wäre, wenn nicht an sich schon eine Premiere, so doch sicherlich die erste, die für Verbraucher leicht zugänglich ist.

„Es gibt Unternehmen, die sich auf vertikale Lösungen für Excel oder juristische Dokumente spezialisiert haben, aber ich glaube, dies ist einer der ersten allgemeinen Agenten für Verbraucher“, sagte Lyu. „Die Idee ist, dass man alles sagen kann, was über eine Website erreicht werden kann. Wir werden zuerst den generischen Agenten für Websites haben, dann für Apps.“

Zweitens zeigte sich, dass schnelles Engineering noch immer dringend erforderlich ist. Die Formulierung einer Anfrage kann leicht den Unterschied zwischen Erfolg und Misserfolg ausmachen, und das ist wahrscheinlich nichts, was normale Verbraucher tolerieren werden.

Lyu wies darauf hin, dass es sich hierbei um eine „Spielplatzversion“ handele und keineswegs um eine endgültige Version, und dass es sich zwar um einen voll funktionsfähigen allgemeinen Webagenten handele, dieser aber in vielerlei Hinsicht noch verbessert werden könne. So sei das Modell beispielsweise „intelligent genug, um die Planung durchzuführen, aber nicht intelligent genug, um Schritte zu überspringen“, sagte er. Es würde nicht „lernen“, dass ein Benutzer seine Elektronik lieber nicht bei eBay kaufen möchte oder dass er nach der Suche nach unten scrollen sollte, um die Wand mit den gesponserten Ergebnissen zu vermeiden.

Benutzerdaten werden nicht erhoben, um das Modell zu verbessern … noch nicht. Lyu führte dies darauf zurück, dass es im Grunde keine Bewertungsmethode für ein System wie dieses gibt, sodass es schwierig ist, quantitativ zu sagen, ob Verbesserungen vorgenommen wurden. Es wird jedoch auch einen „Lehrmodus“ geben, sodass Sie ihm zeigen können, wie eine bestimmte Art von Aufgabe ausgeführt wird.

Interessanterweise arbeitet das Unternehmen auch an einem Desktop-Agenten, der mit Anwendungen wie Textverarbeitungsprogrammen, Musikplayern und natürlich Browsern interagieren kann. Dies befindet sich noch in der Anfangsphase, funktioniert aber. „Sie müssen nicht einmal ein Ziel eingeben, es versucht einfach, den Computer zu verwenden. Solange eine Schnittstelle vorhanden ist, kann es sie steuern.“

Drittens gibt es noch immer keine „Killer-App“, zumindest keine offensichtliche. Der Agent ist beeindruckend, aber ich persönlich hätte wenig Verwendung dafür, da ich leider sowieso 8 Stunden am Tag vor einem Browser sitze. Es gibt mit ziemlicher Sicherheit einige großartige Anwendungen, aber mir fiel keine ein, die den Nutzen eines browserbasierten Automaten so offensichtlich macht wie beispielsweise den eines Roboterstaubsaugers.

Warum nicht nochmal eine App?

Der Rabbit R1 im Einsatz. Handmodell: Chris Velazco von der Washington Post.
Bildnachweise: Devin Coldewey / TechCrunch

Ich habe den üblichen Einwand gegen das gesamte Geschäftsmodell von Rabbit erhoben, nämlich im Wesentlichen: „Das könnte eine App sein.“

Lyu hatte diese Kritik offensichtlich schon oft gehört und war von seiner Antwort überzeugt.

„Wenn man nachrechnet, ergibt das keinen Sinn“, sagte er. „Ja, technisch ist es machbar, aber man wird Apple und Google vom ersten Tag an verärgern. Sie werden nie zulassen, dass das besser wird als Siri oder Gemini. Genauso wie es keine Möglichkeit gibt, dass Apples Intelligenz Googles Sachen besser kontrollieren wird oder umgekehrt. Und sie kassieren 30 % des Umsatzes! Wenn wir am Anfang einfach eine App entwickelt hätten, hätten wir nie diese Dynamik.“

Rabbits grundlegendes Argument ist, dass es eine KI oder ein Gerät von Drittanbietern geben kann, das auf alle Ihre anderen Dienste zugreifen und diese bedienen kann, und zwar von außerhalb, so wie Sie. „Ein plattformübergreifendes, generisches Agentensystem“, wie Lyu es nannte. „Wir werden jede Benutzeroberfläche steuern, und die Website ist ein guter Anfang. Dann gehen wir zu Windows, MacOS und Telefonen über.“

Apropos: „Wir haben nie gesagt, dass wir in Zukunft nie ein Telefon bauen würden.“ Ist das nicht ein Widerspruch zu ihrer ursprünglichen These eines kleineren, einfacheren Geräts? Vielleicht, vielleicht auch nicht.

In der Zwischenzeit arbeiten sie daran, die Versprechen zu erfüllen, die sie Anfang des Jahres gemacht haben. Das neue Modell sollte irgendwann diese Woche für alle R1-Besitzer verfügbar sein, wenn das OTA-Update herauskommt. Anweisungen zum Aufrufen werden dann ebenfalls eintreffen. Lyu warnte erwartungsvolle Benutzer mit seiner charakteristischen Untertreibung.

„Wir setzen die Erwartungen richtig. Es ist nicht perfekt“, sagte er. „Es ist nur das Beste, was die Menschheit bisher erreicht hat.“

Kicker: Telefon..?

Leave a Comment

Your email address will not be published. Required fields are marked *