❓ GPT-5, Gemini, Claude-3 – Apple ReALM kommt
Apple, KI-Assistent, ReALM? OpenAI möchte noch in diesem Jahr GPT-5 veröffentlichen und damit einhergehend auch KI-Agenten der breiten Masse zugänglich machen. Diese sollen dem User beispielsweise autonom und intelligent eine Reise inklusive Flug und Hotelübernachtung buchen können. Google’s Gemini schließt mehr und mehr die Lücke zu den OpenAI-Modellen und lockt mit limitlosen Promptings. Und die Opus-Version von Claude-3 soll laut den Machern von Anthropic bereits bessere Ergebnisse liefern als das derzeitige Maß aller Dinge (GPT-4). Auch Microsoft mischt munter mit im Chat-Assistenten Rennen und veröffentlicht einen Copilot nach dem anderen (Office 365, Azure, etc.).
Doch eine bedeutende Tech-Marke fehlt bei der bisherigen Berichterstattung in diesem Bereich noch komplett – was macht eigentlich Apple? Hat das Unternehmen die Möglichkeiten von universellen und intelligenten Chat-Assistenten verkannt? Mitnichten, wie ein vor wenigen Tagen veröffentlichtes Forschungspaper nun beweist!
❗️ ReALM, LLM, GPT, … – worum es geht
Im Wesentlichen beschäftigt sich das Paper mit dem Problem der „Reference Resolution“ bei KI-Systemen, aber was ist das? Vereinfacht gesagt kann man das mit einem Telefonat zwischen zwei Personen vergleichen. Person A sagt „ich möchte das zweite von links!“ und Person B kann damit erstmal nichts anfangen, da sie am anderen Ende der Leitung nicht dasselbe wie Person A sehen kann. Person B müsste nun den erweiterten Kontext von Person A in Erfahrung bringen, um zu verstehen, dass Person A in einer Bäckerei steht und gerne ein Croissant kaufen möchte.
Dementsprechend wird hier nicht der typische Anwendungsfall von ChatGPT & Co. behandelt, bei dem der User den erforderlichen Kontext mit Hilfe der übermittelten Prompts bereits liefert.
Vielmehr wird gezeigt, wie ein Large Language Model (LLM) dazu befähigt werden kann, das eingangs erwähnte Problem zu lösen und anhand diverser Quellen die Referenz des Users „durchschauen“ kann.
Apple hat es dabei geschafft, den zur Problemlösung benötigten Kontext selbst zusammenzustellen, indem das dafür genutzte Model u.a. Bildschirminformationen, die Cursorposition und sogar derzeit laufende Musik oder stattfindende Gespräche VOR dem Bildschirm mit einbezieht. Das Model kann quasi „sehen“, was der User sieht. Noch dazu soll das Model so klein sein (LM statt LLM), dass es ohne Performance-Abstriche auch auf einem Smartphone laufen kann und demnach nicht zwingend eine Internetverbindung benötigt.
🤔 Wie macht Apple das?
Ein Kniff der Entwickler ist dabei, nicht nur den gesprochenen und geschriebenen Input textuell zu verarbeiten, sondern auch die visuellen Eingaben. Die Copiloten und GPTs dieser Welt arbeiten hauptsächlich mit Bilderkennung, wenn es um die Verarbeitung von Bildschirminformationen geht (klassische Screenshots z.B.). Das ist um ein Vielfaches aufwändiger und auch speicherintensiver, als simplen Text zu verarbeiten. Apple versucht also, den Bildschirm auf wertvolle Informationen hin zu untersuchen und arbeitet diese als Text in den Kontext zur Bewältigung der eigentlichen Aufgabe mit ein.
📈 Ergebnis: ReALM schlägt sogar GPT-4
Für das eingangs beschriebene Problem der „Reference Resolution“ schneidet bereits das kleinste ReALM Model von Apple nachweislich besser ab, als die die verglichenen Modelle von OpenAI (GPT-3.5 und sogar GPT-4) und benötigt signifikant weniger Ressourcen zur Lösung der Probleme. Zudem ist es auch noch schneller in der Verarbeitung der User-Anfragen.
🔮 Besser als GPT-4 – und nun?
In Expertenkreisen geht man davon aus, dass Apple diese Technologie in die bestehenden Assistenzsysteme rund um Siri einfließen lassen wird und bereits auf der Apple-eigenen Entwicklerkonferenz, der WWDC im Juni 2024, neue KI-Tools vorstellen wird. Dabei sind mehrere praktische Anwendungsfälle denkbar, die sich jedoch im Vergleich zur Nutzung der bekannten Alternativen rund um Gemini, ChatGPT und Microsoft Copilot grundlegend unterscheiden.
Anwendungsfall 1: Man könnte sich über Siri beispielsweise Apotheken in der Nähe auflisten lassen und dann über eine Anweisung wie „Rufe die im Bildschirm an unterster Stelle stehende Nummer an“ einen Anruf tätigen.
Anwendungsfall 2: Mit Hilfe von ReALM könnte Siri den Befehl „Mach es heller“ direkt richtig interpretieren und dabei erkennen, dass es sich um ein bestimmtes Smarthome-Gerät handelt.
Anwendungsfall 3: Auch in Kombination mit Apples AR-Brille bildet ReALM eine spannende Erweiterung. Dadurch kann auch der aktuelle Fokus der Augen in den Kontext mit aufgenommen werden und Befehle wie „Was steht auf diesem Schild?“ sind kein Problem mehr.
📝 Abwarten und vermutlich staunen
Zugegeben – der Vergleich zu den aktuellen, intelligenten Chat-Assistenten hinkt ein bisschen. Schließlich handelt es sich bei ReALM nicht um einen KI-Chatbot, der sämtliche Anfragen der User in ChatGPT-Manier abarbeitet. Apple scheint das aber auch gar nicht zu wollen. Laut Gerüchteküche liebäugelt Apple sogar mit einer Lizenzierung des OpenAI-Chatbots zur allgemeinen Nutzung und ReALM soll vor allem Siri intelligenter und praktischer machen. So oder so ist Apple ein spannender Durchbruch im Bezug auf „Reference Resolution“ gelungen und man kann gespannt sein, wohin die Reise zeitnah führen wird.