Nachdem letzte Woche OpenAI und Google mit ihren Ankündigungen und Updates die KI-Welt auf den Kopf gestellt haben, hat jetzt auch Microsoft nachgelegt und im Rahmen der eigenen Entwicklerkonferenz Build einige neue Entwicklungen und Produkte präsentiert. Außerdem gibt es Neues von der Data Analysis Funktion in ChatGPT und Gerüchte um den zukünftigen Open Source Status von Llama 3.
💻 Copilot+ Computer
Microsoft hat jetzt auch die erste Generation der Copilot+ Computer und Tablets vorgestellt, die voll und ganz für den Einsatz von KI optimiert sind.
Das ist auch aus dem Grund spannend, dass wir ja erst vor einer Woche die neuen Ipads von Apple vorgestellt bekommen haben und diese über keine eingebauten KI-Features verfügen. Microsoft hat mit den neuen Surface Tablets und Laptops jetzt wirklich eine ernstzunehmende Alternative zum iPad Pro und den Macbooks vorgestellt und auch wenn wir die Geräte bisher noch nicht testen konnten, sind die angekündigten Funktionen wirklich beeindruckend. Man kann die neuen Geräte jetzt schon bei Microsoft vorbestellen, die Preise fangen bei 1199€ an.
🤖 Live Screen Unterhaltung
Bei der Präsentation von OpenAI und der neuen ChatGPT Desktop App haben wir ja schon gesehen, dass es zukünftig möglich sein wird mit KI live über den Inhalt des Bildschirms zu sprechen – zumindest auf dem Mac. Da offiziell keine Windows Variante der ChatGPT App angekündigt wurde, überrascht es uns jetzt allerdings wenig, dass Copilot dieselbe Funktionalität erhalten wird. Die Vorschau beginnt bei 11:55 im Video.
Wie immer sind wir bei solchen Demobeispielen vorsichtig, aber da es sich sehr wahrscheinlich um dieselbe Technologie handelt, wie bei der ChatGPT Desktop App, die wir aktuell übrigens auch fleißig am testen sind, sind wir zuversichtlich, dass es im Copilot funktionieren wird
👀 Recall – Gedächtnis für Microsoft KI
Ein besonderes Feature, dass während der Build Konferenz vorgestellt wurde, von dem ich ehrlich gesagt nicht so richtig weiß, was ich halten soll, war das Recall Feature, das exklusiv auf den neuen Copilot+ Computern verfügbar sein wird. Hier speichert der Computer alle paar Sekunden einen Screenshot und sendet diesen an die KI.
Es wird also alles, was ich am Computer mache, aufgezeichnet und ich habe dann die Möglichkeit die KI nach etwas zu fragen, sollte ich etwas vergessen haben, wie den Namen einer Website oder ob ich bereits eine Mail versendet habe.
Dazu kann ich dann einfach eine Suchmaske verwenden und dort stichwortartig suchen oder aber in einer eigens angelegten “Timeline” durch meinen Tag scrollen, um zu finden, was ich suche. Das künstliche Gedächtnis reicht bei den 256GB Einstigsgeräten drei Monate zurück und auf den größeren bis zu 18 Monate.
Betrachtet man nur diese Funktion, dann klingt das erst einmal positiv aber ich denke, es gibt einige unter uns, die hier etwas skeptisch sind. Zwar gibt Microsoft an, dass alles nur lokal gespeichert wird, aber trotzdem hat diese permanente Überwachung dann doch einen kleinen Beigeschmack.
Zwar macht Recall keine Screenshots von Browsertabs im privaten Modus von Edge, aber es blendet auch nicht standardmäßig Passwörter oder Kreditkartendaten aus. Ich denke, da müssen wir einfach abwarten, wie sich das Feature in der Realität durchsetzen wird.
🤝 Team Copilot
Als wäre die ganze Namensgebung der unterschiedlichsten Copilot Produkte von Microsoft nicht schon verwirrend genug, gab es noch eine weitere Vorstellung des sogenannten “Team Copilot” – nicht zu verwechseln mit dem normalen “Copilot in Teams”, der ja schon als eine Art persönlicher Assistent für uns verfügbar war.
Der Team Copilot ist auch noch ein ganz ähnliches Konzept, aber statt einem persönlichen Assistenten bekommen Organisationen damit einen virtuellen Mitarbeiter, der für alle verfügbar ist, in Meetings mitschreiben kann, Aufgaben verteilen kann und auch selbst Aufgaben erledigen.
Ob das wirklich so gut funktioniert, wie in der Vorstellung kurz angeteasert müssen wir schauen – das Release ist erst für später im Jahr geplant.
🗞️ Microsoft Werbung in Copilot Output
Es gibt aber auch negative Neuigkeiten aus der Richtung Microsoft. In ersten Videos von Usern tauchen jetzt Antworten von Copilot auf, bei denen in der generierten Antwort selbst Werbeanzeigen integriert werden. Das stößt direkt auf starke Ablehnung und verständlicherweise. Nur durch ein kleines Label “Ad” gekennzeichnet haben wir hier in einer vermeintlichen KI-Antwort Werbung versteckt – das sieht unserer Meinung nach gar nicht gut aus und es ist wirklich die Frage, ob Microsoft das wirklich nötig hat.
Wir hoffen einmal, dass das direkte und eindeutige Feedback vielleicht dazu führt, dass der Konzern diesen Schritt nochmal überdenkt.
5️⃣ Ausblick auf GPT-5
Kevin Scott, der CTO und Executive Vice President of AI bei Microsoft hat in seinem Vortrag ein paar interessante Andeutungen gemacht. Er hat offensichtlich Kenntnis darüber, wie das neue GPT-Modell aktuell trainiert wird und hat auch einen interessanten Größenvergleich angestellt, den wir hier kurz einblenden.
Auch wenn Scott natürlich nichts konkretes sagt, wird deutlich, wie groß der Sprung zum nächsten GPT-Modell sein wird, dass sich offensichtlich aktuell im intensiven Training mit dem neuen Supercomputer in Walgröße befindet. Scott hat außerdem betont, dass wir aktuell noch weit entfernt sind von einer Grenze, an der man nicht mit einfach nur mehr Rechenleistung deutlich fähigere Modelle trainieren kann.
Und auch wenn wir da nicht zu viel hineininterpretieren sollten: Mark Chen, der Head of Frontiers Research bei OpenAI, als Frontier-Modelle bezeichnet man in der KI die neuesten und leistungsstärksten Modelle, hat bei einem etwas kritischeren Tweet zu GPT-4o einfach nur mit “@reminderpls in 6 months” kommentiert. Das ist ein Bot, der dann automatisch in 6 Monaten an diesen Tweet erinnern soll. Damit liegen wir dann im November, also fast am 2. Geburtstag von ChatGPT, aber wie gesagt: Das ist natürlich reine Spekulation.
🦙 Llama 3 400B nicht Open Source
Es gibt Gerüchte über die Art und Weise, wie das mit Spannung erwartete 400B+ Modell von Llama 3 veröffentlicht werden wird. Laut ersten Insider Informationen plant Meta das neue Top-Modell möglicherweise nicht als Open Source wie die bereits öffentlichen 8 und 70B Varianten zu launchen.
Auch wenn wir uns vermutlich dann trotzdem über ein sehr fähiges, neues Modell freuen dürfen, wäre das natürlich ein harter Schlag für die Open Source Community.
📊 Neue Data Analysis Funktionen in GPT
Die Möglichkeiten der Datenanalyse sollen ja im Zuge der neuen Version von ChatGPT jetzt für alle auch im kostenlosen Plan verfügbar werden. Gleichzeitig soll Data Analysis für Plus-User ein Upgrade erhalten und jetzt tauchen schon erste neue Features bei der Verwendung auf. In einer ausführlichen Analyse, beispielsweise einer Excel-Datei haben wir zum einen die Möglichkeit die Daten zu maximieren und den Chat daneben weiterzuführen.
Außerdem können wir bei den erstellen Diagrammen jetzt zwischen einer interaktiven und einer statischen Ansicht wechseln. Im interaktiven Modus können wir beispielsweise Farben verändern und Werte anzeigen lassen.
Das sind natürlich nur kleine Verbesserungen, aber trotzdem schon eine gelungene Umsetzung, die optisch sehr viel hermacht. Wir gehen aber auch davon aus, dass wir hier in der nahen Zukunft noch etwas erwarten dürfen.
🗣️ GPT Rechtsstreit wegen Voice
OpenAI hat die Veröffentlichung der KI-Stimme Sky vorerst auf Eis gelegt. Der Schritt folgt nach einem beginnenden Rechtsstreit des Unternehmens mit Schauspielerin Scarlett Johannson, die OpenAI vorwirft ohne ihr Einverständnis ihre Stimme nachgebildet zu haben.
Obwohl es wohl Gespräche gab und Sam Altman gerne die Original-Stimme von Her für ChatGPT gehabt hätte, gibt das Unternehmen an, hier keinen Klon von Johannson erstellt zu haben, sondern mit einer anderen Voice Actress die Stimme erstellt zu haben.
Wir hoffen, dass die Angelegenheit bald geregelt ist und wir dann endlich in den Genuß der neuen Voice Funktionen von ChatGPT kommen werden.
🦾 Lmsys Hard Benchmarks
In der Chatbot Arena wurde eine neue Kategorie eingeführt, nach der die verschiedenen Modelle verglichen werden: Hard Prompts, also schwierige oder komplexe Anfragen an die KI. Der Twitter-Account von Lmsys hat direkt erste Erkenntnisse dazu gepostet und es ist sehr interessant zu sehen, dass eigentlich nur die GPT und die Claude Modelle ihre gute Performance auch bei diesen komplexen Prompts halten können.
Die Konkurrenz, egal ob Gemini, Llama aber auch Command R Plus brechen bei steigender Schwierigkeit doch deutlich ein, was die Qualität der Antworten betrifft. Man kann zwar davon ausgehen, dass vermutlich über 90% aller Prompts, die wir so im Alltag verwenden nicht in diese Kategorie fallen, aber es ist eine interessante Beobachtung.