Am Montag startete OpenAI sein jährliches DevDay Veranstaltung in San Francisco, bei der vier große API-Updates für Entwickler vorgestellt werden, die die KI-Modelle des Unternehmens in ihre Produkte integrieren. Im Gegensatz zur letztjährigen Veranstaltung an einem einzigen Standort mit einer Keynote von CEO Sam Altman ist der DevDay 2024 mehr als nur ein Tag und verfolgt einen globalen Ansatz. Zusätzliche Veranstaltungen sind für London am 30. Oktober und Singapur am 21. November geplant.
Die Veranstaltung in San Francisco, die nur auf Einladung und für die Presse nicht zugänglich war, wurde vorgestellt Redner auf der Bühne technische Präsentationen durchgehen. Die vielleicht bemerkenswerteste neue API-Funktion ist die Realtime API, die sich jetzt in der öffentlichen Betaversion befindet und Sprache-zu-Sprache-Konversationen mit sechs voreingestellten Stimmen unterstützt und es Entwicklern ermöglicht, Funktionen, die dem Advanced Voice Mode (AVM) von ChatGPT sehr ähnlich sind, in ihre Anwendungen zu integrieren.
OpenAI sagt, dass die Realtime API den Prozess der Erstellung von Sprachassistenten rationalisiert. Bisher mussten Entwickler mehrere Modelle für die Spracherkennung, Textverarbeitung und Text-in-Sprache-Konvertierung verwenden. Jetzt können sie den gesamten Prozess mit einem einzigen API-Aufruf abwickeln.
Das Unternehmen plant, seine Audio-Ein- und Ausgabefunktionen zu erweitern Chat-Abschlüsse-API In den nächsten Wochen wird es Entwicklern ermöglichen, Text oder Audio einzugeben und Antworten in beiden Formaten zu erhalten.
Zwei neue Optionen fĂĽr gĂĽnstigere Schlussfolgerungen
OpenAI kündigte außerdem zwei Funktionen an, die Entwicklern dabei helfen können, Leistung und Kosten bei der Erstellung von KI-Anwendungen in Einklang zu bringen. „Modelldestillation“ bietet Entwicklern die Möglichkeit, kleinere, günstigere Modelle wie GPT-4o mini mithilfe der Ausgaben fortschrittlicherer Modelle wie GPT-4o und o1-preview zu optimieren (anzupassen). Dies ermöglicht es Entwicklern möglicherweise, relevantere und genauere Ergebnisse zu erhalten, während sie das günstigere Modell verwenden.
Außerdem kündigte OpenAI „Prompt Caching“ an, eine ähnliche Funktion eingeführt von Anthropic für seine Claude API im August. Es beschleunigt die Inferenz (das KI-Modell generiert Ausgaben), indem es sich häufig verwendete Eingabeaufforderungen (Eingabetokens) merkt. Nebenbei bietet die Funktion einen Rabatt von 50 Prozent auf Eingabe-Tokens und schnellere Verarbeitungszeiten durch die Wiederverwendung kürzlich gesehener Eingabe-Tokens.
Und zu guter Letzt erweiterte das Unternehmen seine Feinabstimmungsfunktionen um Bilder (was es „Vision Fine Tuning“ nennt), sodass Entwickler GPT-4o anpassen können, indem sie ihm sowohl benutzerdefinierte Bilder als auch Text zuführen. Grundsätzlich können Entwickler der multimodalen Version von GPT-4o beibringen, bestimmte Dinge visuell zu erkennen. Laut OpenAI eröffnet die neue Funktion Möglichkeiten für eine verbesserte visuelle Suchfunktion, eine genauere Objekterkennung für autonome Fahrzeuge und möglicherweise eine verbesserte medizinische Bildanalyse.
Wo ist die Keynote von Sam Altman?
Anders als im letzten Jahr wird der DevDay nicht live gestreamt, OpenAI plant jedoch, Inhalte später auf seinem YouTube-Kanal zu veröffentlichen. Das Programm der Veranstaltung umfasst Breakout-Sessions, Community-Spotlights und Demos. Die größte Veränderung seit letztem Jahr ist jedoch das Fehlen eines Keynote-Auftritts des CEO des Unternehmens. In diesem Jahr wurde die Keynote vom OpenAI-Produktteam betreut.
Beim ersten DevDay im letzten Jahr, dem 6. November 2023, lieferte OpenAI-CEO Sam Altman einen Vortrag im Steve-Jobs-Stil Live-Keynote an versammelte Entwickler, OpenAI-Mitarbeiter und die Presse. Während seiner Präsentation hatte Microsoft-CEO Satya Nadella einen überraschenden Auftritt und sprach über die Partnerschaft zwischen den Unternehmen.
Elf Tage später entließ der OpenAI-Vorstand Altman, was eine Woche des Aufruhrs auslöste, die in Altmans Rückkehr als CEO und einem neuen Vorstand mündete. Kurz nach der Entlassung, Kara Swisher weitergeleitet Insiderquellen zufolge waren Altmans DevDay-Keynote und die Einführung des GPT-Stores ein auslösender (aber nicht der entscheidende) Faktor für die Entlassung, da es seit der Einführung von ChatGPT zu einigen internen Meinungsverschiedenheiten über die verbraucherorientiertere Ausrichtung des Unternehmens kam.
Mit dieser Geschichte im Hinterkopf – und dem Fokus auf Entwickler, der bei dieser Veranstaltung vor allem anderen im Mittelpunkt stand – entschied das Unternehmen vielleicht, dass es das Beste sei, Altman von der Keynote fernzuhalten und die OpenAI-Technologie anstelle von ihm in den Mittelpunkt der Veranstaltung zu stellen. Wir spekulieren in diesem Punkt nur, aber OpenAI hat im letzten Monat sicherlich einiges an Drama erlebt, daher war es möglicherweise eine kluge Entscheidung.
Trotz des Fehlens einer Keynote ist Altman heute beim Dev Day in San Francisco anwesend und wird voraussichtlich am Ende ein abschließendes „Kamingespräch“ führen (was zum jetzigen Zeitpunkt noch nicht stattgefunden hat). Außerdem machte Altman eine Stellungnahme über DevDay auf X und stellte fest, dass OpenAI seit dem DevDay im letzten Jahr einige dramatische Veränderungen erlebt hat (wörtlich):
Vom letzten Devday bis zu diesem:
*Reduzierung der Kosten pro Token um 98 % von GPT-4 auf 4o mini
*50-fache Steigerung des Token-Volumens in unseren Systemen
*Ausgezeichneter Modellintelligenzfortschritt
*(und ein bisschen Drama nebenbei)
In einem Follow-up-Tweet in seinem typischen Kleinbuchstaben teilte Altman eine zukunftsweisende Botschaft mit, die sich auf das Streben des Unternehmens nach KI auf menschlicher Ebene, oft auch AGI genannt, bezog: „Wir freuen uns, von diesem Devday zum nächsten noch mehr Fortschritte zu machen.“ Er schrieb. „Der Weg zu AGI war noch nie so klar.“