Es war eine turbulente Woche für OpenAI, voller Abgänge von Führungskräften und großer Fundraising-Entwicklungen, aber das Startup ist wieder da und versucht, Entwickler beim DevDay 2024 davon zu überzeugen, Tools mit seinen KI-Modellen zu entwickeln. Das Unternehmen kündigte am Dienstag mehrere neue Tools an, darunter eine öffentliche Betaversion seiner „Realtime API“ zum Erstellen von Apps mit KI-generierten Sprachantworten mit geringer Latenz. Es ist nicht ganz der erweiterte Sprachmodus von ChatGPT, aber er kommt ihm nahe.
In einem Briefing mit Reportern vor der Veranstaltung sagte Kevin Weil, Chief Product Officer von OpenAI, dass die jüngsten Abgänge von Chief Technology Officer Mira Murati und Chief Research Officer Bob McGrew keinen Einfluss auf die Fortschritte des Unternehmens haben würden.
„Ich möchte zunächst sagen, dass Bob und Mira großartige Führungskräfte waren. Ich habe viel von ihnen gelernt und sie tragen wesentlich dazu bei, uns dorthin zu bringen, wo wir heute sind“, sagte Weil. „Und außerdem werden wir nicht langsamer werden.“
Während OpenAI einer weiteren Generalüberholung unterzogen wird – eine Erinnerung an die Turbulenzen nach dem DevDay im letzten Jahr – versucht das Unternehmen, Entwickler davon zu überzeugen, dass es immer noch die beste Plattform für die Entwicklung von KI-Apps bietet. Führungskräfte sagen, dass das Startup mehr als 3 Millionen Entwickler hat, die mit seinen KI-Modellen arbeiten, OpenAI agiert jedoch in einem zunehmend wettbewerbsintensiven Umfeld.
OpenAI stellte fest, dass es die Kosten für Entwickler für den Zugriff auf seine API in den letzten zwei Jahren um 99 % gesenkt hat, obwohl es wahrscheinlich durch Konkurrenten wie Meta und Google gezwungen wurde, ihre Preise kontinuierlich zu unterbieten.
Eine der neuen Funktionen von OpenAI, die so genannte Realtime API, gibt Entwicklern die Möglichkeit, nahezu in Echtzeit Sprach-zu-Sprache-Erlebnisse in ihren Apps zu erstellen, wobei sie die Möglichkeit haben, sechs von OpenAI bereitgestellte Stimmen zu verwenden. Diese Stimmen unterscheiden sich von denen, die für ChatGPT angeboten werden, und Entwickler können aus Urheberrechtsgründen keine Stimmen von Drittanbietern verwenden. (Die Stimme, die mehrdeutig auf der von Scarlett Johansson basiert, ist nirgendwo erhältlich.)
Während des Briefings stellte Romain Huet, Head of Developer Experience bei OpenAI, eine Demo einer Reiseplanungs-App vor, die mit der Realtime API erstellt wurde. Die Anwendung ermöglichte es Benutzern, mit einem KI-Assistenten verbal über eine bevorstehende Reise nach London zu sprechen und Antworten mit geringer Latenz zu erhalten. Die Echtzeit-API hat auch Zugriff auf eine Reihe von Tools, sodass die App bei der Antwort eine Karte mit Restaurantstandorten mit Anmerkungen versehen konnte.
An einem anderen Punkt zeigte Huet, wie die Realtime API mit einem Menschen telefonieren und sich über die Essensbestellung für eine Veranstaltung erkundigen kann. Im Gegensatz zu Googles berüchtigtem Duo kann die API von OpenAI Restaurants oder Geschäfte nicht direkt aufrufen; Zu diesem Zweck kann es jedoch in aufrufende APIs wie Twilio integriert werden. Insbesondere OpenAI ist es nicht Offenlegungen hinzufügen, damit sich seine KI-Modelle bei Anrufen wie diesem automatisch identifizieren, obwohl diese KI-generierten Stimmen recht realistisch klingen. Derzeit scheint es in der Verantwortung der Entwickler zu liegen, diese Offenlegung hinzuzufügen, was möglicherweise durch ein neues kalifornisches Gesetz vorgeschrieben wird.
Als Teil seiner DevDay-Ankündigungen führte OpenAI auch eine visuelle Feinabstimmung in seiner API ein, die es Entwicklern ermöglichen wird, sowohl Bilder als auch Text zu verwenden, um ihre Anwendungen von GPT-4o zu optimieren. Theoretisch sollte dies Entwicklern dabei helfen, die Leistung von GPT-4o für Aufgaben zu verbessern, bei denen es um visuelles Verständnis geht. Olivier Godement, Leiter der Produkt-API bei OpenAI, teilt TechCrunch mit, dass Entwickler keine urheberrechtlich geschützten Bilder (z. B. ein Bild von Donald Duck), Bilder, die Gewalt darstellen, oder andere Bilder, die gegen die Sicherheitsrichtlinien von OpenAI verstoßen, hochladen können.
OpenAI kämpft darum, mit dem mitzuhalten, was seine Konkurrenten im Bereich der Lizenzierung von KI-Modellen bereits bieten. Seine Prompt-Caching-Funktion ähnelt der Funktion, die Anthropic vor einigen Monaten eingeführt hat und die es Entwicklern ermöglicht, häufig verwendeten Kontext zwischen API-Aufrufen zwischenzuspeichern, wodurch Kosten gesenkt und die Latenz verbessert werden. Laut OpenAI können Entwickler mit dieser Funktion 50 % sparen, während Anthropic verspricht einen Rabatt von 90 % dafür.
Schließlich bietet OpenAI eine Modelldestillationsfunktion an, mit der Entwickler größere KI-Modelle wie o1-preview und GPT-4o verwenden können, um kleinere Modelle wie GPT-4o mini zu optimieren. Das Ausführen kleinerer Modelle bietet im Vergleich zum Ausführen größerer Modelle im Allgemeinen Kosteneinsparungen. Mit dieser Funktion sollten Entwickler jedoch die Leistung dieser kleinen KI-Modelle verbessern können. Als Teil der Modelldestillation bringt OpenAI ein Beta-Bewertungstool auf den Markt, damit Entwickler die Leistung ihrer Feinabstimmung innerhalb der OpenAI-API messen können.