Molmo von AI2 zeigt, dass Open Source mit geschlossenen multimodalen Modellen mithalten und sie übertreffen kann

Die allgemeine Meinung ist, dass Unternehmen wie Google, OpenAI und Anthropic mit ihren bodenlosen Geldreserven und Hunderten von Spitzenforschern die einzigen sind, die ein hochmodernes Stiftungsmodell entwickeln können. Aber als einer von ihnen bekanntlich bemerktsie „haben keinen Burggraben“ – und AI2 hat dies heute mit der Veröffentlichung von Mundein multimodales KI-Modell, das ihren Anforderungen am besten entspricht und gleichzeitig klein, kostenlos und wirklich Open Source ist.

Um es klar zu sagen: Molmo (multimodales offenes Sprachmodell) ist eine visuelle Verständnis-Engine, kein Full-Service-Chatbot wie ChatGPT. Es hat keine API, ist nicht bereit für die Unternehmensintegration und durchsucht das Internet nicht für Sie oder für seine eigenen Zwecke. Sie können es sich als den Teil dieser Modelle vorstellen, der ein Bild sieht, es versteht und Fragen dazu beschreiben oder beantworten kann.

Molmo (erhältlich in den Parametervarianten 72B, 7B und 1B) ist wie andere multimodale Modelle in der Lage, Fragen zu nahezu jeder Alltagssituation oder jedem Gegenstand zu erkennen und zu beantworten. Wie funktioniert diese Kaffeemaschine? Wie viele Hunde auf diesem Bild haben ihre Zungen rausgestreckt? Welche Optionen auf dieser Speisekarte sind vegan? Was sind die Variablen in diesem Diagramm? Es handelt sich um die Art von visueller Verständnisaufgabe, die wir seit Jahren mit unterschiedlichem Erfolg und unterschiedlicher Latenzzeit demonstriert sehen.

Der Unterschied besteht nicht unbedingt in den Fähigkeiten von Molmo (die Sie in der Demo unten sehen oder testen können). Hier), sondern wie diese Ziele erreicht werden.

Share this:

Must Read

Leave a Comment Cancel Reply