CES 2025: NVIDIA führt Cosmos World Foundation-Modellplattform ein, um die Entwicklung physischer KI zu beschleunigen

NVIDIA hat heute NVIDIA Cosmos ™ angekündigt , eine Plattform mit hochmodernen generativen Weltgrundlagenmodellen , fortschrittlichen Tokenizern, Leitplanken und einer beschleunigten Videoverarbeitungspipeline, die die Entwicklung physischer KI- Systeme wie autonomer Fahrzeuge (AVs) und Roboter vorantreiben soll .

Die Entwicklung physischer KI-Modelle ist kostspielig und erfordert große Mengen realer Daten und Tests. Cosmos World Foundation Models (WFMs) bieten Entwicklern eine einfache Möglichkeit, große Mengen fotorealistischer, physikbasierter synthetischer Daten zu generieren , um ihre vorhandenen Modelle zu trainieren und zu bewerten. Entwickler können auch benutzerdefinierte Modelle erstellen, indem sie Cosmos WFMs optimieren.

Cosmos-Modelle werden unter einer offenen Modelllizenz verfügbar sein, um die Arbeit der Robotik- und AV-Community zu beschleunigen. Entwickler können die ersten Modelle im NVIDIA API-Katalog in der Vorschau anzeigen oder die Modellfamilie und das Feinabstimmungsframework aus dem NVIDIA NGC™-Katalog oder Hugging Face herunterladen .

Führende Robotik- und Automobilunternehmen, darunter 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot Hillbot , IntBot , Neura Robotics , Skild AI, Virtual Incision, Waabi und XPENG, sowie der Mitfahrgigant Uber gehören zu den Ersten, die Cosmos einsetzen.

„Der ChatGPT-Moment für die Robotik kommt. Wie große Sprachmodelle sind Weltbasismodelle von grundlegender Bedeutung für die Weiterentwicklung der Roboter- und AV-Entwicklung, doch nicht alle Entwickler verfügen über das Fachwissen und die Ressourcen, um ihre eigenen zu trainieren“, sagte Jensen Huang, Gründer und CEO von NVIDIA. „Wir haben Cosmos entwickelt, um physische KI zu demokratisieren und allgemeine Robotik für jeden Entwickler zugänglich zu machen.“

Open World Foundation-Modelle zur Beschleunigung der nächsten KI-Welle –
Dank der Suite offener Modelle von NVIDIA Cosmos können Entwickler die WFMs entsprechend den Anforderungen ihrer Zielanwendung mit Datensätzen wie Videoaufzeichnungen von AV-Fahrten oder Robotern, die durch ein Lager navigieren, anpassen .

Cosmos WFMs sind speziell für die Forschung und Entwicklung im Bereich der physischen KI konzipiert und können physikbasierte Videos aus einer Kombination von Eingaben wie Text, Bild und Video sowie Robotersensor- oder Bewegungsdaten generieren. Die Modelle sind für physikbasierte Interaktionen, Objektpermanenz und die qualitativ hochwertige Generierung simulierter Industrieumgebungen – wie Lagerhallen oder Fabriken – und Fahrumgebungen, einschließlich verschiedener Straßenbedingungen, konzipiert.

In seiner Eröffnungs- Keynote auf der CES präsentierte NVIDIA-Gründer und CEO Jensen Huang Möglichkeiten, wie Entwickler physischer KI Cosmos-Modelle unter anderem für Folgendes nutzen können:

  • Mithilfe der Videosuche und -verständlichkeit können Entwickler anhand der Videodaten problemlos bestimmte Trainingsszenarien ermitteln, beispielsweise verschneite Straßenverhältnisse oder Lagerüberlastungen.
  • Physikbasierte fotorealistische synthetische Datengenerierung unter Verwendung von Cosmos-Modellen zur Generierung fotorealistischer Videos aus kontrollierten 3D-Szenarien, die auf der NVIDIA Omniverse ™-Plattform entwickelt wurden.
  • Entwicklung und Bewertung physischer KI-Modelle, sei es beim Erstellen eines benutzerdefinierten Modells auf Grundlage der Basismodelle, beim Verbessern der Modelle mithilfe von Cosmos für bestärkendes Lernen oder beim Testen ihrer Leistung in einem bestimmten simulierten Szenario.
  • Vorausschau und „Multiversum“-Simulation unter Verwendung von Cosmos und Omniverse, um jedes mögliche zukünftige Ergebnis eines KI-Modells zu generieren und ihm so bei der Auswahl des besten und genauesten Pfads zu helfen.

Fortgeschrittene Tools zur Entwicklung von Weltmodellen
Der Aufbau physischer KI-Modelle erfordert Petabyte an Videodaten und Zehntausende von Rechenstunden, um diese Daten zu verarbeiten, zu kuratieren und zu kennzeichnen. Um enorme Kosten bei der Datenkuratierung, dem Training und der Modellanpassung zu sparen, bietet Cosmos folgende Funktionen:

  • Eine NVIDIA AI- und CUDA®-beschleunigte Datenverarbeitungspipeline, unterstützt durch NVIDIA NeMo™ Curator , die es Entwicklern ermöglicht, mit der NVIDIA Blackwell-Plattform 20 Millionen Stunden Video in 14 Tagen zu verarbeiten, zu kuratieren und zu beschriften, statt mit einer reinen CPU-Pipeline über drei Jahre.
  • NVIDIA Cosmos Tokenizer , ein hochmoderner visueller Tokenizer zum Konvertieren von Bildern und Videos in Token. Er bietet 8-mal mehr Gesamtkomprimierung und 12-mal schnellere Verarbeitung als die derzeit führenden Tokenizer.
  • Das NVIDIA NeMo- Framework für hocheffizientes Modelltraining, -anpassung und -optimierung.

Die weltweit größten Branchen für physische KI übernehmen Cosmos
. Pioniere in der gesamten Branche der physischen KI übernehmen bereits Cosmos-Technologien.

1X, ein Unternehmen für KI und humanoide Roboter, hat den 1X World Model Challenge- Datensatz mithilfe von Cosmos Tokenizer gestartet. XPENG wird Cosmos verwenden, um die Entwicklung seines humanoiden Roboters zu beschleunigen. Und Hillbot und Skild AI verwenden Cosmos, um die Entwicklung ihrer Allzweckroboter zu beschleunigen.

„Datenknappheit und -variabilität sind die größten Herausforderungen für erfolgreiches Lernen in Roboterumgebungen“, sagte Pras Velagapudi, Chief Technology Officer bei Agility. „Mithilfe der Text-, Bild- und Video-to-World-Funktionen von Cosmos können wir fotorealistische Szenarien für eine Vielzahl von Aufgaben erstellen und erweitern, mit denen wir Modelle trainieren können, ohne so viele teure, reale Daten erfassen zu müssen.“

Führende Transportunternehmen nutzen Cosmos auch, um physische KI für autonome Fahrzeuge zu entwickeln:

  • Waabi, ein Unternehmen, das beginnend mit autonomen Fahrzeugen Pionierarbeit im Bereich generativer KI für die physische Welt leistet, bewertet Cosmos im Kontext der Datenkuratierung für die Entwicklung und Simulation von AV-Software.
  • Wayve entwickelt KI-Grundmodelle für autonomes Fahren und prüft Cosmos als Tool zur Suche nach Grenz- und Sonderfall-Fahrszenarien, die für die Sicherheit und Validierung verwendet werden.
  • Der AV-Toolchain-Anbieter Foretellix wird Cosmos zusammen mit NVIDIA Omniverse Sensor RTX APIs verwenden , um hochpräzise Testszenarien und Trainingsdaten im großen Maßstab zu bewerten und zu generieren.
  • Der globale Fahrdienstgigant Uber arbeitet mit NVIDIA zusammen, um autonome Mobilität voranzutreiben. Umfangreiche Fahrdatensätze von Uber, kombiniert mit den Funktionen der Cosmos-Plattform und NVIDIA DGX Cloud ™, können AV-Partnern dabei helfen, noch effizienter leistungsfähigere KI-Modelle zu erstellen.

„Generative KI wird die Zukunft der Mobilität vorantreiben und erfordert sowohl umfangreiche Daten als auch sehr leistungsstarke Rechenleistung“, sagte Dara Khosrowshahi, CEO von Uber. „Durch die Zusammenarbeit mit NVIDIA sind wir zuversichtlich, dass wir dazu beitragen können, den Zeitplan für sichere und skalierbare autonome Fahrlösungen für die Branche zu beschleunigen.“

Entwicklung einer offenen, sicheren und verantwortungsvollen KI
NVIDIA Cosmos wurde im Einklang mit den vertrauenswürdigen KI- Prinzipien von NVIDIA entwickelt , bei denen Datenschutz, Sicherheit, Transparenz und die Reduzierung unerwünschter Voreingenommenheit im Vordergrund stehen.

Vertrauenswürdige KI ist unerlässlich, um Innovationen innerhalb der Entwickler-Community zu fördern und das Vertrauen der Benutzer aufrechtzuerhalten. NVIDIA setzt sich für sichere und vertrauenswürdige KI ein, im Einklang mit den freiwilligen KI-Verpflichtungen des Weißen Hauses und anderen globalen KI-Sicherheitsinitiativen.

Die offene Cosmos-Plattform enthält Schutzmaßnahmen zur Vermeidung schädlicher Texte und Bilder und bietet ein Tool zur Verbesserung der Genauigkeit von Textaufforderungen. Mit den autoregressiven und Diffusionsmodellen von Cosmos im NVIDIA-API-Katalog generierte Videos enthalten unsichtbare Wasserzeichen zur Identifizierung von KI-generierten Inhalten und tragen so dazu bei, das Risiko von Fehlinformationen und Fehlzuordnungen zu verringern.

NVIDIA ermutigt Entwickler, vertrauenswürdige KI-Praktiken zu übernehmen und Leitplanken- und Wasserzeichenlösungen für ihre Anwendungen weiter zu verbessern.

Verfügbarkeit

Cosmos WFMs sind jetzt unter der Open-Model-Lizenz von NVIDIA auf Hugging Face und im NVIDIA NGC-Katalog verfügbar. Cosmos-Modelle werden in Kürze als vollständig optimierte NVIDIA NIM- Mikroservices verfügbar sein.

Entwickler können auf NVIDIA NeMo Curator für beschleunigte Videoverarbeitung zugreifen und mit NVIDIA NeMo ihre eigenen Weltmodelle anpassen . NVIDIA DGX Cloud bietet eine schnelle und einfache Möglichkeit, diese Modelle bereitzustellen, wobei Unternehmensunterstützung über die NVIDIA AI Enterprise -Softwareplattform verfügbar ist.

NVIDIA kündigte außerdem neue große NVIDIA Llama Nemotron-Sprachmodelle und NVIDIA Cosmos Nemotron-Vision-Sprachmodelle an , die Entwickler für unternehmensweite KI-Anwendungsfälle im Gesundheitswesen, bei Finanzdienstleistungen, in der Fertigung und mehr verwenden können.