Der nächste große Moment in der KI ist in Sicht – im wahrsten Sinne des Wortes.
Heute sind weltweit über 1,5 Milliarden Unternehmenskameras im Einsatz, die jährlich rund 7 Billionen Stunden Videomaterial produzieren. Doch nur ein Bruchteil davon wird analysiert.
Schätzungsweise werden weniger als 1 % der Videos von Industriekameras live von Menschen angesehen, was bedeutet, dass kritische Betriebsvorfälle weitgehend unbemerkt bleiben können.
Dies ist mit hohen Kosten verbunden. Beispielsweise verlieren Hersteller jährlich Billionen von Dollar durch mangelhafte Produktqualität oder Mängel, die sie früher hätten erkennen oder sogar vorhersagen können, wenn sie KI-Agenten eingesetzt hätten, die wahrnehmen, analysieren und Menschen bei der Reaktion unterstützen können.
Interaktive KI-Agenten mit integrierten visuellen Wahrnehmungsfunktionen können als ständig verfügbare Videoanalysten fungieren und so dazu beitragen, dass Fabriken effizienter laufen, die Sicherheit der Arbeiter verbessert wird, der Verkehr reibungslos läuft und sogar die Leistung eines Sportlers verbessert wird.
Um die Erstellung solcher Agenten zu beschleunigen, hat NVIDIA heute einen frühen Zugriff auf eine neue Version des NVIDIA AI Blueprint für die Videosuche und -zusammenfassung angekündigt . Der Blueprint basiert auf der NVIDIA Metropolis -Plattform und wird jetzt durch NVIDIA Cosmos Nemotron Vision Language Models (VLMs), NVIDIA Llama Nemotron Large Language Models (LLMs) und NVIDIA NeMo Retriever unterstützt . Er bietet Entwicklern die Tools zum Erstellen und Bereitstellen von KI-Agenten, die große Mengen an Video- und Bildinhalten analysieren können.
Der Entwurf integriert die NVIDIA AI Enterprise -Softwareplattform – die NVIDIA NIM- Mikroservices für VLMs, LLMs und erweiterte KI-Frameworks für die abruferweiterte Generierung umfasst – und ermöglicht so eine Stapelverarbeitung von Videos, die 30-mal schneller ist als die Echtzeitwiedergabe.
Der Entwurf enthält mehrere Funktionen der agentenbasierten KI – beispielsweise Gedankenkettenschlussfolgerung, Aufgabenplanung und Tool-Aufruf – die Entwicklern dabei helfen können, die Erstellung leistungsstarker und vielfältiger visueller Agenten zur Lösung einer Reihe von Problemen zu optimieren.
KI-Agenten mit Videoanalysefähigkeiten können mit anderen Agenten mit unterschiedlichen Fähigkeiten kombiniert werden, um noch anspruchsvollere agentenbasierte KI-Dienste zu ermöglichen. Unternehmen haben die Flexibilität, ihre KI-Agenten vom Edge bis zur Cloud zu erstellen und bereitzustellen.
Wie Videoanalyst-KI-Agenten Industrieunternehmen helfen können
KI-Agenten mit visueller Wahrnehmung und Analysefähigkeiten können optimiert werden, um Unternehmen bei industriellen Abläufen zu unterstützen, indem sie:
- Produktivitätssteigerung und Abfallreduzierung: Agenten können dazu beitragen, dass bei komplexen industriellen Prozessen wie der Produktmontage die Standardverfahren eingehalten werden. Sie können auch fein abgestimmt werden, um nuancierte Aktionen und die Reihenfolge, in der sie ausgeführt werden, sorgfältig zu beobachten und zu verstehen.
- Steigerung der Effizienz des Asset Managements durch bessere Raumnutzung: Agenten können zur Optimierung der Bestandslagerung in Lagern beitragen, indem sie 3D-Volumenschätzungen durchführen und das Verständnis über verschiedene Kamera-Streams hinweg zentralisieren.
- Verbesserung der Sicherheit durch automatische Generierung von Unfallberichten und -zusammenfassungen: Agenten können große Videomengen verarbeiten und diese in kontextbezogene informative Unfallberichte zusammenfassen. Sie können auch dazu beitragen, die Einhaltung der Vorschriften zur persönlichen Schutzausrüstung in Fabriken sicherzustellen und so die Sicherheit der Arbeiter in industriellen Umgebungen zu verbessern.
- Vermeidung von Unfällen und Produktionsproblemen: KI-Agenten können atypische Aktivitäten identifizieren und so Betriebs- und Sicherheitsrisiken schnell eindämmen, sei es in einem Lager, einer Fabrik oder einem Flughafen, an einer Verkehrskreuzung oder in einer anderen städtischen Umgebung.
- Aus der Vergangenheit lernen: Agenten können die Videoarchive von Operationen durchsuchen, relevante Informationen aus der Vergangenheit finden und diese zur Lösung von Problemen oder zur Erstellung neuer Prozesse verwenden.
Videoanalysten für Sport, Unterhaltung und mehr
Eine weitere Branche, in der KI-Agenten für die Videoanalyse von Bedeutung sein könnten, ist der Sport – ein weltweiter 500-Milliarden-Dollar-Markt, für den für die nächsten Jahre ein Wachstum von mehreren hundert Milliarden Dollar prognostiziert wird.
Trainer, Teams und Ligen – ob Profis oder Amateure – verlassen sich auf Videoanalysen, um die Leistung der Spieler zu bewerten und zu verbessern, die Sicherheit zu priorisieren und das Engagement der Fans durch Spieleranalyseplattformen und Datenvisualisierung zu steigern. Mit visuell wahrnehmenden KI-Agenten haben Sportler jetzt beispiellosen Zugang zu tieferen Erkenntnissen und Verbesserungsmöglichkeiten.
Während seiner Keynote zur Eröffnung der CES demonstrierte NVIDIA-Gründer und CEO Jensen Huang einen KI-Videoanalyse-Agenten, der die Fähigkeiten eines Amateur-Baseballspielers beim Fastball-Werfen mit denen eines Profis verglich. Anhand von Videoaufnahmen des zeremoniellen ersten Pitches, den Huang für das Baseballteam der San Francisco Giants warf, konnte der KI-Videoanalyse-Agent Verbesserungspotenziale aufzeigen.
Auch die 3 Billionen Dollar schwere Medien- und Unterhaltungsbranche wird von KI-Agenten für Videoanalysen profitieren. Im Rahmen der NVIDIA Media2-Initiative werden diese Agenten dazu beitragen, intelligentere, besser zugeschnittene und wirkungsvollere Inhalte zu erstellen, die sich an die individuellen Vorlieben der Zuschauer anpassen können.
Weltweite Einführung und Verfügbarkeit
Partner aus aller Welt integrieren die Blaupause zum Erstellen von KI-Agenten für die Videoanalyse in ihre eigenen Entwickler-Workflows, darunter Accenture, Centific, Deloitte, EY, Infosys, Linker Vision , Pegatron, TATA Consultancy Services (TCS) , Telit Cinterion und VAST .