Vision-Language Pre-Training: Grundlagen, aktuelle Fortschritte und zukünftige Trends

Vision-Language Pre-Training: Grundlagen, aktuelle Fortschritte und zukünftige Trends (Zhe Gan)

Originaltitel:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Inhalt des Buches:

Der Mensch nimmt die Welt über viele Kanäle wahr, z. B. über Bilder, die er mit den Augen sieht, oder über Stimmen, die er mit den Ohren hört. Obwohl jeder einzelne Kanal unvollständig oder verrauscht sein kann, kann der Mensch auf natürliche Weise die aus mehreren Kanälen gesammelten Informationen abgleichen und zusammenführen, um die Schlüsselkonzepte zu erfassen, die für ein besseres Verständnis der Welt erforderlich sind.

Eines der wichtigsten Ziele im Bereich der künstlichen Intelligenz (KI) ist es, Algorithmen zu entwickeln, die Computer in die Lage versetzen, effektiv aus multimodalen (oder mehrkanaligen) Daten zu lernen. Diese Daten sind vergleichbar mit den visuellen und sprachlichen Eindrücken, die dem Menschen helfen, die Welt um uns herum zu verstehen. Computer könnten beispielsweise diese Fähigkeit nachahmen, indem sie die relevantesten Bilder zu einer Textabfrage suchen (oder umgekehrt) und den Inhalt eines Bildes mit natürlicher Sprache beschreiben. Vision-and-Language (VL), ein populäres Forschungsgebiet, das an der Schnittstelle zwischen Computer Vision und Natural Language Processing (NLP) angesiedelt ist, zielt darauf ab, dieses Ziel zu erreichen.

Diese Monographie gibt einen Überblick über die in den letzten Jahren entwickelten VLP-Methoden (Vision-Language Pre-Training) für multimodale Intelligenz. Die Ansätze werden in drei Kategorien eingeteilt: (i) VLP für Bild-Text-Aufgaben, wie z.B. Bildunterschriften, Bild-Text-Retrieval, Beantwortung visueller Fragen und visuelles Grounding; (ii) VLP für zentrale Computer-Vision-Aufgaben, wie z.B. (open-set) Bildklassifikation, Objekterkennung und Segmentierung; und (iii) VLP für Video-Text-Aufgaben, wie z.B. Video-Unterschriften, Video-Text-Retrieval und Beantwortung von Video-Fragen. Für jede Kategorie wird ein umfassender Überblick über den aktuellen Stand der Technik gegeben, und die erzielten Fortschritte sowie die noch bestehenden Herausforderungen werden anhand spezifischer Systeme und Modelle als Fallstudien diskutiert. Darüber hinaus werden für jede Kategorie fortgeschrittene Themen vorgestellt, die in der Forschungsgemeinschaft aktiv erforscht werden, wie z. B. Big-Foundation-Modelle, einheitliche Modellierung, kontextbezogenes Lernen mit wenigen Aufnahmen, Wissen, Robustheit und Computer Vision in freier Wildbahn, um nur einige zu nennen.

Weitere Daten des Buches:

ISBN:9781638281320
Autor:
Verlag:
Sprache:Englisch
Einband:Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Ich kaufe es!

Weitere Bücher des Autors:

Vision-Language Pre-Training: Grundlagen, aktuelle Fortschritte und zukünftige Trends -...
Der Mensch nimmt die Welt über viele Kanäle wahr, z. B. über...
Vision-Language Pre-Training: Grundlagen, aktuelle Fortschritte und zukünftige Trends - Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: