Datenanalysen mit multimodaler KI

Für das nächste Meeting müssen Analysen, Präsentationen, Berichte und Projektpläne studiert werden, aber die Zeit ist knapp und die Menge an Informationen überwältigend.

Für viele von uns ist es Inhalte schnell zu verstehen, zu bewerten und zusammenzufassen. Häufig liegen die Inhalte in PowerPoint- oder PDF-Dateien vor und beinhalten Texte, Tabellen und Bilder. In der KI-Therminologie spricht man dabei von Modalitäten. Mit dem Einsatz von multimodaler KI gelingt Ihnen die Datenanalysen.

So gelingt die Datenanalyse mit KI

Nicht jede KI ist für die Analyse komplexer Inhalte geeignet. Einige Modelle arbeiten nur mit reinem Text. Wer jedoch Tabellen und Bilder gleichzeitig auswerten möchte, sollte ein multimodales KI-System wählen, das alle Inhalte erkennen und sinnvoll verarbeiten kann. Um durch die Informationsflut effizient zu navigieren, bietet sich der Einsatz von multimodalen KI-Systemen an.

Datenanalyse multimodale KI

Mit Benchmark zum Besten multimodalen KI-Modell

Der übliche Weg ist es, verschiedene Modelle anhand sogenannter Benchmarks zu vergleichen. Ein Benchmark ist ein standardisierter Test, mit dem verschiedene KI-Systeme unter denselben Bedingungen verglichen werden. Man kann ihn sich wie die Bundesjugendspiele vorstellen, bei denen Schülerinnen und Schüler in mehreren Disziplinen antreten und Punkte sammeln. Jede Disziplin liefert Punkte, und am Ende bekommt jeder Teilnehmende eine Urkunde mit dem Gesamtergebnis.

Die Disziplinen sind dabei verschiedene Aufgaben oder Leistungsaspekte eines KI-Modells, zum Beispiel:

Visual Math Reasoning (Mathematische Aufgaben anhand von Bildern lösen)
Verstehen von mehrsprachigen Präsentationen
Chart Understanding (Diagramme lessen können)
OCR (Texterkennung in Bildern)

Der Ablauf eines KI-Benchmarks simpel erklärt

· Der KI werden Bilder, Diagramme oder Texte gezeigt
· Die KI bekommt Fragen dazu gestellt
· Liefert die KI die richtige Antwort, erhält sie dafür Punkte

Je mehr Punkte ein KI-Modell in diesen verschiedenen Aufgaben (Disziplinen) erreicht, desto besser hat es im Benchmark abgeschnitten. Auf diese Weise kann man feststellen, in welchen Bereichen ein Modell besonders stark ist und wo es noch Schwächen hat.

Disziplinen in denen sich KI-Modelle messen

GPT-o1 im MMMU-Pro-Benchmark

Die MMMU-Pro-Benchmark („Multi-Modal, Multi-Task Unified Benchmark – Professional“) ist ein Testverfahren, mit dem man die Fähigkeiten von KI-Sprachmodellen und menschlichen Experten vergleicht. Dabei geht es z. B. um das Verstehen und Beantworten von Fachfragen aus verschiedenen Wissensgebieten, oft in Form von Multiple-Choice-Aufgaben. Das Ziel der Benchmark ist, die Qualität, Breite und Tiefe des Wissens zu messen und zu sehen, wie gut KI-Systeme im Vergleich zu menschlichen Experten abschneiden.

Am besten schneiden versierte menschliche Experten ab (Score 88,6), gefolgt von Experten mittlerer Qualifikation (Score 82,6).
Den dritten Platz erkämpft sich GPT-o1 von OpenAI. Mit einem Score von 78,2 liegt es noch vor den Ergebnissen, die ein wenig versierter Mensch erzielt (78,0). Dies zeigt, dass KI bereits heute für viele Aufgaben eine ernstzunehmende Alternative zur menschlichen Arbeit ist.

Die nächste drei Plätzen teilen sich Spark4.0-Turbo, QVQ und InternVL untereinander auf. Hierbei handelt es sich um Modelle chinesischer Anbieter. Diese bieten eine beachtliche Leistungsfähigkeit, von deren Nutzung in der Cloud ist allerdings aus Gründen des Datenschutzes aber abzuraten. Das derzeit heiß diskutierte DeepSeek taucht in diesem Ranking übrigens nicht auf, da es in seiner neusten Version keine multimodalen Fähigkeiten besitzt.

Prompting Techniken bei der Datenanalyse mit multimodaler KI

Few-Shot Prompting

Few-Shot Prompting gibt Ihnen die Möglichkeit, ein KI-Modell mit wenigen Beispielen in den gewünschten Stil oder die gewünschte Analysemethode einzuführen. Ein Beispiel-Prompt:
Sie sind ein Marketing-Datenexperte. Bitte extrahieren Sie alle relevanten Erfolgskennzahlen aus den folgenden Folien einer Social-Media-Kampagne und listen Sie sie übersichtlich auf. Achten Sie auch auf Auffälligkeiten in den Daten. Beispiel für auszugebende Kennzahlen:

–   Reichweite: 20.000 Personen
–   Engagement Rate: 2,5 %
–   Klickzahlen: 1.500
–   Bestellungen: 50
–   Conversion Rate: 3,3 %

Die Conversion Rate ist im Verhältnis zur Reichweite relativ hoch. Eventuell könnte eine genauere Segmentierung der Zielgruppe zusätzliche Erkenntnisse liefern.

Chain-of-Thought Prompting

Chain-of-Thought Prompting lässt das Modell seine Denkschritte offener darlegen. Es zerlegt die Folien zunächst in Teilaspekte und erläutert dann, wie es zu bestimmten Schlussfolgerungen gelangt. Ein Beispiel-Prompt:
Sie sind ein Spezialist für Unternehmensanalysen. Bitte gehen Sie Folie für Folie durch und zerlegen Sie die präsentierten Informationen zunächst in folgende Aspekte:

–   Wichtige Kennzahlen (z. B. Umsatz, Kosten, Gewinn)
–   Strategische Maßnahmen (z. B. Investitionen, Produktpipeline)
–   Risiken und Chancen (z. B. Marktumfeld, Wettbewerber)

Fassen Sie anschließend zusammen, welche Zukunftsaussichten sich aus diesen Punkten ergeben. Legen Sie Ihren Gedankengang Schritt für Schritt offen („Chain of Thought“), damit klar wird, weshalb Sie zu Ihren Einschätzungen kommen.

Self-Consistency Prompting

Self-Consistency bittet das Modell, mehrere Antworten zu generieren und diese zu vergleichen, um eine stimmige Gesamtaussage zu treffen. Ein Beispiel-Prompt:

Sie sind eine erfahrene Projektmanagerin, spezialisiert auf die Planung und Bewertung von Softwareentwicklungsprojekten. Bitte analysieren Sie den folgenden Projektplan hinsichtlich seiner Machbarkeit und Risikofaktoren. Legen Sie dabei besonderes Augenmerk auf:
–   Zeitplanung (Meilensteine, Deadlines)
–   Ressourcen (Personal, Budget)
–   Risiken (Technische Unsicherheiten, Abhängigkeiten)

Erstellen Sie drei unterschiedliche Versionen Ihrer Analyse (Analyse A, B, C). Geben Sie in jeder Version an:
–   Welche Annahmen Sie treffen
–   Wo Unsicherheiten liegen
–   Wie Sie mögliche Probleme priorisieren

Schließen Sie anschließend mit einer Self-Consistency-Bewertung ab: Entscheiden Sie, welche Ihrer drei Versionen Sie als die plausibelste betrachten, und begründen Sie diese Wahl. Bitte listen Sie alle Gedanken sowie den Entscheidungsprozess transparent auf.

Bei der Auswahl des KI-Modells auf Datenschutz- und Compliance-Anforderungen achten!

Fazit der Datenanalyse mit multimodaler KI

Für die DatenAnalyse von Inhalten inklusive Text, Tabellen und Bildern – sind vor allem multimodale KI-Modelle geeignet, da sie verschiedene „Modalitäten“ gleichzeitig verarbeiten können. Die vorgestellten Benchmarks zeigen, dass KI-Systeme heutzutage bereits eine beachtliche Leistungsfähigkeit besitzen: So erreicht GPT-o1 (OpenAI) in der MMMU-Pro-Benchmark einen Score von 78,2 und übertrifft damit sogar Menschen mit wenig Erfahrung. Mindestens genauso wichtig wie die Wahl der KI ist die Verwendung der richtigen Prompting-Technik. Hier bieten sich vor allem Few-Shot Prompting, Chain-of-Thought und Self-Consistency an.
Dennoch sollte immer bedacht werden, dass der konkrete Einsatzzweck sowie Datenschutz- und Compliance Anforderungen bei der Auswahl des passenden Modells eine große Rolle spielen. Gerade wenn sensible Daten involviert sind, ist die Nutzung von Cloud-Lösungen von Anbietern außerhalb der EU mit Vorsicht zu genießen.

Nach oben scrollen