Datenanalyse mit Auto-ML und Python
Unternehmen stehen heute vor einer schier unüberschaubaren Menge an Entscheidungen. Wo investieren wir? Welche Produkte wollen unsere Kunden wirklich? Und, ganz entscheidend: Wo liegen die Risiken? Data Analytics hilft, diese Fragen auf eine fundierte und logische Weise zu beantworten.

Analytic Plattformen setzen auf KI
Die Analytics-Tools Tableau, IBM Cognos und Qlik sind nur drei Beispiele, bei denen die Hersteller aktiv mit den Vorzügen von KI-Funktionen werben

Nachteile von Analytic–Tools
Kostenintensive Lizenzen
Die Lizenzkosten für professionelle Analytics-Tools können erheblich sein. Besonders für kleine und mittlere Unternehmen oder Organisationen mit begrenztem Budget können diese hohen Kosten eine signifikante Hürde darstellen.
Datenschutz bei Cloud-Lösungen
Oft basieren Analytics-Tools auf Cloud-Lösungen. Datenschutzbestimmungen und der Schutz vertraulicher Unternehmensinformationen, können die Nutzung solcher Tools in bestimmten Branchen oder für bestimmte Anwendungsfälle einschränken.
Komplex und zeitintensiv
Besonders für Anfänger haben die Tools eine steile Lernkurve. Benutzer müssen sich oft intensiv in die spezifische Funktionsweise des jeweiligen Tools einarbeiten und möglicherweise zusätzliche Schulungen absolvieren um das volle Potenzial des Tools auszuschöpfen.


In diesem Fall generiert ChatGPT Data Analyst aus Kundenstatistiken verschiedene Persona
ChatGPT Data Analyst – intuitiv, aber nur bedingt geeignet
Erheblich kürzer ist die Einarbeitungszeit bei Verwendung eines Sprachmodells wie ChatGPT. Hier muss sich der Nutzer nicht in die Terminologie und den Klickflow eines Tools hineinversetzen. Vielmehr ist die KI bemüht, sich auf die Terminologie (also den aktiven Wortschatz) der Nutzers einzustellen.
Der ChatGPT Data Analyst ist eine spezialisierte Anwendung von ChatGPT, die darauf ausgerichtet ist, Unternehmen und Einzelpersonen bei der Analyse, Interpretation und Nutzung von Daten zu unterstützen. Im Kern handelt es sich um eine KI-gestützte Plattform, die sowohl Einsteigern als auch Experten dabei hilft, datenbezogene Aufgaben effizient zu lösen. Der ChatGPT Data Analyst ist über den openAI Appstore verfügbar. Die relevanten Daten werden per Drag-and-Drop hochgeladen. Der Nutzer kann beliebige Fragen zu den den Daten stellen. Im Gegensatz zu den zuvor erwähnten Tools ist praktisch keine Einarbeitung notwendig und diese Lösung bietet eine sehr hohe Flexibilität, denn ChatGPT kennt sehr viele Datenanalyse-Verfahren.
Nachteile des Data Analyst
Datenschutz bei Cloud-Lösungen
Wie bereits bei den Analytics-Tools basiert der ChatGPT Data Analyst auf einer Cloud-Lösung. Bei der Auswertung sensibler Daten entstehen erhebliche Bedenken in puncto Datensicherheit.
Ergebnisse nicht konstant
Die KI generiert ein Stück Programmcode und führt diesen aus. Anschließend liest die KI die Ausgabe des Programmcodes und zeigt dem Nutzer seine Interpretation an. Da der erzeugte Programmcode recht komplex werden kann, kommt es dabei häufig zu Fehlern.
Schneller, günstiger und zuverlässig:
Mistral, AutoML & Pyton
Für unsere Machbarkeitsstudie verwendeten wir mistral-large 2 in Kombination mit autoML-Verfahren der Python-Bibliotheken Auto-sklearn und TPOT. Lokal betrieben stellt das Sprachmodell den Datenschutz sicher.


Innovativer, flexibler Ansatz ohne Nachteile
Einfacher Prompt
Der Nutzer lädt die zu analysierenden Daten hoch und beschreibt die durchzuführende Analyse als Prompt.
Automatische Wahl des Verfahrens
Das Sprachmodell wählt ein zum Prompt passendes Analyseverfahren aus.
Validierter Programmcode
Das gewählte Verfahren liegt bereits als fertiger und von einem Menschen validierten Programmcode vor. Dieser Code wird nun ausgeführt. In diesem Schritt müssen bestimmte Einstellungen am Lernverfahren vorgenommen werden. Diese Einstellungen werden Hyperparameter genannt. Das passiert automatisch mit Hilfe sogenannter autoML-Algorithmen (autoML steht für automatisiertes Maschinelles Lernen)
Interpretation als Textausgabe
Die KI interpretiert die Berechnungsergebnisse und gibt sie dem Nutzer als Text aus.
Dieses Vorgehen ist erheblich zuverlässiger als der aktuelle Ansatz der Firma OpenAI. Allerdings müssen die angewandten Verfahren vorprogrammiert werden.
Fazit
Sprachmodelle wie ChatGPT machen Datenanalysen intuitiv und benutzerfreundlich, erfordern jedoch erhebliche Verbesserungen bei Datensicherheit und Zuverlässigkeit. Ein kombinierter Ansatz mit AutoML, der validierten Code und KI-basierte Interpretation vereint, bietet eine vielversprechende Alternative. Diese Methode ermöglicht eine robustere und sicherere Datenanalyse.