Lektion 3 15 Min.

Datenbereinigung mit KI

KI-gestuetzte Techniken fuer saubere Daten: Datumsformate korrigieren, Duplikate entfernen, Formate vereinheitlichen und fehlende Werte behandeln.

Du hast gerade eine Tabelle vom Mandanten bekommen. Die Datumsangaben sind in drei verschiedenen Formaten. Firmennamen stehen mal als „Mueller GmbH", mal als „MUELLER GMBH", mal als „mueller gmbh". Es gibt 47 Duplikate und zufaellig verteilte leere Zellen.

Das ist Realitaet. Und genau hier spart KI am meisten Zeit.

🔄 Quick Recall: In der letzten Lektion hast du das KONTEXT → AUFGABE → EINSCHRAENKUNGEN → ERGEBNIS Prompt-Framework gelernt. Das gleiche Framework nutzt du jetzt — aber statt Berechnungsformeln generierst du Bereinigungsformeln.

Der Datenbereinigungsworkflow

Bevor wir in die KI-Prompts eintauchen, hier die Reihenfolge, die am besten funktioniert:

  1. Duplikate entfernen — Datensatz erst mal verkleinern
  2. Formate vereinheitlichen — Datumsangaben, Namen, Kategorien, Telefonnummern
  3. Fehlende Werte behandeln — Leere Zellen fuellen, markieren oder entfernen
  4. Validieren — Bereinigte Daten gegen bekannte Werte pruefen

Jeden Schritt gehen wir mit KI-Prompts durch.

Schritt 1: Duplikate finden und entfernen

Das Problem: Dein Datensatz hat 2.000 Zeilen, aber manche Eintraege tauchen mehrfach auf — manchmal mit kleinen Abweichungen wie „Schmidt GmbH" vs. „Schmidt GmbH" (mit doppeltem Leerzeichen).

KI-Prompt:

„In Google Sheets habe ich Daten in den Spalten A bis E (Name, E-Mail, Telefon, Datum, Betrag). Erstelle eine Formel fuer Spalte F, die WAHR anzeigt, wenn die Zeile ein Duplikat basierend auf der E-Mail in Spalte B ist (Gross-/Kleinschreibung ignorieren). Das erste Vorkommen soll FALSCH zeigen, spätere Duplikate WAHR."

Tipp: Markiere Duplikate immer erst, bevor du loeschst. Manche „Duplikate" sind legitimerweise doppelt — zum Beispiel zwei Bestellungen vom gleichen Kunden.

Quick Check: Warum solltest du Duplikate markieren, bevor du sie loeschst? (Antwort: Manche scheinbaren Duplikate sind legitim — wie Folgebestellungen vom selben Kunden — die du nicht entfernen willst.)

Schritt 2: Formate vereinheitlichen

Inkonsistente Formate sind das haeufigste Datenproblem. KI-Prompts fuer die drei groessten Baustellen:

Datumsangaben — das deutsche Problem

In deutschen Tabellen stossen drei Welten aufeinander: deutsches Format (15.01.2026), internationales ISO-Format (2026-01-15) und amerikanisches Format (01/15/2026) aus importierten Daten.

Prompt:

„Spalte A hat Datumsangaben in gemischten Formaten: manche sind TT.MM.JJJJ (wie 15.01.2026), manche JJJJ-MM-TT (wie 2026-01-15) und manche als Text (wie ‚15. Januar 2026’). Erstelle eine Formel fuer Spalte B, die alle in das Format TT.MM.JJJJ konvertiert."

Namen und Firmennamen

Prompt:

„Spalte A hat Firmennamen in inkonsistenten Formaten: ‚Mueller GmbH’, ‚MUELLER GMBH’, ‚mueller gmbh’, ‚Mueller GmbH’ (mit Doppelleerzeichen). Erstelle eine Formel, die alle auf ‚Mueller GmbH’ mit korrekter Gross-/Kleinschreibung standardisiert und ueberfluessige Leerzeichen entfernt."

Der CSV-Import — warum es nie funktioniert

Deutsches Excel exportiert CSV-Dateien mit Semikolons als Trennzeichen, weil das Komma schon als Dezimaltrenner belegt ist. Wenn du internationale Daten importierst (US-CSV mit Komma-Trennern), entstehen sofort Probleme: Zahlen wie „1,234.56" werden als Text erkannt, Spalten kleben zusammen.

Prompt fuer den Import-Fix:

„Ich habe eine CSV-Datei aus einer US-Quelle importiert. Spalte A hat Zahlenwerte als Text im Format 1,234.56 (englisches Dezimalformat). Erstelle eine Formel, die diese in deutsche Zahlen konvertiert (1.234,56), damit Excel damit rechnen kann."

Quick Check: Warum ist es bei der Namensbereinigung wichtig, die vorhandenen inkonsistenten Formate im Prompt zu benennen? (Antwort: KI braucht die konkreten Varianten, um Logik fuer jeden Fall zu generieren — eine Formel fuer „MUELLER GMBH" ist anders als eine fuer „mueller gmbh".)

Schritt 3: Fehlende Werte behandeln

Leere Zellen brechen Formeln. So hilft KI:

Option A — Mit Standardwert fuellen:

„Spalte D hat einige leere Zellen. Erstelle eine Formel fuer Spalte E, die den Wert aus D kopiert, wenn er existiert, oder ‚k.A.’ anzeigt, wenn D leer ist."

Option B — Mit berechnetem Wert fuellen:

„Spalte C hat Umsatzzahlen, aber manche Zellen sind leer. Erstelle eine Formel, die Leerzellen mit dem Durchschnitt der vorhandenen Werte in Spalte C fuellt."

Option C — Zur Pruefung markieren:

„Erstelle eine Formel fuer Spalte F, die ‚UNVOLLSTAENDIG’ anzeigt, wenn irgendeine Zelle in den Spalten A bis E der Zeile leer ist, und ‚VOLLSTAENDIG’, wenn alle Werte vorhanden sind."

StrategieWann einsetzenPrompt-Muster
StandardwertUnkritische Felder (Notizen, Zusatzinfos)„Wenn leer, zeige [Standardwert]"
BerechnungZahlenwerte, wo Schaetzung akzeptabel ist„Wenn leer, verwende den Durchschnitt der Spalte"
MarkierungKritische Felder (IDs, Betraege, Termine)„Markiere Zeilen mit Luecken als UNVOLLSTAENDIG"

Schritt 4: Validierung

Nach der Bereinigung pruefst du deine Arbeit:

Prompt:

„Ich habe Daten in den Spalten A bis E bereinigt. Erstelle Formeln, die pruefen: (1) alle Daten in Spalte A sind gueltige Datumsangaben in 2026, (2) alle E-Mails in Spalte B enthalten ein @-Zeichen, (3) alle Betraege in Spalte C sind positive Zahlen. Zeige BESTANDEN oder FEHLGESCHLAGEN fuer jede Pruefung."

Das gibt dir ein Qualitaets-Dashboard fuer deine bereinigten Daten.

Batch-Bereinigung per KI-Chat

Fuer einmalige Bereinigungen brauchst du nicht mal Formeln. Kopiere die unordentlichen Daten direkt in einen KI-Chat:

Prompt:

„Hier ist eine Liste von 50 Firmennamen mit Inkonsistenzen. Bereinige sie: Gross-/Kleinschreibung standardisieren, ueberfluessige Leerzeichen entfernen, offensichtliche Tippfehler korrigieren, Rechtsformzusaetze vereinheitlichen (GmbH, AG, e.K.). Gib die bereinigte Liste in der gleichen Reihenfolge zurueck."

Dann kopierst du die bereinigten Daten zurueck. Das funktioniert hervorragend fuer Datensaetze unter ein paar hundert Zeilen.

Key Takeaways

  • Bereinigungsreihenfolge einhalten: Duplikate → Formate → Luecken → Validierung
  • Das gleiche KONTEXT → AUFGABE → EINSCHRAENKUNGEN → ERGEBNIS Framework funktioniert fuer Bereinigungsprompts
  • Immer die konkreten Inkonsistenzen benennen — KI verarbeitet sie besser mit Beispielen
  • Erst markieren, dann loeschen — pruefen, bevor entfernt wird
  • Fuer kleine Datensaetze: direkt in KI-Chat einfuegen fuer sofortige Bereinigung
  • Deutsche Besonderheit: CSV-Import-Probleme durch Dezimalkomma beachten

Up Next

In der naechsten Lektion meisterst du die Formeln, vor denen sich die meisten Tabellen-Nutzer fuerchten: SVERWEIS, INDEX/VERGLEICH und XVERWEIS. Mit KI werden sie so einfach wie beschreiben, was du finden willst.

Wissenscheck

1. Du hast eine Spalte mit Datumsangaben in verschiedenen Formaten (15.01.2026, 2026-01-15, 15. Januar 2026). Welcher KI-Prompt loest das am besten?

2. Was ist die richtige Reihenfolge fuer einen Datenbereinigungsworkflow?

3. Welcher Prompt hilft am besten, inkonsistente Kategorienamen zu finden und zu korrigieren?

4. Warum exportiert deutsches Excel CSV-Dateien mit Semikolon statt Komma als Trennzeichen?

Beantworte alle Fragen zum Prüfen

Erst das Quiz oben abschließen

Passende Skills