Lektion 3 12 Min.

Datenverarbeitung mit pandas

Automatisiere Datenverarbeitung mit Python und pandas — CSVs und Excel-Dateien lesen, unsaubere Daten bereinigen, Spalten transformieren und Reports generieren.

🔄 Kurzer Rückblick: In der letzten Lektion hast du Dateiautomatisierung gebaut — Organizer, Umbenenner und Backup-Tools. Jetzt geht’s an die Daten IN diesen Dateien: CSVs, Excel-Arbeitsmappen und JSON, die bereinigt, transformiert und reportet werden müssen.

Datenverarbeitung ist der Bereich, wo Python-Automatisierung den größten Hebel hat. Die gleiche Spreadsheet-Arbeit, die du manuell 20 Minuten pro Woche machst, kann automatisiert in Sekunden laufen — und es ist genauer, weil Skripte nicht müde werden oder Tippfehler machen.

pandas: Deine Datenverarbeitungs-Engine

pandas ist die Python-Library für Datenmanipulation. Installation:

pip install pandas openpyxl

Kern-pandas-Operationen für Automatisierung:

Aufgabe	pandas-Code	Was es tut
CSV lesen	`pd.read_csv("daten.csv")`	CSV als DataFrame laden
Excel lesen	`pd.read_excel("daten.xlsx", sheet_name="Blatt1")`	Bestimmtes Sheet laden
Zeilen filtern	`df[df["status"] == "aktiv"]`	Nur passende Zeilen behalten
Spalten umbenennen	`df.rename(columns={"alt": "neu"})`	Spaltennamen bereinigen
Duplikate entfernen	`df.drop_duplicates(subset=["email"])`	Nach Spalte deduplizieren
Fehlende Werte	`df["email"].fillna("unbekannt")`	Fehlende Werte behandeln
Gruppieren	`df.groupby("kategorie")["betrag"].sum()`	Zusammenfassungsstatistiken
Als Excel speichern	`df.to_excel("ausgabe.xlsx", index=False)`	Formatiert exportieren

Skript 1: Monatlicher Report-Prozessor

KI-Prompt:

Schreib ein pandas-Skript für die monatliche Verkaufs-CSV: (1) CSV lesen, Metadaten-Zeilen überspringen (erste 3 Zeilen), (2) Spaltennamen bereinigen: Kleinbuchstaben, Leerzeichen durch Unterstriche ersetzen, (3) „betrag"-Spalte: €-Zeichen und Tausenderpunkte entfernen, Komma als Dezimaltrennzeichen, in float konvertieren, (4) „datum"-Spalte als datetime parsen (deutsches Format TT.MM.JJJJ), (5) Zeilen mit status „storniert" oder „test" rausfiltern, (6) Zusammenfassung: Gesamtumsatz, Anzahl Bestellungen, durchschnittlicher Bestellwert, Top-5-Kunden, (7) Bereinigte Daten und Zusammenfassung als separate Sheets in Excel speichern.

✅ Quick Check: Deine CSV hat Kommas innerhalb von Anführungszeichen: "Schmidt, Hans" in der Namensspalte. Kann pd.read_csv() damit umgehen? (Antwort: Ja — pandas behandelt Felder in Anführungszeichen korrekt. Das Standard-CSV-Format nutzt Anführungszeichen zum Escapen von Kommas innerhalb von Feldern. Bei deutschen CSVs mit Semikolon als Trennzeichen: pd.read_csv("datei.csv", sep=";") verwenden.)

Skript 2: Multi-Datei-Daten-Merger

KI-Prompt:

Schreib ein pandas-Skript, das Daten aus mehreren Excel-Dateien in einem Ordner zusammenführt: (1) Alle .xlsx-Dateien im Ordner lesen, (2) Jede Datei hat dieselben Spalten, aber Daten aus verschiedenen Monaten/Regionen, (3) Alle zu einem DataFrame konkatenieren, (4) „quelldatei"-Spalte hinzufügen die trackt, aus welcher Datei jede Zeile stammt, (5) Duplikate entfernen (gleiche bestell_id), (6) Nach Datum sortieren, (7) Kombinierte Daten als CSV und Excel speichern. Zusammenfassung: verarbeitete Dateien, Gesamtzeilen, entfernte Duplikate.

Häufige Merge-Szenarien:

Szenario	pandas-Funktion	Beispiel
Gleichformatige Dateien stapeln	`pd.concat([df1, df2, df3])`	Monatsberichte in einen
Über gemeinsame Spalte joinen	`pd.merge(df1, df2, on="kunden_id")`	Kunden + Bestellungen
Werte nachschlagen	`df1.merge(df2[["id", "name"]], on="id")`	Namen aus Referenztabelle ergänzen

Deutsche Besonderheiten bei der Datenverarbeitung

Deutsche CSVs haben halt ihre Eigenheiten — darauf musst du achten:

Besonderheit	Problem	Lösung
Semikolon statt Komma	`pd.read_csv()` erwartet Komma	`sep=";"` Parameter
Komma als Dezimaltrennzeichen	`1.234,56` statt `1,234.56`	`decimal=","` Parameter
Punkt als Tausendertrennzeichen	`1.234` wird als Float gelesen	`thousands="."` Parameter
Umlaute (ä, ö, ü, ß)	Encoding-Fehler	`encoding="utf-8"` oder `encoding="latin-1"`
Deutsches Datumsformat	`15.01.2026` statt `01/15/2026`	`dayfirst=True` bei `pd.to_datetime()`

Key Takeaways

pandas verwandelt 20 Minuten manuelle Excel-Arbeit in ein 2-Sekunden-Skript: Lesen, Bereinigen, Transformieren und Exportieren sind One-Liner in pandas, und KI generiert die komplette Pipeline wenn du dein Datenformat und die gewünschte Ausgabe beschreibst
Datenbereinigung ist das Automatisierungsziel mit dem größten Hebel — fehlende Werte, inkonsistente Datumsformate, falsch kodierte Zahlen und Duplikate tauchen in jedem Report auf; einmal Pipeline bauen, läuft jeden Monat perfekt
Bei deutschen Daten immer an Semikolon-Trennung, Komma als Dezimaltrennzeichen und Umlaut-Encoding denken — das sind die drei häufigsten Stolpersteine bei deutschen CSVs

Up Next

In der nächsten Lektion lernst du Web Scraping — strukturierte Daten von Websites extrahieren mit Python und KI.

Wissenscheck

1. Du bekommst monatlich einen Verkaufs-Report als CSV. Jeden Monat öffnest du ihn manuell in Excel, löschst die ersten 3 Header-Zeilen, benennst Spalten um, filterst Testbestellungen raus und speicherst als formatiertes Excel. Das dauert 20 Minuten. Welcher KI-Prompt ist am effektivsten?

'Schreib ein Python-Skript zum Bereinigen einer CSV' — halt einfach, die KI regelt den Rest Sei bei jedem Schritt spezifisch: 'Schreib ein pandas-Skript: (1) CSV lesen, erste 3 Zeilen überspringen (header=3), (2) Spalten umbenennen: Bestell-Nr → bestell_id, Kundenname → kunde, Betrag € → betrag, (3) Zeilen entfernen wo kunde TEST enthält, (4) betrag-Spalte in float konvertieren (€-Zeichen und Kommas entfernen), (5) Als formatiertes Excel speichern: fette Header, Währungsformat, automatische Spaltenbreiten.' Dieser Prompt liefert ein funktionierendes Skript beim ersten Versuch 'Automatisiere meine monatliche Report-Verarbeitung' — die KI versteht schon

2. Dein Skript liest eine CSV mit 50.000 Zeilen. Manche E-Mail-Felder fehlen, Datumsformate sind inkonsistent ('2026-01-15', '15.01.2026', '15. Jan 2026'), und Preise haben Eurozeichen. Wie gehst du damit um?

Jedes Problem separat in verschiedenen Skripten behandeln Die Daten vorher manuell in Excel bereinigen, dann ans Skript übergeben Alle Datenqualitätsprobleme in einem Prompt beschreiben und eine Cleaning-Pipeline bauen lassen: (1) Fehlende E-Mails mit Platzhalter füllen und Zeilen markieren, (2) Alle drei Datumsformate in JJJJ-MM-TT parsen, (3) €-Zeichen und Punkte als Tausendertrennzeichen entfernen, Komma als Dezimaltrennzeichen behandeln, in float konvertieren, (4) Datenqualitäts-Zusammenfassung am Ende

3. Du musst Daten aus 3 Excel-Dateien zusammenführen — Kundendaten, Bestellungen, Versanddaten. Jede Datei benutzt einen anderen Spaltennamen für die Kunden-ID: 'KundenNr', 'kunden_id', 'Kundennummer'. Wie mergest du?

Spalten vorher manuell in Excel umbenennen, dann mergen Alle drei in eine Datenbank importieren und SQL zum Joinen nutzen Mit pandas in einem Skript umbenennen und mergen: Alle ID-Spalten auf 'kunden_id' vereinheitlichen, mit Left Joins mergen (alle Kunden behalten, auch ohne Bestellungen), ungematchte Datensätze markieren, zusammengeführtes Ergebnis mit Zusammenfassungs-Sheet speichern

Beantworte alle Fragen zum Prüfen

Erst das Quiz oben abschließen

Passende Skills

Workflow Automator Python Packaging