Lektion 3 12 Min.

Datenverarbeitung mit pandas

Automatisiere Datenverarbeitung mit Python und pandas — CSVs und Excel-Dateien lesen, unsaubere Daten bereinigen, Spalten transformieren und Reports generieren.

🔄 Kurzer Rückblick: In der letzten Lektion hast du Dateiautomatisierung gebaut — Organizer, Umbenenner und Backup-Tools. Jetzt geht’s an die Daten IN diesen Dateien: CSVs, Excel-Arbeitsmappen und JSON, die bereinigt, transformiert und reportet werden müssen.

Datenverarbeitung ist der Bereich, wo Python-Automatisierung den größten Hebel hat. Die gleiche Spreadsheet-Arbeit, die du manuell 20 Minuten pro Woche machst, kann automatisiert in Sekunden laufen — und es ist genauer, weil Skripte nicht müde werden oder Tippfehler machen.

pandas: Deine Datenverarbeitungs-Engine

pandas ist die Python-Library für Datenmanipulation. Installation:

pip install pandas openpyxl

Kern-pandas-Operationen für Automatisierung:

Aufgabepandas-CodeWas es tut
CSV lesenpd.read_csv("daten.csv")CSV als DataFrame laden
Excel lesenpd.read_excel("daten.xlsx", sheet_name="Blatt1")Bestimmtes Sheet laden
Zeilen filterndf[df["status"] == "aktiv"]Nur passende Zeilen behalten
Spalten umbenennendf.rename(columns={"alt": "neu"})Spaltennamen bereinigen
Duplikate entfernendf.drop_duplicates(subset=["email"])Nach Spalte deduplizieren
Fehlende Wertedf["email"].fillna("unbekannt")Fehlende Werte behandeln
Gruppierendf.groupby("kategorie")["betrag"].sum()Zusammenfassungsstatistiken
Als Excel speicherndf.to_excel("ausgabe.xlsx", index=False)Formatiert exportieren

Skript 1: Monatlicher Report-Prozessor

KI-Prompt:

Schreib ein pandas-Skript für die monatliche Verkaufs-CSV: (1) CSV lesen, Metadaten-Zeilen überspringen (erste 3 Zeilen), (2) Spaltennamen bereinigen: Kleinbuchstaben, Leerzeichen durch Unterstriche ersetzen, (3) „betrag"-Spalte: €-Zeichen und Tausenderpunkte entfernen, Komma als Dezimaltrennzeichen, in float konvertieren, (4) „datum"-Spalte als datetime parsen (deutsches Format TT.MM.JJJJ), (5) Zeilen mit status „storniert" oder „test" rausfiltern, (6) Zusammenfassung: Gesamtumsatz, Anzahl Bestellungen, durchschnittlicher Bestellwert, Top-5-Kunden, (7) Bereinigte Daten und Zusammenfassung als separate Sheets in Excel speichern.

Quick Check: Deine CSV hat Kommas innerhalb von Anführungszeichen: "Schmidt, Hans" in der Namensspalte. Kann pd.read_csv() damit umgehen? (Antwort: Ja — pandas behandelt Felder in Anführungszeichen korrekt. Das Standard-CSV-Format nutzt Anführungszeichen zum Escapen von Kommas innerhalb von Feldern. Bei deutschen CSVs mit Semikolon als Trennzeichen: pd.read_csv("datei.csv", sep=";") verwenden.)

Skript 2: Multi-Datei-Daten-Merger

KI-Prompt:

Schreib ein pandas-Skript, das Daten aus mehreren Excel-Dateien in einem Ordner zusammenführt: (1) Alle .xlsx-Dateien im Ordner lesen, (2) Jede Datei hat dieselben Spalten, aber Daten aus verschiedenen Monaten/Regionen, (3) Alle zu einem DataFrame konkatenieren, (4) „quelldatei"-Spalte hinzufügen die trackt, aus welcher Datei jede Zeile stammt, (5) Duplikate entfernen (gleiche bestell_id), (6) Nach Datum sortieren, (7) Kombinierte Daten als CSV und Excel speichern. Zusammenfassung: verarbeitete Dateien, Gesamtzeilen, entfernte Duplikate.

Häufige Merge-Szenarien:

Szenariopandas-FunktionBeispiel
Gleichformatige Dateien stapelnpd.concat([df1, df2, df3])Monatsberichte in einen
Über gemeinsame Spalte joinenpd.merge(df1, df2, on="kunden_id")Kunden + Bestellungen
Werte nachschlagendf1.merge(df2[["id", "name"]], on="id")Namen aus Referenztabelle ergänzen

Deutsche Besonderheiten bei der Datenverarbeitung

Deutsche CSVs haben halt ihre Eigenheiten — darauf musst du achten:

BesonderheitProblemLösung
Semikolon statt Kommapd.read_csv() erwartet Kommasep=";" Parameter
Komma als Dezimaltrennzeichen1.234,56 statt 1,234.56decimal="," Parameter
Punkt als Tausendertrennzeichen1.234 wird als Float gelesenthousands="." Parameter
Umlaute (ä, ö, ü, ß)Encoding-Fehlerencoding="utf-8" oder encoding="latin-1"
Deutsches Datumsformat15.01.2026 statt 01/15/2026dayfirst=True bei pd.to_datetime()

Key Takeaways

  • pandas verwandelt 20 Minuten manuelle Excel-Arbeit in ein 2-Sekunden-Skript: Lesen, Bereinigen, Transformieren und Exportieren sind One-Liner in pandas, und KI generiert die komplette Pipeline wenn du dein Datenformat und die gewünschte Ausgabe beschreibst
  • Datenbereinigung ist das Automatisierungsziel mit dem größten Hebel — fehlende Werte, inkonsistente Datumsformate, falsch kodierte Zahlen und Duplikate tauchen in jedem Report auf; einmal Pipeline bauen, läuft jeden Monat perfekt
  • Bei deutschen Daten immer an Semikolon-Trennung, Komma als Dezimaltrennzeichen und Umlaut-Encoding denken — das sind die drei häufigsten Stolpersteine bei deutschen CSVs

Up Next

In der nächsten Lektion lernst du Web Scraping — strukturierte Daten von Websites extrahieren mit Python und KI.

Wissenscheck

1. Du bekommst monatlich einen Verkaufs-Report als CSV. Jeden Monat öffnest du ihn manuell in Excel, löschst die ersten 3 Header-Zeilen, benennst Spalten um, filterst Testbestellungen raus und speicherst als formatiertes Excel. Das dauert 20 Minuten. Welcher KI-Prompt ist am effektivsten?

2. Dein Skript liest eine CSV mit 50.000 Zeilen. Manche E-Mail-Felder fehlen, Datumsformate sind inkonsistent ('2026-01-15', '15.01.2026', '15. Jan 2026'), und Preise haben Eurozeichen. Wie gehst du damit um?

3. Du musst Daten aus 3 Excel-Dateien zusammenführen — Kundendaten, Bestellungen, Versanddaten. Jede Datei benutzt einen anderen Spaltennamen für die Kunden-ID: 'KundenNr', 'kunden_id', 'Kundennummer'. Wie mergest du?

Beantworte alle Fragen zum Prüfen

Erst das Quiz oben abschließen

Passende Skills