Datenverarbeitung mit pandas
Automatisiere Datenverarbeitung mit Python und pandas — CSVs und Excel-Dateien lesen, unsaubere Daten bereinigen, Spalten transformieren und Reports generieren.
🔄 Kurzer Rückblick: In der letzten Lektion hast du Dateiautomatisierung gebaut — Organizer, Umbenenner und Backup-Tools. Jetzt geht’s an die Daten IN diesen Dateien: CSVs, Excel-Arbeitsmappen und JSON, die bereinigt, transformiert und reportet werden müssen.
Datenverarbeitung ist der Bereich, wo Python-Automatisierung den größten Hebel hat. Die gleiche Spreadsheet-Arbeit, die du manuell 20 Minuten pro Woche machst, kann automatisiert in Sekunden laufen — und es ist genauer, weil Skripte nicht müde werden oder Tippfehler machen.
pandas: Deine Datenverarbeitungs-Engine
pandas ist die Python-Library für Datenmanipulation. Installation:
pip install pandas openpyxl
Kern-pandas-Operationen für Automatisierung:
| Aufgabe | pandas-Code | Was es tut |
|---|---|---|
| CSV lesen | pd.read_csv("daten.csv") | CSV als DataFrame laden |
| Excel lesen | pd.read_excel("daten.xlsx", sheet_name="Blatt1") | Bestimmtes Sheet laden |
| Zeilen filtern | df[df["status"] == "aktiv"] | Nur passende Zeilen behalten |
| Spalten umbenennen | df.rename(columns={"alt": "neu"}) | Spaltennamen bereinigen |
| Duplikate entfernen | df.drop_duplicates(subset=["email"]) | Nach Spalte deduplizieren |
| Fehlende Werte | df["email"].fillna("unbekannt") | Fehlende Werte behandeln |
| Gruppieren | df.groupby("kategorie")["betrag"].sum() | Zusammenfassungsstatistiken |
| Als Excel speichern | df.to_excel("ausgabe.xlsx", index=False) | Formatiert exportieren |
Skript 1: Monatlicher Report-Prozessor
KI-Prompt:
Schreib ein pandas-Skript für die monatliche Verkaufs-CSV: (1) CSV lesen, Metadaten-Zeilen überspringen (erste 3 Zeilen), (2) Spaltennamen bereinigen: Kleinbuchstaben, Leerzeichen durch Unterstriche ersetzen, (3) „betrag"-Spalte: €-Zeichen und Tausenderpunkte entfernen, Komma als Dezimaltrennzeichen, in float konvertieren, (4) „datum"-Spalte als datetime parsen (deutsches Format TT.MM.JJJJ), (5) Zeilen mit status „storniert" oder „test" rausfiltern, (6) Zusammenfassung: Gesamtumsatz, Anzahl Bestellungen, durchschnittlicher Bestellwert, Top-5-Kunden, (7) Bereinigte Daten und Zusammenfassung als separate Sheets in Excel speichern.
✅ Quick Check: Deine CSV hat Kommas innerhalb von Anführungszeichen:
"Schmidt, Hans"in der Namensspalte. Kannpd.read_csv()damit umgehen? (Antwort: Ja — pandas behandelt Felder in Anführungszeichen korrekt. Das Standard-CSV-Format nutzt Anführungszeichen zum Escapen von Kommas innerhalb von Feldern. Bei deutschen CSVs mit Semikolon als Trennzeichen:pd.read_csv("datei.csv", sep=";")verwenden.)
Skript 2: Multi-Datei-Daten-Merger
KI-Prompt:
Schreib ein pandas-Skript, das Daten aus mehreren Excel-Dateien in einem Ordner zusammenführt: (1) Alle .xlsx-Dateien im Ordner lesen, (2) Jede Datei hat dieselben Spalten, aber Daten aus verschiedenen Monaten/Regionen, (3) Alle zu einem DataFrame konkatenieren, (4) „quelldatei"-Spalte hinzufügen die trackt, aus welcher Datei jede Zeile stammt, (5) Duplikate entfernen (gleiche bestell_id), (6) Nach Datum sortieren, (7) Kombinierte Daten als CSV und Excel speichern. Zusammenfassung: verarbeitete Dateien, Gesamtzeilen, entfernte Duplikate.
Häufige Merge-Szenarien:
| Szenario | pandas-Funktion | Beispiel |
|---|---|---|
| Gleichformatige Dateien stapeln | pd.concat([df1, df2, df3]) | Monatsberichte in einen |
| Über gemeinsame Spalte joinen | pd.merge(df1, df2, on="kunden_id") | Kunden + Bestellungen |
| Werte nachschlagen | df1.merge(df2[["id", "name"]], on="id") | Namen aus Referenztabelle ergänzen |
Deutsche Besonderheiten bei der Datenverarbeitung
Deutsche CSVs haben halt ihre Eigenheiten — darauf musst du achten:
| Besonderheit | Problem | Lösung |
|---|---|---|
| Semikolon statt Komma | pd.read_csv() erwartet Komma | sep=";" Parameter |
| Komma als Dezimaltrennzeichen | 1.234,56 statt 1,234.56 | decimal="," Parameter |
| Punkt als Tausendertrennzeichen | 1.234 wird als Float gelesen | thousands="." Parameter |
| Umlaute (ä, ö, ü, ß) | Encoding-Fehler | encoding="utf-8" oder encoding="latin-1" |
| Deutsches Datumsformat | 15.01.2026 statt 01/15/2026 | dayfirst=True bei pd.to_datetime() |
Key Takeaways
- pandas verwandelt 20 Minuten manuelle Excel-Arbeit in ein 2-Sekunden-Skript: Lesen, Bereinigen, Transformieren und Exportieren sind One-Liner in pandas, und KI generiert die komplette Pipeline wenn du dein Datenformat und die gewünschte Ausgabe beschreibst
- Datenbereinigung ist das Automatisierungsziel mit dem größten Hebel — fehlende Werte, inkonsistente Datumsformate, falsch kodierte Zahlen und Duplikate tauchen in jedem Report auf; einmal Pipeline bauen, läuft jeden Monat perfekt
- Bei deutschen Daten immer an Semikolon-Trennung, Komma als Dezimaltrennzeichen und Umlaut-Encoding denken — das sind die drei häufigsten Stolpersteine bei deutschen CSVs
Up Next
In der nächsten Lektion lernst du Web Scraping — strukturierte Daten von Websites extrahieren mit Python und KI.
Wissenscheck
Erst das Quiz oben abschließen
Lektion abgeschlossen!