Lektion 4 12 Min.

Web Scraping mit Python

Extrahiere Daten von Websites mit Python — requests und BeautifulSoup für statische Seiten, Paginierung und ethisches Scraping unter Beachtung der DSGVO.

🔄 Kurzer Rückblick: In der letzten Lektion hast du Datenverarbeitung mit pandas automatisiert — Spreadsheets lesen, bereinigen und transformieren. Jetzt holen wir uns Daten direkt aus dem Web: Informationen von Websites extrahieren, wenn keine API oder kein Download verfügbar ist.

Web Scraping verwandelt unstrukturierte Webseiten in strukturierte Daten. Preismonitoring, Stellenanzeigen-Aggregation, News-Tracking, Wettbewerbsanalyse — wenn die Daten auf einer Webseite stehen, kann Python sie extrahieren.

Der Scraping-Stack

pip install requests beautifulsoup4 lxml

Library	Zweck
requests	Webseiten herunterladen (HTTP-Requests)
BeautifulSoup	HTML parsen und Daten extrahieren
lxml	Schneller HTML-Parser (von BeautifulSoup genutzt)

Skript 1: Einfacher Seiten-Scraper

KI-Prompt:

Schreib einen Python-Web-Scraper mit requests und BeautifulSoup: (1) Webseite von einer URL abrufen, (2) Alle Produktnamen und Preise extrahieren (Produkte in Elementen mit Klasse „product", h2 für Name, span.price für Preis), (3) Als CSV speichern mit Spalten: name, preis, url, scraping_datum, (4) Behandeln: HTTP-Fehler, Verbindungs-Timeouts, fehlende Elemente. Ordentliche Headers mit User-Agent-String.

Core BeautifulSoup-Operationen:

Operation	Code	Was es tut
Ein Element finden	`soup.find("h2", class_="title")`	Erstes passendes Element
Alle Elemente finden	`soup.find_all("div", class_="product")`	Alle passenden Elemente
Text holen	`element.get_text(strip=True)`	Textinhalt, Whitespace entfernt
Attribut holen	`element["href"]`	HTML-Attributwert
CSS-Selektor	`soup.select("div.product h2")`	CSS-Selektor-Syntax

DSGVO und Web Scraping: Was du in Deutschland wissen musst

In Deutschland gelten beim Scraping strengere Regeln als in den USA. Die DSGVO setzt klare Grenzen:

Aspekt	Regel	Konsequenz
Personenbezogene Daten	Dürfen nicht ohne Rechtsgrundlage erhoben werden	Namen, E-Mails, Profile → DSGVO-relevant
robots.txt	Technisch unverbindlich, aber juristisch relevant	Missachtung kann als Verstoß gewertet werden
Urheberrecht	Datenbankrichtlinie der EU schützt Datensammlungen	Ganze Produktkataloge scrapen kann Urheberrecht verletzen
AGB/Nutzungsbedingungen	Vertragliche Regelung	Verstoß kann abmahnfähig sein

Faustregel: Öffentliche, nicht-personenbezogene Sachdaten (Preise, Wetter, Fahrpläne) sind in der Regel okay. Personenbezogene Daten und geschützte Datenbanken: Finger weg ohne Rechtsgrundlage.

Ethisches Scraping

Praxis	Warum	Wie
robots.txt prüfen	Sites geben an, was erlaubt ist	`requests.get(url + "/robots.txt")`
Rate Limits respektieren	Server nicht überlasten	`time.sleep(random.uniform(1, 3))`
Identifiziere dich	Seitenbetreiber kann dich kontaktieren	`User-Agent: MeinProjekt (email@example.com)`
Responses cachen	Gleiche Seite nicht nochmal anfragen	HTML lokal speichern, vor Request prüfen
Nach API suchen	APIs sind zuverlässiger und erlaubt	Entwickler-Docs der Website prüfen

✅ Quick Check: Du scrapst eine Seite, aber requests.get() liefert HTML ohne die Daten, die du im Browser siehst. Die Seite lädt Daten per JavaScript nach dem initialen HTML. Was brauchst du? (Antwort: Für JavaScript-gerenderte Seiten reicht requests + BeautifulSoup nicht, weil sie nur das initiale HTML vor JavaScript-Ausführung sehen. Optionen: (1) Prüfe ob das JavaScript Daten von einer API lädt — Browser-DevTools Netzwerk-Tab nach dem API-Endpunkt suchen, dann direkt mit requests aufrufen. Das ist der beste Ansatz. (2) Selenium oder Playwright nutzen, um die Seite mit einem echten Browser zu rendern.)

Key Takeaways

Immer ethisch scrapen: robots.txt prüfen, Pausen zwischen Requests (1-3 Sekunden), ehrlichen User-Agent setzen und zuerst nach einer API schauen — aggressives Scraping führt zu IP-Sperren und kann gegen Nutzungsbedingungen verstoßen
In Deutschland gilt die DSGVO auch beim Scraping: personenbezogene Daten nicht ohne Rechtsgrundlage erheben, Datenbankrechte der EU beachten, und im Zweifel die AGB der Website lesen
KI glänzt beim mühsamsten Teil des Scrapings — CSS-Selektoren finden: HTML in die KI einfügen, beschreiben welche Daten du brauchst, und die KI identifiziert die exakten Selektoren

Up Next

In der nächsten Lektion lernst du API-Integration — direkte Verbindung zu Webdiensten (kein HTML-Parsing nötig) für zuverlässigere Datenautomatisierung.

Wissenscheck

1. Du scrapst Produktpreise aus einem Onlineshop, um Preisänderungen zu tracken. Dein Skript schickt 1.000 Requests in schneller Folge. Die Website sperrt deine IP nach 50 Requests. Was ist schiefgelaufen?

Die Website hat Anti-Scraping-Schutz — du brauchst eine andere IP oder ein VPN Du sendest Requests zu schnell. Websites interpretieren Schnellfeuer-Anfragen als Bot-Attacke. Die Lösung: (1) Pausen zwischen Requests — time.sleep(1) oder random.uniform(1, 3) für zufällige Abstände, (2) robots.txt prüfen — da steht die erlaubte Crawl-Rate und welche Pfade tabu sind, (3) User-Agent-Header setzen — identifiziere dein Skript ehrlich, (4) Responses cachen — bereits gescrape Seiten nicht nochmal anfragen, (5) Prüfen ob eine API existiert — oft schneller, zuverlässiger und explizit erlaubt Benutze Selenium statt requests — browserbasiertes Scraping wird nicht blockiert

2. Dein Scraper zielt auf div.product-card h2.title. Heute funktioniert er, nächste Woche liefert er leere Ergebnisse. Was ist passiert?

Die Website hat ihre HTML-Struktur geändert — CSS-Klassen wie 'product-card' sind Implementierungsdetails die Websites ohne Ankündigung ändern. Das ist die fundamentale Schwäche von Web Scraping. Strategien: (1) Mehrere Selektoren als Fallback, (2) Validierung — wenn 0 Ergebnisse statt 50, Alarm auslösen, (3) Bei fehlerhaften Ergebnissen das rohe HTML loggen, (4) Für kritische Daten APIs bevorzugen. KI hilft beim Anpassen: Neue HTML-Struktur einfügen und fragen 'Update meinen Selektor' Die Website hat deinen Scraper erkannt und liefert anderes HTML BeautifulSoup hat einen Bug — aktualisiere auf die neueste Version

3. Eine Website hat Produktdaten auf 50 Seiten (Paginierung). Jede Seite zeigt 20 Produkte. Du brauchst alle 1.000. Bester Ansatz?

Alle 50 Seiten ohne Pausen scrapen — sind ja nur 50 Requests Paginierungs-Scraper mit Pausen, Fortschrittsanzeige und Validierung bauen: (1) Bei Seite 1 starten, (2) Alle Produkte extrahieren, (3) 'Nächste Seite'-Link folgen, (4) Stoppen wenn keine nächste Seite, (5) 2 Sekunden Pause zwischen Seiten, (6) Ergebnisse inkrementell speichern — bei Absturz auf Seite 35 ab 35 fortsetzen, (7) Fortschritt zeigen: 'Seite 15/50 — 300 Produkte bisher', (8) Validieren dass jede Seite Produkte hat Jede Seite im Browser öffnen und Daten manuell kopieren — 50 Seiten sind machbar

Beantworte alle Fragen zum Prüfen

Erst das Quiz oben abschließen

Passende Skills

Browser Automation Agent Workflow Automator