Dein erstes Web-Scraping-Projekt mit Python
Dein erstes Web-Scraping-Projekt mit Python
Ein praktischer Einstieg in die automatische Datensammlung aus dem Internet mit Python
Inhaltsverzeichnis
Kapitel 1: Was ist Web-Scraping?
- Bedeutung und Anwendung von Web-Scraping
- Legale und ethische Grundlagen
- Typische Einsatzgebiete
- Was du mit diesem Buch lernen wirst
Kapitel 2: Erste Vorbereitung und Werkzeuge
- Installation von Python und Pip
- Benötigte Bibliotheken: requests, BeautifulSoup, lxml
- Einrichtung deiner Programmierumgebung
- Erste Testanfrage an eine Webseite
Kapitel 3: Grundlagen von HTML verstehen
- Was ist HTML?
- Aufbau einer typischen Webseite
- Wichtige Tags: <div>, <span>, <a>, <p>, <table>
- Webseiten im Browser analysieren (z. B. mit Entwicklertools)
Kapitel 4: HTML-Inhalte mit BeautifulSoup analysieren
- HTML-Code einlesen und parsen
- Elemente mit find(), find_all() und CSS-Selektoren finden
- Texte extrahieren und bereinigen
- Mini-Projekt: Buchtitel aus Webseite auslesen
Kapitel 5: Mit requests Daten von Webseiten abrufen
- HTTP-GET-Anfragen senden
- Statuscodes verstehen
- Fehlerbehandlung bei Anfragen
- Cookies, Header und User-Agent setzen
Kapitel 6: Tabellen und strukturierte Daten scrapen
- Inhalte aus HTML-Tabellen extrahieren
- Zeilen und Spalten erkennen
- Mini-Projekt: Fußballergebnisse aus einer Tabelle auslesen
Kapitel 7: Pagination und mehrere Seiten scrapen
- Wie funktionieren Seitennummern?
- URLs automatisch generieren
- Mehrere Seiten nacheinander durchlaufen
- Mini-Projekt: Produktlisten über mehrere Seiten
Kapitel 8: Gesammelte Daten speichern
- Ausgabe in die Konsole
- Daten in Textdateien oder CSV-Dateien speichern
- Einführung in pandas für Datenanalyse
- Mini-Projekt: Gesammelte Infos als CSV sichern
Kapitel 9: Umgang mit dynamischen Webseiten
- JavaScript-generierte Inhalte erkennen
- Erste Schritte mit selenium
- Webseiten simulieren und Inhalte „klicken“
- Beispiel: Live-Daten aus einer Webseite extrahieren
Kapitel 10: Dein erstes komplettes Web-Scraping-Projekt
- Ziel festlegen und Webseite wählen
- Struktur analysieren
- Daten sammeln, bereinigen und speichern
- Projektidee: Wetterdaten oder Bücherliste sammeln
Anhang A: Häufige HTML-Elemente und Scraping-Techniken
- HTML-Tags und deren Bedeutung
- BeautifulSoup-Funktionen mit Beispielen
Anhang B: Fehlerquellen beim Scraping und Lösungen
- Zugriff blockiert? Captcha? Bot-Erkennung?
- NoneType-Fehler, Timeout-Fehler
- Tipps zur Fehlersuche und Umgang mit blockierten Seiten
Anhang C: Übungsaufgaben mit Lösungen
- Einfaches Scraping mit find_all()
- Daten aus einer Preisliste extrahieren
- Übung zu Pagination und Speicherung
- Musterlösungen mit Erklärungen