Datenpipelines mit Python- Mit pandas und Apache Airflow automatisieren
Datenpipelines mit Python: Mit pandas und Apache Airflow automatisieren
Ein praxisorientierter Leitfaden zur Entwicklung robuster, automatisierter Datenprozesse mit pandas und Airflow
Inhaltsverzeichnis
Kapitel 1: Einführung in Datenpipelines
- Was ist eine Datenpipeline?
- Typische Anwendungsfälle: ETL, Reporting, Data Science
- Bestandteile: Extraktion, Transformation, Laden
- Herausforderungen und Ziele
Kapitel 2: pandas als Transformationswerkzeug
- Datenquellen einlesen: CSV, Excel, JSON, SQL
- Daten filtern, bereinigen und transformieren
- Spalten umbenennen, Werte berechnen, Datentypen anpassen
- Mini-Projekt: Rohdaten in ein einheitliches Format bringen
Kapitel 3: Erste manuelle Datenpipeline mit Python
- Funktionen modularisieren
- Schrittweise Datenverarbeitung mit pandas
- Ergebnisse als Datei oder in Datenbank speichern
- Mini-Projekt: Manuelle Monatsreport-Pipeline in Python
Kapitel 4: Automatisierung mit Apache Airflow – Überblick
- Was ist Apache Airflow?
- Airflow-Komponenten: DAGs, Tasks, Scheduler, UI
- Installation lokal (Docker oder venv)
- Erste Schritte im Webinterface
Kapitel 5: DAGs und Operatoren verstehen
- Ein DAG als definierte Pipeline
- PythonOperator, BashOperator, EmailOperator
- Abhängigkeiten, Reihenfolge und Ausführungslogik
- Mini-Projekt: Tägliche Datenbereinigung mit PythonOperator
Kapitel 6: Dynamische und wiederverwendbare Pipelines bauen
- Templates, Parameter und Umgebungsvariablen
- Jinja in Airflow verwenden
- Mini-Projekt: Monatsweise Pipeline-Generierung mit Parametern
Kapitel 7: Datenintegration mit externen Quellen
- API-Daten abrufen und transformieren
- Datenbanken (PostgreSQL, MySQL) anbinden
- Cloud-Speicher (S3, GCS) integrieren
- Mini-Projekt: Datenabruf von einer externen API mit Airflow
Kapitel 8: Logging, Monitoring und Fehlerbehandlung
- Logs im Airflow UI lesen
- Task-Retry, E-Mail-Benachrichtigungen
- Fallback-Strategien bei fehlgeschlagenen Tasks
- Mini-Projekt: Fehlerrobuste Pipeline mit Alerting
Kapitel 9: Airflow in Produktion – Best Practices
- DAGs strukturieren und versionieren
- Codequalität und Wiederverwendbarkeit
- Sicherheit und Skalierbarkeit (Rollen, Secrets, Docker, Kubernetes)
- Mini-Projekt: Deployment einer Pipeline im Docker-Container
Kapitel 10: Kombiprojekt – End-to-End Datenpipeline
- Daten von einer API holen
- Mit pandas bereinigen und berechnen
- Ergebnisse speichern und Berichte versenden
- Komplette Umsetzung als Airflow-DAG
Anhang A: pandas-Kochbuch für Transformationen
- Filter, groupby, merge, pivot, apply, explode, etc.
Anhang B: Wichtige Airflow-Konzepte auf einen Blick
- DAG, Operator, TaskInstance, XCom, Schedule Interval
Anhang C: Übungsaufgaben mit Lösungen
- DAG mit zwei Operatoren schreiben
- Datenpipeline mit Fehlerbehandlung erweitern
- pandas-Transformation in Airflow integrieren
- Lösungen mit Schritt-für-Schritt-Erklärung