Einkaufswagen
Loading
Nur noch -1 verfügbar

Datenpipelines mit Python- Mit pandas und Apache Airflow automatisieren

Aktionspreis
€12.99 (25 % Rabatt)
€9.74
Zum Einkaufswagen hinzugefügt

Datenpipelines mit Python: Mit pandas und Apache Airflow automatisieren


Ein praxisorientierter Leitfaden zur Entwicklung robuster, automatisierter Datenprozesse mit pandas und Airflow


Inhaltsverzeichnis


Kapitel 1: Einführung in Datenpipelines


  • Was ist eine Datenpipeline?
  • Typische Anwendungsfälle: ETL, Reporting, Data Science
  • Bestandteile: Extraktion, Transformation, Laden
  • Herausforderungen und Ziele

Kapitel 2: pandas als Transformationswerkzeug


  • Datenquellen einlesen: CSV, Excel, JSON, SQL
  • Daten filtern, bereinigen und transformieren
  • Spalten umbenennen, Werte berechnen, Datentypen anpassen
  • Mini-Projekt: Rohdaten in ein einheitliches Format bringen

Kapitel 3: Erste manuelle Datenpipeline mit Python


  • Funktionen modularisieren
  • Schrittweise Datenverarbeitung mit pandas
  • Ergebnisse als Datei oder in Datenbank speichern
  • Mini-Projekt: Manuelle Monatsreport-Pipeline in Python

Kapitel 4: Automatisierung mit Apache Airflow – Überblick


  • Was ist Apache Airflow?
  • Airflow-Komponenten: DAGs, Tasks, Scheduler, UI
  • Installation lokal (Docker oder venv)
  • Erste Schritte im Webinterface

Kapitel 5: DAGs und Operatoren verstehen


  • Ein DAG als definierte Pipeline
  • PythonOperator, BashOperator, EmailOperator
  • Abhängigkeiten, Reihenfolge und Ausführungslogik
  • Mini-Projekt: Tägliche Datenbereinigung mit PythonOperator

Kapitel 6: Dynamische und wiederverwendbare Pipelines bauen


  • Templates, Parameter und Umgebungsvariablen
  • Jinja in Airflow verwenden
  • Mini-Projekt: Monatsweise Pipeline-Generierung mit Parametern

Kapitel 7: Datenintegration mit externen Quellen


  • API-Daten abrufen und transformieren
  • Datenbanken (PostgreSQL, MySQL) anbinden
  • Cloud-Speicher (S3, GCS) integrieren
  • Mini-Projekt: Datenabruf von einer externen API mit Airflow

Kapitel 8: Logging, Monitoring und Fehlerbehandlung


  • Logs im Airflow UI lesen
  • Task-Retry, E-Mail-Benachrichtigungen
  • Fallback-Strategien bei fehlgeschlagenen Tasks
  • Mini-Projekt: Fehlerrobuste Pipeline mit Alerting

Kapitel 9: Airflow in Produktion – Best Practices


  • DAGs strukturieren und versionieren
  • Codequalität und Wiederverwendbarkeit
  • Sicherheit und Skalierbarkeit (Rollen, Secrets, Docker, Kubernetes)
  • Mini-Projekt: Deployment einer Pipeline im Docker-Container

Kapitel 10: Kombiprojekt – End-to-End Datenpipeline


  • Daten von einer API holen
  • Mit pandas bereinigen und berechnen
  • Ergebnisse speichern und Berichte versenden
  • Komplette Umsetzung als Airflow-DAG

Anhang A: pandas-Kochbuch für Transformationen


  • Filter, groupby, merge, pivot, apply, explode, etc.

Anhang B: Wichtige Airflow-Konzepte auf einen Blick


  • DAG, Operator, TaskInstance, XCom, Schedule Interval

Anhang C: Übungsaufgaben mit Lösungen


  • DAG mit zwei Operatoren schreiben
  • Datenpipeline mit Fehlerbehandlung erweitern
  • pandas-Transformation in Airflow integrieren
  • Lösungen mit Schritt-für-Schritt-Erklärung


Sie erhalten die folgenden Dateien:
  • PDF (1MB)
  • EPUB (113KB)