Reguläre Ausdrücke in Python- Daten extrahieren und analysieren
Reguläre Ausdrücke in Python: Daten extrahieren und analysieren
Ein praktischer Leitfaden zum Erkennen, Filtern und Umwandeln von Textmustern mit dem re-Modul
Inhaltsverzeichnis
Kapitel 1: Einführung in reguläre Ausdrücke
- Was sind reguläre Ausdrücke?
- Warum Regex? Vorteile und Einsatzbereiche
- Beispiele aus der Praxis: E-Mails, Telefonnummern, Daten extrahieren
- Erste Regex-Beispiele ohne Python
Kapitel 2: Das re-Modul in Python
- Das re-Modul importieren
- Funktionen: search(), match(), findall(), sub(), split()
- Überblick über Rückgabewerte (Match-Objekte, Listen, Strings)
- Mini-Projekt: Erste Suchmuster anwenden
Kapitel 3: Grundbausteine von regulären Ausdrücken
- Literale Zeichen und Escape-Zeichen
- Punkt ., Stern *, Plus +, Fragezeichen ?
- Zeichenklassen: [abc], [0-9], [^a-z]
- Mini-Projekt: Zeichen und Zahlen aus Texten extrahieren
Kapitel 4: Wiederholungen und Mengenangaben
- Quantifizierer: {n}, {n,}, {n,m}
- Greedy vs. non-greedy Matching
- Mini-Projekt: HTML-Tags oder einfache Markups extrahieren
Kapitel 5: Gruppen und Alternativen
- Gruppierung mit ()
- Rückreferenzen in Ersetzungen
- Alternativen mit |
- Mini-Projekt: Name-Vorname-Tauscher
Kapitel 6: Anker und Positionen
- Zeilenanfang ^, Zeilenende $
- Wortgrenzen \b, Nicht-Wortgrenzen \B
- Mehrzeilige Texte mit re.MULTILINE
- Mini-Projekt: Prüfung von Eingabeformaten
Kapitel 7: Reguläre Ausdrücke mit Flags anpassen
- Übersicht über Flags: IGNORECASE, DOTALL, VERBOSE, MULTILINE
- Kombination von Flags
- Mini-Projekt: Groß-/Kleinschreibung ignorieren
Kapitel 8: Anwendung auf reale Textdaten
- Texte aus Dateien verarbeiten
- Textvorverarbeitung (z. B. HTML-Entfernung, Umformatierung)
- Mini-Projekt: E-Mail-Adressen und URLs aus Datei extrahieren
Kapitel 9: Reguläre Ausdrücke testen und debuggen
- Tools zum Testen: regex101, Pythex, eigene Skripte
- Schrittweises Testen und Verbessern
- Fehleranalyse bei falschen Treffern
- Best Practices für gut lesbare Ausdrücke
Kapitel 10: Best Practices für robuste Regex-Nutzung
- Sicherheit und Performance
- Lesbarkeit und Dokumentation
- Wann lieber andere Techniken nutzen (z. B. startswith(), split())
- Mini-Projekt: Regex-Sammlung für Alltagsaufgaben
Anhang A: Übersicht wichtiger Regex-Symbole und Muster
- Tabellen mit Bedeutung und Beispiel: \d, \w, ., ^, [], {} usw.
Anhang B: Typische Anwendungsfälle mit Regex-Lösungen
- Telefonnummern, E-Mails, PLZ, IBAN, Datumsformate
- Kommentarentfernung, HTML-Bereinigung, Duplikaterkennung
Anhang C: Übungsaufgaben mit Lösungen
- Text nach Mustern durchsuchen
- Daten ersetzen und umformatieren
- Komplexe Texte zerlegen und analysieren
- Lösungen mit Kommentaren und Erklärungen