Wir freuen uns, die erste Veröffentlichung von GroupDocs.Parser for Python via .NET 25.12 anzukündigen, verfügbar seit Dezember 2025. Diese Anfangsversion bringt die volle Leistung der .NET‑Parsing‑Engine zu Python‑Entwicklern und ermöglicht das Extrahieren von Text, Bildern, Anhängen, Barcodes, OCR‑Inhalten und strukturierten Daten aus einer breiten Palette von Dokumentformaten.

Was ist neu in dieser Veröffentlichung

Hauptfunktionen

  • Text extrahieren – Abrufen von einfachem oder formatiertem Text aus PDFs, Office‑Dokumenten, E‑Mails, E‑Books, Archiven und mehr.
  • Erweiterte Suche – Seitenbezogener Zugriff mit Optionen für Groß‑/Kleinschreibung, ganze Wörter und reguläre Ausdrücke.
  • Strukturierte Inhaltsanalyse – Erkennen und Extrahieren der Dokumenthierarchie wie Überschriften, Absätze, Tabellen und benutzerdefinierte Textbereiche.
  • Vorlagenanalyse – Verwenden vordefinierter Vorlagen, um stark typisierte Felder aus Rechnungen, Quittungen und anderen Geschäftsdokumenten zu extrahieren.
  • Bilder extrahieren – Eingebettete Rasterbilder aus unterstützten Dokument‑ und Bildformaten extrahieren.
  • Anhangsextraktion – Dateianhänge, die in Dokumenten eingebettet sind, exportieren.
  • Barcode-Scanning – Barcodes in Dokumenten erkennen und lesen.
  • OCR-Unterstützung – Optische Zeichenerkennung in gescannten PDFs und Rasterbildern durchführen, optional mit Rechtschreibprüfung.
  • Metadatenextraktion – Auf Dokumenteigenschaften wie Autor, Erstellungsdatum und benutzerdefinierte Metadaten zugreifen.
  • Inhaltsverzeichnis extrahieren – TOC‑Strukturen aus unterstützten Formaten abrufen.
  • Hyperlink-Extraktion – Hyperlinks extrahieren (derzeit auf einen Teil der Formate beschränkt).

Unterstützte Dokumentformate

  • Textverarbeitung – DOC, DOCX, RTF, TXT, ODT
  • PDF & Markup – PDF, HTML/MHTML, Markdown, XML
  • Tabellenkalkulationen – XLS, XLSX, ODS, CSV
  • Präsentationen – PPT, PPTX, ODP
  • E‑Mail & Notizen – PST, OST, EML, MSG, ONE
  • E‑Books & Web‑Inhalte – EPUB, MOBI, AZW3, CHM, FB2
  • Bilder – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archive & Container – ZIP, RAR, 7Z, TAR, GZ, BZ2

Plattformunterstützung

  • Windows, Linux und macOS
  • Python 3.5+

Installation

  1. Laden Sie das passende WHL‑Paket für Ihre Plattform von der GroupDocs Releases page herunter:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Installieren Sie das Paket mit pip (ersetzen Sie * durch den tatsächlichen Dateinamen, den Sie heruntergeladen haben):

pip install groupdocs_parser_net-25.12-*.whl

Erste Schritte

Das folgende Snippet zeigt, wie man reinen Text aus einer PDF‑Datei extrahiert:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Für komplexere Szenarien – wie die Verwendung von Vorlagen, OCR oder Barcode‑Scanning – siehe die API‑Referenz und das unten verlinkte Code‑Beispiele‑Repository.

So erhalten Sie das Update

  • Direkter Download – Wählen Sie das WHL‑Paket, das zu Ihrem Betriebssystem passt, von der GroupDocs Releases page.
  • pip‑Upgrade – Sobald eine neuere Version veröffentlicht ist, aktualisieren Sie mit:
pip install --upgrade groupdocs_parser_net

Ressourcen