GroupDocs.Parser for Python 25.12 – Neueste Updates und Fehlerbehebungen (Dezember 2025)

Wir freuen uns, die erste Veröffentlichung von GroupDocs.Parser for Python via .NET 25.12 anzukündigen, verfügbar seit Dezember 2025. Diese Anfangsversion bringt die volle Leistung der .NET‑Parsing‑Engine zu Python‑Entwicklern und ermöglicht das Extrahieren von Text, Bildern, Anhängen, Barcodes, OCR‑Inhalten und strukturierten Daten aus einer breiten Palette von Dokumentformaten.

Was ist neu in dieser Veröffentlichung

Hauptfunktionen

Text extrahieren – Abrufen von einfachem oder formatiertem Text aus PDFs, Office‑Dokumenten, E‑Mails, E‑Books, Archiven und mehr.
Erweiterte Suche – Seitenbezogener Zugriff mit Optionen für Groß‑/Kleinschreibung, ganze Wörter und reguläre Ausdrücke.
Strukturierte Inhaltsanalyse – Erkennen und Extrahieren der Dokumenthierarchie wie Überschriften, Absätze, Tabellen und benutzerdefinierte Textbereiche.
Vorlagenanalyse – Verwenden vordefinierter Vorlagen, um stark typisierte Felder aus Rechnungen, Quittungen und anderen Geschäftsdokumenten zu extrahieren.
Bilder extrahieren – Eingebettete Rasterbilder aus unterstützten Dokument‑ und Bildformaten extrahieren.
Anhangsextraktion – Dateianhänge, die in Dokumenten eingebettet sind, exportieren.
Barcode-Scanning – Barcodes in Dokumenten erkennen und lesen.
OCR-Unterstützung – Optische Zeichenerkennung in gescannten PDFs und Rasterbildern durchführen, optional mit Rechtschreibprüfung.
Metadatenextraktion – Auf Dokumenteigenschaften wie Autor, Erstellungsdatum und benutzerdefinierte Metadaten zugreifen.
Inhaltsverzeichnis extrahieren – TOC‑Strukturen aus unterstützten Formaten abrufen.
Hyperlink-Extraktion – Hyperlinks extrahieren (derzeit auf einen Teil der Formate beschränkt).

Unterstützte Dokumentformate

Textverarbeitung – DOC, DOCX, RTF, TXT, ODT
PDF & Markup – PDF, HTML/MHTML, Markdown, XML
Tabellenkalkulationen – XLS, XLSX, ODS, CSV
Präsentationen – PPT, PPTX, ODP
E‑Mail & Notizen – PST, OST, EML, MSG, ONE
E‑Books & Web‑Inhalte – EPUB, MOBI, AZW3, CHM, FB2
Bilder – JPEG, PNG, TIFF, GIF, BMP, SVG
Archive & Container – ZIP, RAR, 7Z, TAR, GZ, BZ2

Plattformunterstützung

Windows, Linux und macOS
Python 3.5+

Installation

Laden Sie das passende WHL‑Paket für Ihre Plattform von der GroupDocs Releases page herunter:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Installieren Sie das Paket mit pip (ersetzen Sie * durch den tatsächlichen Dateinamen, den Sie heruntergeladen haben):

pip install groupdocs_parser_net-25.12-*.whl

Erste Schritte

Das folgende Snippet zeigt, wie man reinen Text aus einer PDF‑Datei extrahiert:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Für komplexere Szenarien – wie die Verwendung von Vorlagen, OCR oder Barcode‑Scanning – siehe die API‑Referenz und das unten verlinkte Code‑Beispiele‑Repository.

So erhalten Sie das Update

Direkter Download – Wählen Sie das WHL‑Paket, das zu Ihrem Betriebssystem passt, von der GroupDocs Releases page.
pip‑Upgrade – Sobald eine neuere Version veröffentlicht ist, aktualisieren Sie mit:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser for Python 25.12 – Highlights der Dezember‑2025‑Veröffentlichung

Was ist neu in dieser Veröffentlichung

Hauptfunktionen

Unterstützte Dokumentformate

Plattformunterstützung

Installation

Erste Schritte

So erhalten Sie das Update

Ressourcen

Was ist neu in dieser Veröffentlichung#

Hauptfunktionen#

Unterstützte Dokumentformate#

Plattformunterstützung#

Installation#

Erste Schritte#

So erhalten Sie das Update#

Ressourcen#

Was ist neu in dieser Veröffentlichung

Hauptfunktionen

Unterstützte Dokumentformate

Plattformunterstützung

Installation

Erste Schritte

So erhalten Sie das Update

Ressourcen