We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

Wir freuen uns, die erste Veröffentlichung von GroupDocs.Parser for Python via .NET 25.12 bekannt zu geben, verfügbar seit Dezember 2025. Diese erste Version bringt die volle Leistungsfähigkeit der .NET‑Parsing‑Engine zu Python‑Entwicklern und ermöglicht das Extrahieren von Text, Bildern, Anhängen, Barcodes, OCR‑Inhalten und strukturierten Daten aus einer breiten Palette von Dokumentformaten.

What’s new in this release

Neuigkeiten in dieser Veröffentlichung

Major features

Hauptfunktionen

  • Text extraction – Retrieve plain or formatted text from PDFs, Office documents, emails, e‑books, archives and more.
  • Textextraktion – Abrufen von einfachem oder formatiertem Text aus PDFs, Office‑Dokumenten, E‑Mails, E‑Books, Archiven und mehr.
  • Advanced search – Page‑level access with case‑sensitive, whole‑word, and regular‑expression search options.
  • Erweiterte Suche – Seitenebene‑Zugriff mit fall‑sensitiver, Ganzwort‑ und regulärer Ausdruck‑Suche.
  • Structured content parsing – Detect and extract document hierarchy such as headings, paragraphs, tables and custom text areas.
  • Strukturierte Inhaltsanalyse – Erkennen und Extrahieren der Dokumenten‑Hierarchie wie Überschriften, Absätze, Tabellen und benutzerdefinierte Textbereiche.
  • Template parsing – Use predefined templates to pull strongly‑typed fields from invoices, receipts and other business documents.
  • Vorlagenanalyse – Verwenden vordefinierter Vorlagen zum Extrahieren stark typisierter Felder aus Rechnungen, Quittungen und anderen Geschäftsdokumenten.
  • Image extraction – Pull embedded raster images from supported document and image formats.
  • Bilderextraktion – Extrahieren eingebetteter Rasterbilder aus unterstützten Dokument‑ und Bildformaten.
  • Attachment extraction – Export file attachments embedded in documents.
  • Anhangsextraktion – Exportieren von Dateianhängen, die in Dokumenten eingebettet sind.
  • Barcode scanning – Detect and read barcodes present in documents.
  • Barcode‑Scanning – Erkennen und Auslesen von Barcodes in Dokumenten.
  • OCR support – Perform optical character recognition on scanned PDFs and raster images, with optional spell‑checking.
  • OCR‑Unterstützung – Durchführen von optischer Zeichenerkennung in gescannten PDFs und Rasterbildern, optional mit Rechtschreibprüfung.
  • Metadata extraction – Access document properties like author, creation date, and custom metadata.
  • Metadatenextraktion – Zugriff auf Dokumenteneigenschaften wie Autor, Erstellungsdatum und benutzerdefinierte Metadaten.
  • Table of contents extraction – Retrieve TOC structures from supported formats.
  • Inhaltsverzeichnis‑Extraktion – Abrufen von TOC‑Strukturen aus unterstützten Formaten.
  • Hyperlink extraction – Extract hyperlinks (currently limited to a subset of formats).
  • Hyperlink‑Extraktion – Extrahieren von Hyperlinks (derzeit auf einen Teil der Formate beschränkt).

Supported document formats

Unterstützte Dokumentformate

  • Word processing – DOC, DOCX, RTF, TXT, ODT
  • Textverarbeitung – DOC, DOCX, RTF, TXT, ODT
  • PDF & markup – PDF, HTML/MHTML, Markdown, XML
  • PDF & Markup – PDF, HTML/MHTML, Markdown, XML
  • Spreadsheets – XLS, XLSX, ODS, CSV
  • Tabellenkalkulationen – XLS, XLSX, ODS, CSV
  • Presentations – PPT, PPTX, ODP
  • Präsentationen – PPT, PPTX, ODP
  • Email & notes – PST, OST, EML, MSG, ONE
  • E‑Mails & Notizen – PST, OST, EML, MSG, ONE
  • eBooks & web content – EPUB, MOBI, AZW3, CHM, FB2
  • E‑Books & Web‑Inhalte – EPUB, MOBI, AZW3, CHM, FB2
  • Images – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Bilder – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archives & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
  • Archive & Container – ZIP, RAR, 7Z, TAR, GZ, BZ2

Platform support

Plattformunterstützung

  • Windows, Linux, and macOS
  • Windows, Linux und macOS
  • Python 3.5+

Installation

Installation

  1. Download the appropriate WHL package for your platform from the GroupDocs Releases page:

    1. Laden Sie das passende WHL‑Paket für Ihre Plattform von der GroupDocs Releases page herunter:
    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Install the package with pip (replace * with the actual file name you downloaded):

  3. Installieren Sie das Paket mit pip (ersetzen Sie * durch den tatsächlichen Dateinamen, den Sie heruntergeladen haben):

pip install groupdocs_parser_net-25.12-*.whl

Getting started

Erste Schritte

The following snippet shows how to extract plain text from a PDF file:

Das folgende Snippet zeigt, wie Sie reinen Text aus einer PDF‑Datei extrahieren:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

For more complex scenarios—such as using templates, OCR, or barcode scanning—refer to the API reference and the code samples repository linked below.

Für komplexere Szenarien – wie die Verwendung von Vorlagen, OCR oder Barcode‑Scanning – siehe die API‑Referenz und das unten verlinkte Repository mit Code‑Beispielen.

How to get the update

Wie Sie das Update erhalten

  • Direct download – Choose the WHL package matching your OS from the GroupDocs Releases page.

  • Direkter Download – Wählen Sie das WHL‑Paket, das zu Ihrem Betriebssystem passt, von der GroupDocs Releases page.

  • pip upgrade – Once a newer version is published, upgrade with:

  • pip‑Upgrade – Sobald eine neuere Version veröffentlicht wurde, aktualisieren Sie mit:

pip install --upgrade groupdocs_parser_net

Resources

Ressourcen