We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

What’s new in this release

Novidades desta versão

Major features

Principais recursos

  • Text extraction – Retrieve plain or formatted text from PDFs, Office documents, emails, e‑books, archives and more.
    Extração de texto – Recupera texto simples ou formatado de PDFs, documentos Office, e‑mails, e‑books, arquivos e muito mais.
  • Advanced search – Page‑level access with case‑sensitive, whole‑word, and regular‑expression search options.
    Pesquisa avançada – Acesso nível de página com opções de pesquisa sensível a maiúsculas/minúsculas, palavra inteira e expressões regulares.
  • Structured content parsing – Detect and extract document hierarchy such as headings, paragraphs, tables and custom text areas.
    Análise de conteúdo estruturado – Detecta e extrai a hierarquia do documento, como títulos, parágrafos, tabelas e áreas de texto personalizadas.
  • Template parsing – Use predefined templates to pull strongly‑typed fields from invoices, receipts and other business documents.
    Análise por modelo – Use modelos predefinidos para extrair campos tipados de faturas, recibos e outros documentos empresariais.
  • Image extraction – Pull embedded raster images from supported document and image formats.
    Extração de imagens – Extrai imagens raster incorporadas de formatos de documentos e imagens suportados.
  • Attachment extraction – Export file attachments embedded in documents.
    Extração de anexos – Exporta arquivos anexos incorporados em documentos.
  • Barcode scanning – Detect and read barcodes present in documents.
    Leitura de códigos de barras – Detecta e lê códigos de barras presentes em documentos.
  • OCR support – Perform optical character recognition on scanned PDFs and raster images, with optional spell‑checking.
    Suporte a OCR – Executa reconhecimento óptico de caracteres em PDFs escaneados e imagens raster, com correção ortográfica opcional.
  • Metadata extraction – Access document properties like author, creation date, and custom metadata.
    Extração de metadados – Acessa propriedades do documento como autor, data de criação e metadados personalizados.
  • Table of contents extraction – Retrieve TOC structures from supported formats.
    Extração de índice – Recupera estruturas de sumário dos formatos suportados.
  • Hyperlink extraction – Extract hyperlinks (currently limited to a subset of formats).
    Extração de hyperlinks – Extrai hyperlinks (atualmente limitado a um subconjunto de formatos).

Supported document formats

Formatos de documento suportados

  • Word processing – DOC, DOCX, RTF, TXT, ODT
  • Processamento de texto – DOC, DOCX, RTF, TXT, ODT
  • PDF & markup – PDF, HTML/MHTML, Markdown, XML
  • PDF e marcação – PDF, HTML/MHTML, Markdown, XML
  • Spreadsheets – XLS, XLSX, ODS, CSV
  • Planilhas – XLS, XLSX, ODS, CSV
  • Presentations – PPT, PPTX, ODP
  • Apresentações – PPT, PPTX, ODP
  • Email & notes – PST, OST, EML, MSG, ONE
  • E‑mail e notas – PST, OST, EML, MSG, ONE
  • eBooks & web content – EPUB, MOBI, AZW3, CHM, FB2
  • eBooks e conteúdo web – EPUB, MOBI, AZW3, CHM, FB2
  • Images – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Imagens – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archives & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
  • Arquivos e contêineres – ZIP, RAR, 7Z, TAR, GZ, BZ2

Platform support

Suporte de plataforma

  • Windows, Linux, and macOS
  • Windows, Linux e macOS
  • Python 3.5+

Installation

Instalação

  1. Download the appropriate WHL package for your platform from the GroupDocs Releases page:
    Baixe o pacote WHL adequado para sua plataforma na página de lançamentos do GroupDocs:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Install the package with pip (replace * with the actual file name you downloaded):

  3. Instale o pacote com pip (substitua * pelo nome real do arquivo que você baixou):

pip install groupdocs_parser_net-25.12-*.whl

Getting started

Começando

The following snippet shows how to extract plain text from a PDF file: O trecho a seguir demonstra como extrair texto simples de um arquivo PDF:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

For more complex scenarios—such as using templates, OCR, or barcode scanning—refer to the API reference and the code samples repository linked below. Para cenários mais complexos – como uso de modelos, OCR ou leitura de códigos de barras – consulte a referência da API e o repositório de exemplos de código linkado abaixo.

How to get the update

Como obter a atualização

  • Direct download – Choose the WHL package matching your OS from the GroupDocs Releases page.
    Download direto – Escolha o pacote WHL que corresponde ao seu SO na página de lançamentos do GroupDocs.
  • pip upgrade – Once a newer version is published, upgrade with: Atualização via pip – Quando uma nova versão for publicada, atualize com:
pip install --upgrade groupdocs_parser_net

Resources

Recursos