We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.
Nos complace anunciar la primera versión de GroupDocs.Parser for Python via .NET 25.12, disponible a partir de diciembre 2025. Esta versión inicial lleva todo el poder del motor de análisis .NET a los desarrolladores de Python, permitiendo la extracción de texto, imágenes, archivos adjuntos, códigos de barras, contenido OCR y datos estructurados de una amplia gama de formatos de documentos.
What’s new in this release
Novedades en esta versión
Major features
Principales características
- Text extraction – Retrieve plain or formatted text from PDFs, Office documents, emails, e‑books, archives and more.
- Extracción de texto – Recupera texto plano o con formato de PDFs, documentos de Office, correos electrónicos, libros electrónicos, archivos y más.
- Advanced search – Page‑level access with case‑sensitive, whole‑word, and regular‑expression search options.
- Búsqueda avanzada – Acceso a nivel de página con opciones de búsqueda sensible a mayúsculas, coincidencia de palabra completa y expresiones regulares.
- Structured content parsing – Detect and extract document hierarchy such as headings, paragraphs, tables and custom text areas.
- Análisis de contenido estructurado – Detecta y extrae la jerarquía del documento como encabezados, párrafos, tablas y áreas de texto personalizadas.
- Template parsing – Use predefined templates to pull strongly‑typed fields from invoices, receipts and other business documents.
- Análisis basado en plantillas – Utiliza plantillas predefinidas para extraer campos fuertemente tipados de facturas, recibos y otros documentos comerciales.
- Image extraction – Pull embedded raster images from supported document and image formats.
- Extracción de imágenes – Obtén imágenes raster incrustadas de los formatos de documento e imagen soportados.
- Attachment extraction – Export file attachments embedded in documents.
- Extracción de archivos adjuntos – Exporta los archivos adjuntos incrustados en los documentos.
- Barcode scanning – Detect and read barcodes present in documents.
- Escaneo de códigos de barras – Detecta y lee códigos de barras presentes en los documentos.
- OCR support – Perform optical character recognition on scanned PDFs and raster images, with optional spell‑checking.
- Soporte OCR – Realiza reconocimiento óptico de caracteres en PDFs escaneados e imágenes raster, con corrección ortográfica opcional.
- Metadata extraction – Access document properties like author, creation date, and custom metadata.
- Extracción de metadatos – Accede a propiedades del documento como autor, fecha de creación y metadatos personalizados.
- Table of contents extraction – Retrieve TOC structures from supported formats.
- Extracción de tabla de contenido – Recupera estructuras de índice de los formatos compatibles.
- Hyperlink extraction – Extract hyperlinks (currently limited to a subset of formats).
- Extracción de hipervínculos – Extrae hipervínculos (actualmente limitado a un subconjunto de formatos).
Supported document formats
Formatos de documento compatibles
- Word processing – DOC, DOCX, RTF, TXT, ODT
- Procesamiento de texto – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- PDF y marcado – PDF, HTML/MHTML, Markdown, XML
- Spreadsheets – XLS, XLSX, ODS, CSV
- Hojas de cálculo – XLS, XLSX, ODS, CSV
- Presentations – PPT, PPTX, ODP
- Presentaciones – PPT, PPTX, ODP
- Email & notes – PST, OST, EML, MSG, ONE
- Correo electrónico y notas – PST, OST, EML, MSG, ONE
- eBooks & web content – EPUB, MOBI, AZW3, CHM, FB2
- eBooks y contenido web – EPUB, MOBI, AZW3, CHM, FB2
- Images – JPEG, PNG, TIFF, GIF, BMP, SVG
- Imágenes – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archives & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
- Archivos y contenedores – ZIP, RAR, 7Z, TAR, GZ, BZ2
Platform support
Compatibilidad de plataforma
- Windows, Linux, and macOS
- Windows, Linux y macOS
- Python 3.5+
- Python 3.5+
Installation
Instalación
-
Download the appropriate WHL package for your platform from the GroupDocs Releases page:
- Descarga el paquete WHL apropiado para tu plataforma desde la página de lanzamientos de GroupDocs:
- Windows x64
- Windows x64
- Windows x32
- Windows x32
- Linux
- Linux
- macOS
- macOS
- macOS ARM
- macOS ARM
-
Install the package with pip (replace
*with the actual file name you downloaded): -
Instala el paquete con pip (reemplaza
*por el nombre real del archivo que descargaste):
pip install groupdocs_parser_net-25.12-*.whl
Getting started
Comenzando
The following snippet shows how to extract plain text from a PDF file:
El siguiente fragmento muestra cómo extraer texto plano de un archivo PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
For more complex scenarios—such as using templates, OCR, or barcode scanning—refer to the API reference and the code samples repository linked below.
Para escenarios más complejos —como el uso de plantillas, OCR o escaneo de códigos de barras— consulta la referencia de la API y el repositorio de ejemplos de código enlazado a continuación.
How to get the update
Cómo obtener la actualización
-
Direct download – Choose the WHL package matching your OS from the GroupDocs Releases page.
-
Descarga directa – Elige el paquete WHL que coincida con tu SO desde la página de lanzamientos de GroupDocs.
-
pip upgrade – Once a newer version is published, upgrade with:
-
Actualización con pip – Cuando se publique una versión más reciente, actualiza con:
pip install --upgrade groupdocs_parser_net