Nos complace anunciar el primer lanzamiento de GroupDocs.Parser for Python via .NET 25.12, disponible a partir de diciembre 2025. Esta versión inicial lleva todo el poder del motor de análisis .NET a los desarrolladores de Python, permitiendo la extracción de texto, imágenes, archivos adjuntos, códigos de barras, contenido OCR y datos estructurados de una amplia gama de formatos de documentos.

Novedades en esta versión

Principales características

  • Extracción de texto – Recupera texto plano o con formato de PDFs, documentos de Office, correos electrónicos, libros electrónicos, archivos y más.
  • Búsqueda avanzada – Acceso a nivel de página con opciones de búsqueda sensible a mayúsculas, coincidencia de palabra completa y expresiones regulares.
  • Análisis de contenido estructurado – Detecta y extrae la jerarquía del documento, como encabezados, párrafos, tablas y áreas de texto personalizadas.
  • Análisis de plantillas – Utiliza plantillas predefinidas para extraer campos fuertemente tipados de facturas, recibos y otros documentos empresariales.
  • Extracción de imágenes – Extrae imágenes raster incrustadas de los formatos de documento e imagen compatibles.
  • Extracción de archivos adjuntos – Exporta los archivos adjuntos incrustados en los documentos.
  • Escaneo de códigos de barras – Detecta y lee los códigos de barras presentes en los documentos.
  • Compatibilidad OCR – Realiza reconocimiento óptico de caracteres en PDFs escaneados e imágenes raster, con corrección ortográfica opcional.
  • Extracción de metadatos – Accede a propiedades del documento como autor, fecha de creación y metadatos personalizados.
  • Extracción de tabla de contenidos – Recupera estructuras de tabla de contenidos de los formatos compatibles.
  • Extracción de hipervínculos – Extrae hipervínculos (actualmente limitado a un subconjunto de formatos).

Formatos de documento compatibles

  • Procesamiento de texto – DOC, DOCX, RTF, TXT, ODT
  • PDF y marcado – PDF, HTML/MHTML, Markdown, XML
  • Hojas de cálculo – XLS, XLSX, ODS, CSV
  • Presentaciones – PPT, PPTX, ODP
  • Correo electrónico y notas – PST, OST, EML, MSG, ONE
  • Libros electrónicos y contenido web – EPUB, MOBI, AZW3, CHM, FB2
  • Imágenes – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archivos y contenedores – ZIP, RAR, 7Z, TAR, GZ, BZ2

Compatibilidad de plataformas

  • Windows, Linux y macOS
  • Python 3.5+

Instalación

  1. Descargue el paquete WHL apropiado para su plataforma desde la GroupDocs Releases page:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Instale el paquete con pip (reemplace * con el nombre real del archivo que descargó):

pip install groupdocs_parser_net-25.12-*.whl

Primeros pasos

El siguiente fragmento muestra cómo extraer texto plano de un archivo PDF:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Para escenarios más complejos —como el uso de plantillas, OCR o escaneo de códigos de barras— consulte la referencia de la API y el repositorio de ejemplos de código enlazado a continuación.

Cómo obtener la actualización

  • Descarga directa – Elija el paquete WHL que coincida con su sistema operativo desde la GroupDocs Releases page.
  • Actualización con pip – Una vez que se publique una versión más reciente, actualice con:
pip install --upgrade groupdocs_parser_net

Recursos