Nos complace anunciar el primer lanzamiento de GroupDocs.Parser for Python via .NET 25.12, disponible a partir de diciembre 2025. Esta versión inicial lleva todo el poder del motor de análisis .NET a los desarrolladores de Python, permitiendo la extracción de texto, imágenes, archivos adjuntos, códigos de barras, contenido OCR y datos estructurados de una amplia gama de formatos de documentos.
Novedades en esta versión
Principales características
- Extracción de texto – Recupera texto plano o con formato de PDFs, documentos de Office, correos electrónicos, libros electrónicos, archivos y más.
- Búsqueda avanzada – Acceso a nivel de página con opciones de búsqueda sensible a mayúsculas, coincidencia de palabra completa y expresiones regulares.
- Análisis de contenido estructurado – Detecta y extrae la jerarquía del documento, como encabezados, párrafos, tablas y áreas de texto personalizadas.
- Análisis de plantillas – Utiliza plantillas predefinidas para extraer campos fuertemente tipados de facturas, recibos y otros documentos empresariales.
- Extracción de imágenes – Extrae imágenes raster incrustadas de los formatos de documento e imagen compatibles.
- Extracción de archivos adjuntos – Exporta los archivos adjuntos incrustados en los documentos.
- Escaneo de códigos de barras – Detecta y lee los códigos de barras presentes en los documentos.
- Compatibilidad OCR – Realiza reconocimiento óptico de caracteres en PDFs escaneados e imágenes raster, con corrección ortográfica opcional.
- Extracción de metadatos – Accede a propiedades del documento como autor, fecha de creación y metadatos personalizados.
- Extracción de tabla de contenidos – Recupera estructuras de tabla de contenidos de los formatos compatibles.
- Extracción de hipervínculos – Extrae hipervínculos (actualmente limitado a un subconjunto de formatos).
Formatos de documento compatibles
- Procesamiento de texto – DOC, DOCX, RTF, TXT, ODT
- PDF y marcado – PDF, HTML/MHTML, Markdown, XML
- Hojas de cálculo – XLS, XLSX, ODS, CSV
- Presentaciones – PPT, PPTX, ODP
- Correo electrónico y notas – PST, OST, EML, MSG, ONE
- Libros electrónicos y contenido web – EPUB, MOBI, AZW3, CHM, FB2
- Imágenes – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archivos y contenedores – ZIP, RAR, 7Z, TAR, GZ, BZ2
Compatibilidad de plataformas
- Windows, Linux y macOS
- Python 3.5+
Instalación
-
Descargue el paquete WHL apropiado para su plataforma desde la GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Instale el paquete con pip (reemplace
*con el nombre real del archivo que descargó):
pip install groupdocs_parser_net-25.12-*.whl
Primeros pasos
El siguiente fragmento muestra cómo extraer texto plano de un archivo PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Para escenarios más complejos —como el uso de plantillas, OCR o escaneo de códigos de barras— consulte la referencia de la API y el repositorio de ejemplos de código enlazado a continuación.
Cómo obtener la actualización
- Descarga directa – Elija el paquete WHL que coincida con su sistema operativo desde la GroupDocs Releases page.
- Actualización con pip – Una vez que se publique una versión más reciente, actualice con:
pip install --upgrade groupdocs_parser_net
Recursos
- Documentación
- Referencia de API
- Demostraciones en vivo
- Ejemplos de código en GitHub
- Free Support Forum