GroupDocs.Parser pour Python 25.12 – dernières mises à jour et correctifs (décembre 2025)

Nous sommes heureux d’annoncer la première version de GroupDocs.Parser pour Python via .NET 25.12, disponible à partir de décembre 2025. Cette version initiale apporte toute la puissance du moteur d’analyse .NET aux développeurs Python, permettant l’extraction de texte, d’images, de pièces jointes, de codes‑barres, de contenu OCR et de données structurées à partir d’un large éventail de formats de documents.

Nouveautés de cette version

Principales fonctionnalités

Extraction de texte – Récupérer du texte brut ou formaté à partir de PDFs, de documents Office, d’e‑mails, de livres numériques, d’archives et plus encore.
Recherche avancée – Accès au niveau de la page avec des options de recherche sensible à la casse, mot‑entier et expression régulière.
Analyse de contenu structuré – Détecter et extraire la hiérarchie du document telle que titres, paragraphes, tables et zones de texte personnalisées.
Analyse de modèles – Utiliser des modèles prédéfinis pour extraire des champs fortement typés à partir de factures, reçus et autres documents métiers.
Extraction d’images – Extraire les images raster intégrées à partir des formats de documents et d’images pris en charge.
Extraction de pièces jointes – Exporter les fichiers joints intégrés aux documents.
Lecture de codes‑barres – Détecter et lire les codes‑barres présents dans les documents.
Support OCR – Effectuer la reconnaissance optique de caractères sur les PDFs numérisés et les images raster, avec option de vérification orthographique.
Extraction de métadonnées – Accéder aux propriétés du document telles que l’auteur, la date de création et les métadonnées personnalisées.
Extraction de table des matières – Récupérer les structures de TOC à partir des formats pris en charge.
Extraction de liens hypertexte – Extraire les hyperliens (actuellement limité à un sous‑ensemble de formats).

Formats de documents pris en charge

Traitement de texte – DOC, DOCX, RTF, TXT, ODT
PDF & balisage – PDF, HTML/MHTML, Markdown, XML
Tableurs – XLS, XLSX, ODS, CSV
Présentations – PPT, PPTX, ODP
E‑mail & notes – PST, OST, EML, MSG, ONE
Livres numériques & contenu web – EPUB, MOBI, AZW3, CHM, FB2
Images – JPEG, PNG, TIFF, GIF, BMP, SVG
Archives & conteneurs – ZIP, RAR, 7Z, TAR, GZ, BZ2

Compatibilité plateforme

Windows, Linux et macOS
Python 3.5+

Installation

Téléchargez le package WHL approprié pour votre plateforme depuis la page des releases GroupDocs :
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Installez le package avec pip (remplacez * par le nom réel du fichier que vous avez téléchargé) :

pip install groupdocs_parser_net-25.12-*.whl

Premiers pas

L’extrait de code suivant montre comment extraire le texte brut d’un fichier PDF :

from groupdocs.parser import Parser

# Créez une instance de Parser pour votre document
with Parser("sample.pdf") as parser:
    # Extrayez le texte du document
    text = parser.GetText()
    
    # Affichez tout le texte extrait dans la console
    print(text)

Pour des scénarios plus complexes — comme l’utilisation de modèles, l’OCR ou la lecture de codes‑barres — consultez la référence API et le dépôt d’exemples de code indiqués ci‑dessous.

Comment obtenir la mise à jour

Téléchargement direct – Choisissez le package WHL correspondant à votre OS depuis la page des releases GroupDocs.
Mise à jour pip – Lorsqu’une version plus récente est publiée, mettez‑à‑jour avec :

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser pour Python 25.12 – Décembre 2025 Points forts de la version

Nouveautés de cette version

Principales fonctionnalités

Formats de documents pris en charge

Compatibilité plateforme

Installation

Premiers pas

Comment obtenir la mise à jour

Ressources

Nouveautés de cette version#

Principales fonctionnalités#

Formats de documents pris en charge#

Compatibilité plateforme#

Installation#

Premiers pas#

Comment obtenir la mise à jour#

Ressources#

Nouveautés de cette version

Principales fonctionnalités

Formats de documents pris en charge

Compatibilité plateforme

Installation

Premiers pas

Comment obtenir la mise à jour

Ressources