Nous sommes heureux d’annoncer la première version de GroupDocs.Parser pour Python via .NET 25.12, disponible à partir de décembre 2025. Cette version initiale apporte toute la puissance du moteur d’analyse .NET aux développeurs Python, permettant l’extraction de texte, d’images, de pièces jointes, de codes‑barres, de contenu OCR et de données structurées à partir d’un large éventail de formats de documents.

Nouveautés de cette version

Principales fonctionnalités

  • Extraction de texte – Récupérer du texte brut ou formaté à partir de PDFs, de documents Office, d’e‑mails, de livres numériques, d’archives et plus encore.
  • Recherche avancée – Accès au niveau de la page avec des options de recherche sensible à la casse, mot‑entier et expression régulière.
  • Analyse de contenu structuré – Détecter et extraire la hiérarchie du document telle que titres, paragraphes, tables et zones de texte personnalisées.
  • Analyse de modèles – Utiliser des modèles prédéfinis pour extraire des champs fortement typés à partir de factures, reçus et autres documents métiers.
  • Extraction d’images – Extraire les images raster intégrées à partir des formats de documents et d’images pris en charge.
  • Extraction de pièces jointes – Exporter les fichiers joints intégrés aux documents.
  • Lecture de codes‑barres – Détecter et lire les codes‑barres présents dans les documents.
  • Support OCR – Effectuer la reconnaissance optique de caractères sur les PDFs numérisés et les images raster, avec option de vérification orthographique.
  • Extraction de métadonnées – Accéder aux propriétés du document telles que l’auteur, la date de création et les métadonnées personnalisées.
  • Extraction de table des matières – Récupérer les structures de TOC à partir des formats pris en charge.
  • Extraction de liens hypertexte – Extraire les hyperliens (actuellement limité à un sous‑ensemble de formats).

Formats de documents pris en charge

  • Traitement de texte – DOC, DOCX, RTF, TXT, ODT
  • PDF & balisage – PDF, HTML/MHTML, Markdown, XML
  • Tableurs – XLS, XLSX, ODS, CSV
  • Présentations – PPT, PPTX, ODP
  • E‑mail & notes – PST, OST, EML, MSG, ONE
  • Livres numériques & contenu web – EPUB, MOBI, AZW3, CHM, FB2
  • Images – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archives & conteneurs – ZIP, RAR, 7Z, TAR, GZ, BZ2

Compatibilité plateforme

  • Windows, Linux et macOS
  • Python 3.5+

Installation

  1. Téléchargez le package WHL approprié pour votre plateforme depuis la page des releases GroupDocs :

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Installez le package avec pip (remplacez * par le nom réel du fichier que vous avez téléchargé) :

pip install groupdocs_parser_net-25.12-*.whl

Premiers pas

L’extrait de code suivant montre comment extraire le texte brut d’un fichier PDF :

from groupdocs.parser import Parser

# Créez une instance de Parser pour votre document
with Parser("sample.pdf") as parser:
    # Extrayez le texte du document
    text = parser.GetText()
    
    # Affichez tout le texte extrait dans la console
    print(text)

Pour des scénarios plus complexes — comme l’utilisation de modèles, l’OCR ou la lecture de codes‑barres — consultez la référence API et le dépôt d’exemples de code indiqués ci‑dessous.

Comment obtenir la mise à jour

  • Téléchargement direct – Choisissez le package WHL correspondant à votre OS depuis la page des releases GroupDocs.
  • Mise à jour pip – Lorsqu’une version plus récente est publiée, mettez‑à‑jour avec :
pip install --upgrade groupdocs_parser_net

Ressources