Siamo felici di annunciare la prima versione di GroupDocs.Parser for Python via .NET 25.12, disponibile a partire da dicembre 2025. Questa versione iniziale porta la potenza completa del motore di parsing .NET agli sviluppatori Python, consentendo l’estrazione di testo, immagini, allegati, codici a barre, contenuti OCR e dati strutturati da una vasta gamma di formati di documento.

Cosa c’è di nuovo in questa versione

Caratteristiche principali

  • Estrazione del testo – Recupera testo semplice o formattato da PDF, documenti Office, email, e‑book, archivi e altro.
  • Ricerca avanzata – Accesso a livello di pagina con opzioni di ricerca sensibili al maiuscolo/minuscolo, parole intere e espressioni regolari.
  • Parsing di contenuti strutturati – Rileva ed estrae la gerarchia del documento come titoli, paragrafi, tabelle e aree di testo personalizzate.
  • Parsing di template – Usa template predefiniti per estrarre campi tipizzati da fatture, ricevute e altri documenti aziendali.
  • Estrazione di immagini – Estrai immagini raster incorporate dai formati di documento e immagine supportati.
  • Estrazione di allegati – Esporta gli allegati di file incorporati nei documenti.
  • Scansione di codici a barre – Rileva e legge i codici a barre presenti nei documenti.
  • Supporto OCR – Esegui il riconoscimento ottico dei caratteri su PDF scansionati e immagini raster, con correzione ortografica opzionale.
  • Estrazione di metadati – Accedi alle proprietà del documento come autore, data di creazione e metadati personalizzati.
  • Estrazione dell’indice – Recupera le strutture dell’indice (TOC) dai formati supportati.
  • Estrazione di hyperlink – Estrai i collegamenti ipertestuali (attualmente limitato a un sottoinsieme di formati).

Formati di documento supportati

  • Elaborazione testi – DOC, DOCX, RTF, TXT, ODT
  • PDF e markup – PDF, HTML/MHTML, Markdown, XML
  • Fogli di calcolo – XLS, XLSX, ODS, CSV
  • Presentazioni – PPT, PPTX, ODP
  • Email e note – PST, OST, EML, MSG, ONE
  • eBook e contenuti web – EPUB, MOBI, AZW3, CHM, FB2
  • Immagini – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archivi e contenitori – ZIP, RAR, 7Z, TAR, GZ, BZ2

Supporto piattaforma

  • Windows, Linux e macOS
  • Python 3.5+

Installazione

  1. Scarica il pacchetto WHL appropriato per la tua piattaforma dalla pagina dei rilasci GroupDocs:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Installa il pacchetto con pip (sostituisci * con il nome effettivo del file scaricato):

pip install groupdocs_parser_net-25.12-*.whl

Iniziare

La seguente snippet mostra come estrarre testo semplice da un file PDF:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Per scenari più complessi — come l’uso di template, OCR o la scansione di codici a barre — consulta la documentazione API e il repository di esempi di codice collegato di seguito.

Come ottenere l’aggiornamento

  • Download diretto – Scegli il pacchetto WHL corrispondente al tuo sistema operativo dalla pagina dei rilasci GroupDocs.
  • Aggiornamento pip – Quando viene pubblicata una nuova versione, aggiorna con:
pip install --upgrade groupdocs_parser_net

Risorse