Siamo felici di annunciare la prima versione di GroupDocs.Parser for Python via .NET 25.12, disponibile a partire da dicembre 2025. Questa versione iniziale porta la potenza completa del motore di parsing .NET agli sviluppatori Python, consentendo l’estrazione di testo, immagini, allegati, codici a barre, contenuti OCR e dati strutturati da una vasta gamma di formati di documento.
Cosa c’è di nuovo in questa versione
Caratteristiche principali
- Estrazione del testo – Recupera testo semplice o formattato da PDF, documenti Office, email, e‑book, archivi e altro.
- Ricerca avanzata – Accesso a livello di pagina con opzioni di ricerca sensibili al maiuscolo/minuscolo, parole intere e espressioni regolari.
- Parsing di contenuti strutturati – Rileva ed estrae la gerarchia del documento come titoli, paragrafi, tabelle e aree di testo personalizzate.
- Parsing di template – Usa template predefiniti per estrarre campi tipizzati da fatture, ricevute e altri documenti aziendali.
- Estrazione di immagini – Estrai immagini raster incorporate dai formati di documento e immagine supportati.
- Estrazione di allegati – Esporta gli allegati di file incorporati nei documenti.
- Scansione di codici a barre – Rileva e legge i codici a barre presenti nei documenti.
- Supporto OCR – Esegui il riconoscimento ottico dei caratteri su PDF scansionati e immagini raster, con correzione ortografica opzionale.
- Estrazione di metadati – Accedi alle proprietà del documento come autore, data di creazione e metadati personalizzati.
- Estrazione dell’indice – Recupera le strutture dell’indice (TOC) dai formati supportati.
- Estrazione di hyperlink – Estrai i collegamenti ipertestuali (attualmente limitato a un sottoinsieme di formati).
Formati di documento supportati
- Elaborazione testi – DOC, DOCX, RTF, TXT, ODT
- PDF e markup – PDF, HTML/MHTML, Markdown, XML
- Fogli di calcolo – XLS, XLSX, ODS, CSV
- Presentazioni – PPT, PPTX, ODP
- Email e note – PST, OST, EML, MSG, ONE
- eBook e contenuti web – EPUB, MOBI, AZW3, CHM, FB2
- Immagini – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archivi e contenitori – ZIP, RAR, 7Z, TAR, GZ, BZ2
Supporto piattaforma
- Windows, Linux e macOS
- Python 3.5+
Installazione
-
Scarica il pacchetto WHL appropriato per la tua piattaforma dalla pagina dei rilasci GroupDocs:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Installa il pacchetto con pip (sostituisci
*con il nome effettivo del file scaricato):
pip install groupdocs_parser_net-25.12-*.whl
Iniziare
La seguente snippet mostra come estrarre testo semplice da un file PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Per scenari più complessi — come l’uso di template, OCR o la scansione di codici a barre — consulta la documentazione API e il repository di esempi di codice collegato di seguito.
Come ottenere l’aggiornamento
- Download diretto – Scegli il pacchetto WHL corrispondente al tuo sistema operativo dalla pagina dei rilasci GroupDocs.
- Aggiornamento pip – Quando viene pubblicata una nuova versione, aggiorna con:
pip install --upgrade groupdocs_parser_net