We zijn blij de eerste release van GroupDocs.Parser for Python via .NET 25.12 aan te kondigen, beschikbaar vanaf December 2025. Deze initiële versie brengt de volledige kracht van de .NET‑parsing engine naar Python‑ontwikkelaars, waarmee ze tekst, afbeeldingen, bijlagen, barcodes, OCR‑inhoud en gestructureerde gegevens uit een breed scala aan documentformaten kunnen extraheren.
Wat is nieuw in deze release
Belangrijke functies
- Tekst extractie – Haal platte of opgemaakte tekst op uit PDF’s, Office‑documenten, e‑mails, e‑books, archieven en meer.
- Geavanceerd zoeken – Toegang tot paginaniveau met hoofdlettergevoelige, volledige‑woord‑ en reguliere‑expressie‑zoekopties.
- Gestructureerde inhoud parseren – Detecteer en extraheren van de documenthiërarchie zoals koppen, alinea’s, tabellen en aangepaste tekstgebieden.
- Sjabloon‑parsing – Gebruik vooraf gedefinieerde sjablonen om sterk getypeerde velden uit facturen, ontvangstbewijzen en andere zakelijke documenten te halen.
- Afbeeldingsextractie – Haal ingesloten rasterafbeeldingen uit ondersteunde document‑ en afbeeldingsformaten op.
- Bijlage‑extractie – Exporteer bestandsbijlagen die in documenten zijn ingesloten.
- Barcode‑scannen – Detecteer en lees barcodes die in documenten aanwezig zijn.
- OCR‑ondersteuning – Voer optische tekenherkenning uit op gescande PDF’s en rasterafbeeldingen, met optionele spellingscontrole.
- Metadata‑extractie – Toegang tot documenteigenschappen zoals auteur, aanmaakdatum en aangepaste metadata.
- Inhoudsopgave‑extractie – Haal inhoudsopgave‑structuren op uit ondersteunde formaten.
- Hyperlink‑extractie – Extraheer hyperlinks (momenteel beperkt tot een subset van formaten).
Ondersteunde documentformaten
- Tekstverwerking – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- Spreadsheets – XLS, XLSX, ODS, CSV
- Presentaties – PPT, PPTX, ODP
- E‑mail & notities – PST, OST, EML, MSG, ONE
- E‑books & webinhoud – EPUB, MOBI, AZW3, CHM, FB2
- Afbeeldingen – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archieven & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
Platformondersteuning
- Windows, Linux en macOS
- Python 3.5+
Installatie
-
Download het juiste WHL‑pakket voor uw platform van de GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Installeer het pakket met pip (vervang
*door de daadwerkelijke bestandsnaam die u hebt gedownload):
pip install groupdocs_parser_net-25.12-*.whl
Aan de slag
De volgende code‑fragment toont hoe u platte tekst uit een PDF‑bestand kunt extraheren:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Voor meer complexe scenario’s—zoals het gebruik van sjablonen, OCR of barcode‑scannen—raadpleeg de API‑referentie en de code‑voorbeelden‑repository die hieronder is gelinkt.
Hoe de update te verkrijgen
- Directe download – Kies het WHL‑pakket dat overeenkomt met uw OS op de GroupDocs Releases page.
- pip‑upgrade – Zodra een nieuwere versie is gepubliceerd, upgrade met:
pip install --upgrade groupdocs_parser_net