GroupDocs.Parser pro Python 25.12 – nejnovější aktualizace a opravy (prosinec 2025)

Jsme rádi, že můžeme oznámit první vydání GroupDocs.Parser for Python via .NET 25.12, dostupné od prosince 2025. Tato počáteční verze přináší plnou sílu .NET parsovacího enginu pro vývojáře Pythonu, umožňující extrakci textu, obrázků, příloh, čárových kódů, OCR obsahu a strukturovaných dat z široké škály formátů dokumentů.

Co je nového v tomto vydání

Hlavní funkce

Extrahování textu – Získávat prostý nebo formátovaný text z PDF, Office dokumentů, e‑mailů, e‑knih, archivů a dalších.
Pokročilé vyhledávání – Cílový přístup na úrovni stránky s možnostmi vyhledávání rozlišujícího velikost písmen, celých slov a regulárních výrazů.
Parsování strukturovaného obsahu – Detekovat a extrahovat hierarchii dokumentu, např. nadpisy, odstavce, tabulky a vlastní textové oblasti.
Parsování šablon – Použít předdefinované šablony k získání silně typovaných polí z faktur, účtenek a dalších obchodních dokumentů.
Extrahování obrázků – Extrahovat vložené rastrové obrázky ze podporovaných dokumentových a obrazových formátů.
Extrahování příloh – Exportovat souborové přílohy vložené v dokumentech.
Skenování čárových kódů – Detekovat a číst čárové kódy přítomné v dokumentech.
Podpora OCR – Provádět optické rozpoznávání znaků (OCR) na naskenovaných PDF a rastrových obrázcích, s volitelnou kontrolou pravopisu.
Extrahování metadat – Přistupovat k vlastnostem dokumentu, jako je autor, datum vytvoření a vlastní metadata.
Extrahování obsahu – Získávat struktury obsahu (TOC) z podporovaných formátů.
Extrahování hypertextových odkazů – Extrahovat hypertextové odkazy (v současnosti omezeno na podmnožinu formátů).

Podporované formáty dokumentů

Zpracování textu – DOC, DOCX, RTF, TXT, ODT
PDF a značkovací jazyky – PDF, HTML/MHTML, Markdown, XML
Tabulky – XLS, XLSX, ODS, CSV
Prezentace – PPT, PPTX, ODP
E‑mail a poznámky – PST, OST, EML, MSG, ONE
eKnihy a webový obsah – EPUB, MOBI, AZW3, CHM, FB2
Obrázky – JPEG, PNG, TIFF, GIF, BMP, SVG
Archivy a kontejnery – ZIP, RAR, 7Z, TAR, GZ, BZ2

Podpora platforem

Windows, Linux a macOS
Python 3.5+

Instalace

Stáhněte si odpovídající WHL balíček pro vaši platformu ze GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Instalujte balíček pomocí pip (nahraďte * skutečným názvem souboru, který jste stáhli):

pip install groupdocs_parser_net-25.12-*.whl

Začínáme

Následující úryvek ukazuje, jak extrahovat prostý text z PDF souboru:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Pro složitější scénáře—například použití šablon, OCR nebo skenování čárových kódů—se podívejte na referenci API a úložiště ukázek kódu uvedené níže.

Jak získat aktualizaci

Přímé stažení – Vyberte WHL balíček odpovídající vašemu OS ze GroupDocs Releases page.
pip upgrade – Jakmile je publikována nová verze, aktualizujte pomocí:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser pro Python 25.12 – prosinec 2025 – hlavní body vydání

Co je nového v tomto vydání

Hlavní funkce

Podporované formáty dokumentů

Podpora platforem

Instalace

Začínáme

Jak získat aktualizaci

Zdroje

Co je nového v tomto vydání#

Hlavní funkce#

Podporované formáty dokumentů#

Podpora platforem#

Instalace#

Začínáme#

Jak získat aktualizaci#

Zdroje#

Co je nového v tomto vydání

Hlavní funkce

Podporované formáty dokumentů

Podpora platforem

Instalace

Začínáme

Jak získat aktualizaci

Zdroje