Jsme rádi, že můžeme oznámit první vydání GroupDocs.Parser for Python via .NET 25.12, dostupné od prosince 2025. Tato počáteční verze přináší plnou sílu .NET parsovacího enginu pro vývojáře Pythonu, umožňující extrakci textu, obrázků, příloh, čárových kódů, OCR obsahu a strukturovaných dat z široké škály formátů dokumentů.
Co je nového v tomto vydání
Hlavní funkce
- Extrahování textu – Získávat prostý nebo formátovaný text z PDF, Office dokumentů, e‑mailů, e‑knih, archivů a dalších.
- Pokročilé vyhledávání – Cílový přístup na úrovni stránky s možnostmi vyhledávání rozlišujícího velikost písmen, celých slov a regulárních výrazů.
- Parsování strukturovaného obsahu – Detekovat a extrahovat hierarchii dokumentu, např. nadpisy, odstavce, tabulky a vlastní textové oblasti.
- Parsování šablon – Použít předdefinované šablony k získání silně typovaných polí z faktur, účtenek a dalších obchodních dokumentů.
- Extrahování obrázků – Extrahovat vložené rastrové obrázky ze podporovaných dokumentových a obrazových formátů.
- Extrahování příloh – Exportovat souborové přílohy vložené v dokumentech.
- Skenování čárových kódů – Detekovat a číst čárové kódy přítomné v dokumentech.
- Podpora OCR – Provádět optické rozpoznávání znaků (OCR) na naskenovaných PDF a rastrových obrázcích, s volitelnou kontrolou pravopisu.
- Extrahování metadat – Přistupovat k vlastnostem dokumentu, jako je autor, datum vytvoření a vlastní metadata.
- Extrahování obsahu – Získávat struktury obsahu (TOC) z podporovaných formátů.
- Extrahování hypertextových odkazů – Extrahovat hypertextové odkazy (v současnosti omezeno na podmnožinu formátů).
Podporované formáty dokumentů
- Zpracování textu – DOC, DOCX, RTF, TXT, ODT
- PDF a značkovací jazyky – PDF, HTML/MHTML, Markdown, XML
- Tabulky – XLS, XLSX, ODS, CSV
- Prezentace – PPT, PPTX, ODP
- E‑mail a poznámky – PST, OST, EML, MSG, ONE
- eKnihy a webový obsah – EPUB, MOBI, AZW3, CHM, FB2
- Obrázky – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archivy a kontejnery – ZIP, RAR, 7Z, TAR, GZ, BZ2
Podpora platforem
- Windows, Linux a macOS
- Python 3.5+
Instalace
-
Stáhněte si odpovídající WHL balíček pro vaši platformu ze GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Instalujte balíček pomocí pip (nahraďte
*skutečným názvem souboru, který jste stáhli):
pip install groupdocs_parser_net-25.12-*.whl
Začínáme
Následující úryvek ukazuje, jak extrahovat prostý text z PDF souboru:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Pro složitější scénáře—například použití šablon, OCR nebo skenování čárových kódů—se podívejte na referenci API a úložiště ukázek kódu uvedené níže.
Jak získat aktualizaci
- Přímé stažení – Vyberte WHL balíček odpovídající vašemu OS ze GroupDocs Releases page.
- pip upgrade – Jakmile je publikována nová verze, aktualizujte pomocí:
pip install --upgrade groupdocs_parser_net