We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of Aralık 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.
Bu sürümdeki yenilikler
Ana özellikler
- Text extraction – Metin çıkarma – PDF’ler, Ofis belgeleri, e‑postalar, e‑kitaplar, arşivler ve daha fazlasından düz veya biçimlendirilmiş metin alın.
- Advanced search – Gelişmiş arama – Sayfa‑seviyesinde erişim, büyük/küçük harf duyarlı, tam kelime ve düzenli ifade arama seçenekleri.
- Structured content parsing – Yapılandırılmış içerik ayrıştırma – Belge hiyerarşisini, başlıklar, paragraflar, tablolar ve özel metin alanları gibi öğeleri tespit edip çıkar.
- Template parsing – Şablon ayrıştırma – Önceden tanımlı şablonları kullanarak faturalar, makbuzlar ve diğer iş belgelerinden güçlü tipli alanları çek.
- Image extraction – Görüntü çıkarma – Desteklenen belge ve görüntü formatlarından gömülü raster görüntüleri alın.
- Attachment extraction – Ek çıkarma – Belgelerde gömülü dosya eklerini dışa aktar.
- Barcode scanning – Barkod tarama – Belgelerde bulunan barkodları tespit edip okuyun.
- OCR support – OCR desteği – Taranmış PDF’lerde ve raster görüntülerde optik karakter tanıma gerçekleştirin, isteğe bağlı imla denetimi ile.
- Metadata extraction – Meta veri çıkarma – Yazar, oluşturulma tarihi ve özel meta veriler gibi belge özelliklerine erişin.
- Table of contents extraction – İçindekiler tablosu çıkarma – Desteklenen formatlardan TOC yapısını alın.
- Hyperlink extraction – Köprü çıkarma – Köprüleri çıkar (şu anda sınırlı bir format alt kümesi).
Desteklenen belge formatları
- Kelime İşleme – DOC, DOCX, RTF, TXT, ODT
- PDF & işaretleme – PDF, HTML/MHTML, Markdown, XML
- Elektronik Tablolar – XLS, XLSX, ODS, CSV
- Sunumlar – PPT, PPTX, ODP
- E-posta ve notlar – PST, OST, EML, MSG, ONE
- e-Kitaplar ve web içeriği – EPUB, MOBI, AZW3, CHM, FB2
- Görseller – JPEG, PNG, TIFF, GIF, BMP, SVG
- Arşivler ve konteynerler – ZIP, RAR, 7Z, TAR, GZ, BZ2
Platform desteği
- Windows, Linux ve macOS
- Python 3.5+
Kurulum
-
Platformunuz için uygun WHL paketini indirin for your platform from the GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Paketi pip ile kurun (
*yerine indirdiğiniz gerçek dosya adını koyun):
pip install groupdocs_parser_net-25.12-*.whl
Başlarken
Aşağıdaki kod parçacığı PDF dosyasından düz metin nasıl çıkarılacağını gösterir:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Şablon kullanma, OCR veya barkod tarama gibi daha karmaşık senaryolar için aşağıda bağlantılı API referansına ve kod örnekleri deposuna bakın.
Güncellemeyi nasıl alırsınız
- Doğrudan indirme – İşletim sisteminize uygun WHL paketini GroupDocs Releases page seçin.
- pip yükseltme – Yeni bir sürüm yayımlandığında aşağıdakini kullanarak yükseltin:
pip install --upgrade groupdocs_parser_net