We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.
Apa yang baru di rilis ini
Fitur utama
- Ekstraksi teks – Mengambil teks polos atau terformat dari PDF, dokumen Office, email, e‑books, arsip, dan lainnya.
- Pencarian lanjutan – Akses tingkat halaman dengan opsi pencarian sensitif huruf besar/kecil, kata lengkap, dan ekspresi reguler.
- Parsing konten terstruktur – Mendeteksi dan mengekstrak hierarki dokumen seperti judul, paragraf, tabel, dan area teks khusus.
- Parsing templat – Gunakan templat yang telah ditentukan untuk mengambil bidang bertipe kuat dari faktur, kwitansi, dan dokumen bisnis lainnya.
- Ekstraksi gambar – Mengambil gambar raster yang disematkan dari format dokumen dan gambar yang didukung.
- Ekstraksi lampiran – Mengekspor lampiran file yang disematkan dalam dokumen.
- Pemindaian kode batang – Mendeteksi dan membaca kode batang yang ada dalam dokumen.
- Dukungan OCR – Melakukan pengenalan karakter optik pada PDF yang dipindai dan gambar raster, dengan pemeriksaan ejaan opsional.
- Ekstraksi metadata – Mengakses properti dokumen seperti penulis, tanggal pembuatan, dan metadata khusus.
- Ekstraksi daftar isi – Mengambil struktur TOC dari format yang didukung.
- Ekstraksi hyperlink – Mengekstrak tautan (saat ini terbatas pada sebagian format).
Format dokumen yang didukung
- Pengolahan kata – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- Spreadsheet – XLS, XLSX, ODS, CSV
- Presentasi – PPT, PPTX, ODP
- Email & catatan – PST, OST, EML, MSG, ONE
- eBook & konten web – EPUB, MOBI, AZW3, CHM, FB2
- Gambar – JPEG, PNG, TIFF, GIF, BMP, SVG
- Arsip & kontainer – ZIP, RAR, 7Z, TAR, GZ, BZ2
Dukungan platform
- Windows, Linux, dan macOS
- Python 3.5+
Instalasi
-
Unduh paket WHL yang sesuai untuk platform Anda dari halaman GroupDocs Releases:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Instal paket dengan pip (ganti
*dengan nama file sebenarnya yang Anda unduh):
pip install groupdocs_parser_net-25.12-*.whl
Memulai
Cuplikan kode berikut menunjukkan cara mengekstrak teks polos dari file PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Untuk skenario yang lebih kompleks—seperti menggunakan templat, OCR, atau pemindaian kode batang—lihat referensi API dan repositori contoh kode yang ditautkan di bawah.
Cara mendapatkan pembaruan
- Unduhan langsung – Pilih paket WHL yang sesuai dengan OS Anda dari halaman GroupDocs Releases.
- Pembaruan pip – Setelah versi yang lebih baru dipublikasikan, perbarui dengan:
pip install --upgrade groupdocs_parser_net