We rất vui mừng công bố bản phát hành đầu tiên của GroupDocs.Parser for Python via .NET 25.12, có sẵn từ December 2025. Phiên bản ban đầu này mang toàn bộ sức mạnh của engine phân tích .NET đến các lập trình viên Python, cho phép trích xuất văn bản, hình ảnh, tệp đính kèm, mã vạch, nội dung OCR và dữ liệu có cấu trúc từ nhiều định dạng tài liệu khác nhau.
What’s new in this release
Major features
- Text extraction – Truy xuất văn bản thô hoặc có định dạng từ PDF, tài liệu Office, email, e‑books, archive và hơn thế nữa.
- Advanced search – Truy cập cấp độ trang với các tùy chọn tìm kiếm phân biệt hoa‑thường, toàn‑từ và biểu thức chính quy.
- Structured content parsing – Phát hiện và trích xuất cấu trúc tài liệu như tiêu đề, đoạn văn, bảng và các vùng văn bản tùy chỉnh.
- Template parsing – Sử dụng các mẫu đã định sẵn để lấy các trường định dạng mạnh từ hoá đơn, biên nhận và các tài liệu kinh doanh khác.
- Image extraction – Lấy các hình ảnh raster nhúng từ các định dạng tài liệu và hình ảnh được hỗ trợ.
- Attachment extraction – Xuất các tệp đính kèm nhúng trong tài liệu.
- Barcode scanning – Phát hiện và đọc các mã vạch có trong tài liệu.
- OCR support – Thực hiện nhận dạng ký tự quang học trên PDF đã quét và hình ảnh raster, với tùy chọn kiểm tra chính tả.
- Metadata extraction – Truy cập các thuộc tính tài liệu như tác giả, ngày tạo và siêu dữ liệu tùy chỉnh.
- Table of contents extraction – Truy xuất cấu trúc mục lục từ các định dạng được hỗ trợ.
- Hyperlink extraction – Trích xuất siêu liên kết (hiện tại giới hạn ở một tập hợp con các định dạng).
Supported document formats
- Word processing – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- Spreadsheets – XLS, XLSX, ODS, CSV
- Presentations – PPT, PPTX, ODP
- Email & notes – PST, OST, EML, MSG, ONE
- eBooks & web content – EPUB, MOBI, AZW3, CHM, FB2
- Images – JPEG, PNG, TIFF, GIF, BMP, SVG
- Archives & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
Platform support
- Windows, Linux và macOS
- Python 3.5+
Installation
-
Download the appropriate WHL package cho nền tảng của bạn từ trang GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Cài đặt gói bằng pip (thay
*bằng tên tệp thực tế mà bạn đã tải xuống):
pip install groupdocs_parser_net-25.12-*.whl
Getting started
Đoạn mã dưới đây cho thấy cách trích xuất văn bản thuần từ một tệp PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Đối với các kịch bản phức tạp hơn—như sử dụng mẫu, OCR hoặc quét mã vạch—hãy tham khảo tài liệu API và kho mẫu mã được liên kết bên dưới.
How to get the update
- Direct download – Chọn gói WHL phù hợp với hệ điều hành của bạn từ trang GroupDocs Releases page.
- pip upgrade – Khi có phiên bản mới hơn được phát hành, nâng cấp bằng lệnh:
pip install --upgrade groupdocs_parser_net