Chúng tôi rất vui thông báo phiên bản đầu tiên của GroupDocs.Parser for Python via .NET 25.12, có sẵn từ tháng 12 2025. Phiên bản ban đầu này mang toàn bộ sức mạnh của engine phân tích .NET đến các nhà phát triển Python, cho phép trích xuất văn bản, hình ảnh, tệp đính kèm, mã vạch, nội dung OCR và dữ liệu có cấu trúc từ nhiều định dạng tài liệu khác nhau.
Những gì mới trong bản phát hành này
Các tính năng chính
- Trích xuất văn bản – Lấy văn bản thuần hoặc có định dạng từ PDF, tài liệu Office, email, e‑book, tệp nén và nhiều hơn nữa.
- Tìm kiếm nâng cao – Truy cập cấp độ trang với các tùy chọn tìm kiếm phân biệt chữ hoa/thường, toàn từ và biểu thức chính quy.
- Phân tích nội dung có cấu trúc – Phát hiện và trích xuất cấu trúc tài liệu như tiêu đề, đoạn văn, bảng và các khu vực văn bản tùy chỉnh.
- Phân tích mẫu – Sử dụng các mẫu đã định nghĩa trước để lấy các trường có kiểu mạnh từ hoá đơn, biên lai và các tài liệu kinh doanh khác.
- Trích xuất hình ảnh – Lấy các hình ảnh raster nhúng từ các định dạng tài liệu và hình ảnh được hỗ trợ.
- Trích xuất tệp đính kèm – Xuất các tệp đính kèm nhúng trong tài liệu.
- Quét mã vạch – Phát hiện và đọc mã vạch có trong tài liệu.
- Hỗ trợ OCR – Thực hiện nhận dạng ký tự quang học trên PDF đã quét và hình ảnh raster, với tùy chọn kiểm tra chính tả.
- Trích xuất siêu dữ liệu – Truy cập các thuộc tính tài liệu như tác giả, ngày tạo và siêu dữ liệu tùy chỉnh.
- Trích xuất mục lục – Lấy cấu trúc TOC từ các định dạng được hỗ trợ.
- Trích xuất liên kết siêu văn bản – Trích xuất các hyperlink (hiện tại chỉ giới hạn trong một số định dạng).
Các định dạng tài liệu được hỗ trợ
- Xử lý văn bản – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- Bảng tính – XLS, XLSX, ODS, CSV
- Bài thuyết trình – PPT, PPTX, ODP
- Email & ghi chú – PST, OST, EML, MSG, ONE
- eBooks & nội dung web – EPUB, MOBI, AZW3, CHM, FB2
- Hình ảnh – JPEG, PNG, TIFF, GIF, BMP, SVG
- Tệp nén & container – ZIP, RAR, 7Z, TAR, GZ, BZ2
Hỗ trợ nền tảng
- Windows, Linux và macOS
- Python 3.5+
Cài đặt
-
Tải xuống gói WHL phù hợp cho nền tảng của bạn từ trang GroupDocs Releases:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Cài đặt gói bằng pip (thay
*bằng tên tệp thực tế bạn đã tải về):
pip install groupdocs_parser_net-25.12-*.whl
Bắt đầu
Đoạn mã dưới đây minh họa cách trích xuất văn bản thuần từ một tệp PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Đối với các kịch bản phức tạp hơn—như sử dụng mẫu, OCR hoặc quét mã vạch—hãy tham khảo tài liệu API và kho mẫu mã được liên kết bên dưới.
Cách nhận bản cập nhật
- Tải trực tiếp – Chọn gói WHL phù hợp với hệ điều hành của bạn từ trang GroupDocs Releases.
- Nâng cấp bằng pip – Khi có phiên bản mới hơn được phát hành, nâng cấp bằng lệnh:
pip install --upgrade groupdocs_parser_net