GroupDocs.Parser for Python 25.12 – Cập nhật mới nhất và sửa lỗi (Tháng 12 2025)

Chúng tôi rất vui thông báo phiên bản đầu tiên của GroupDocs.Parser for Python via .NET 25.12, có sẵn từ tháng 12 2025. Phiên bản ban đầu này mang toàn bộ sức mạnh của engine phân tích .NET đến các nhà phát triển Python, cho phép trích xuất văn bản, hình ảnh, tệp đính kèm, mã vạch, nội dung OCR và dữ liệu có cấu trúc từ nhiều định dạng tài liệu khác nhau.

Những gì mới trong bản phát hành này

Các tính năng chính

Trích xuất văn bản – Lấy văn bản thuần hoặc có định dạng từ PDF, tài liệu Office, email, e‑book, tệp nén và nhiều hơn nữa.
Tìm kiếm nâng cao – Truy cập cấp độ trang với các tùy chọn tìm kiếm phân biệt chữ hoa/thường, toàn từ và biểu thức chính quy.
Phân tích nội dung có cấu trúc – Phát hiện và trích xuất cấu trúc tài liệu như tiêu đề, đoạn văn, bảng và các khu vực văn bản tùy chỉnh.
Phân tích mẫu – Sử dụng các mẫu đã định nghĩa trước để lấy các trường có kiểu mạnh từ hoá đơn, biên lai và các tài liệu kinh doanh khác.
Trích xuất hình ảnh – Lấy các hình ảnh raster nhúng từ các định dạng tài liệu và hình ảnh được hỗ trợ.
Trích xuất tệp đính kèm – Xuất các tệp đính kèm nhúng trong tài liệu.
Quét mã vạch – Phát hiện và đọc mã vạch có trong tài liệu.
Hỗ trợ OCR – Thực hiện nhận dạng ký tự quang học trên PDF đã quét và hình ảnh raster, với tùy chọn kiểm tra chính tả.
Trích xuất siêu dữ liệu – Truy cập các thuộc tính tài liệu như tác giả, ngày tạo và siêu dữ liệu tùy chỉnh.
Trích xuất mục lục – Lấy cấu trúc TOC từ các định dạng được hỗ trợ.
Trích xuất liên kết siêu văn bản – Trích xuất các hyperlink (hiện tại chỉ giới hạn trong một số định dạng).

Các định dạng tài liệu được hỗ trợ

Xử lý văn bản – DOC, DOCX, RTF, TXT, ODT
PDF & markup – PDF, HTML/MHTML, Markdown, XML
Bảng tính – XLS, XLSX, ODS, CSV
Bài thuyết trình – PPT, PPTX, ODP
Email & ghi chú – PST, OST, EML, MSG, ONE
eBooks & nội dung web – EPUB, MOBI, AZW3, CHM, FB2
Hình ảnh – JPEG, PNG, TIFF, GIF, BMP, SVG
Tệp nén & container – ZIP, RAR, 7Z, TAR, GZ, BZ2

Hỗ trợ nền tảng

Windows, Linux và macOS
Python 3.5+

Cài đặt

Tải xuống gói WHL phù hợp cho nền tảng của bạn từ trang GroupDocs Releases:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Cài đặt gói bằng pip (thay * bằng tên tệp thực tế bạn đã tải về):

pip install groupdocs_parser_net-25.12-*.whl

Bắt đầu

Đoạn mã dưới đây minh họa cách trích xuất văn bản thuần từ một tệp PDF:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Đối với các kịch bản phức tạp hơn—như sử dụng mẫu, OCR hoặc quét mã vạch—hãy tham khảo tài liệu API và kho mẫu mã được liên kết bên dưới.

Cách nhận bản cập nhật

Tải trực tiếp – Chọn gói WHL phù hợp với hệ điều hành của bạn từ trang GroupDocs Releases.
Nâng cấp bằng pip – Khi có phiên bản mới hơn được phát hành, nâng cấp bằng lệnh:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser for Python 25.12 – Điểm nổi bật của bản phát hành tháng 12 2025

Những gì mới trong bản phát hành này

Các tính năng chính

Các định dạng tài liệu được hỗ trợ

Hỗ trợ nền tảng

Cài đặt

Bắt đầu

Cách nhận bản cập nhật

Tài nguyên

Những gì mới trong bản phát hành này#

Các tính năng chính#

Các định dạng tài liệu được hỗ trợ#

Hỗ trợ nền tảng#

Cài đặt#

Bắt đầu#

Cách nhận bản cập nhật#

Tài nguyên#

Những gì mới trong bản phát hành này

Các tính năng chính

Các định dạng tài liệu được hỗ trợ

Hỗ trợ nền tảng

Cài đặt

Bắt đầu

Cách nhận bản cập nhật

Tài nguyên