เรามีความยินดีที่จะแจ้งให้ทราบว่าได้เปิดตัว GroupDocs.Parser for Python via .NET 25.12 รุ่นแรกอย่างเป็นทางการแล้ว ซึ่งพร้อมให้ใช้ตั้งแต่ ธันวาคม 2025 รุ่นแรกนี้นำพลังเต็มของเอนจินการแยกวิเคราะห์ .NET มาสู่ผู้พัฒนา Python ทำให้สามารถดึงข้อความ, รูปภาพ, ไฟล์แนบ, บาร์โค้ด, เนื้อหา OCR และข้อมูลเชิงโครงสร้างจากหลายรูปแบบของเอกสารได้
What’s new in this release
มีอะไรใหม่ในรุ่นนี้
Major features
คุณสมบัติหลัก
- Text extraction – Retrieve plain or formatted text from PDFs, Office documents, emails, e‑books, archives and more.
การสกัดข้อความ – ดึงข้อความแบบธรรมดาหรือแบบจัดรูปแบบจากไฟล์ PDF, เอกสาร Office, อีเมล, e‑books, ไฟล์บีบอัด และอื่น ๆ - Advanced search – Page‑level access with case‑sensitive, whole‑word, and regular‑expression search options.
การค้นหาขั้นสูง – เข้าถึงระดับหน้า พร้อมตัวเลือกการค้นหาแบบแยกตามตัวพิมพ์ใหญ่‑เล็ก, คำเต็ม, และนิพจน์ปกติ - Structured content parsing – Detect and extract document hierarchy such as headings, paragraphs, tables and custom text areas.
การแยกวิเคราะห์เนื้อหาเชิงโครงสร้าง – ตรวจจับและดึงลำดับขั้นของเอกสาร เช่น หัวเรื่อง, ย่อหน้า, ตาราง และพื้นที่ข้อความที่กำหนดเอง - Template parsing – Use predefined templates to pull strongly‑typed fields from invoices, receipts and other business documents.
การแยกวิเคราะห์เทมเพลต – ใช้เทมเพลตที่กำหนดไว้ล่วงหน้าเพื่อดึงฟิลด์ที่มีชนิดข้อมูลแน่นหนาจากใบแจ้งหนี้, ใบเสร็จ และเอกสารธุรกิจอื่น ๆ - Image extraction – Pull embedded raster images from supported document and image formats.
การสกัดรูปภาพ – ดึงภาพราสเตอร์ที่ฝังอยู่จากรูปแบบเอกสารและรูปภาพที่รองรับ - Attachment extraction – Export file attachments embedded in documents.
การสกัดไฟล์แนบ – ส่งออกไฟล์แนบที่ฝังอยู่ในเอกสาร - Barcode scanning – Detect and read barcodes present in documents.
การสแกนบาร์โค้ด – ตรวจจับและอ่านบาร์โค้ดที่ปรากฏในเอกสาร - OCR support – Perform optical character recognition on scanned PDFs and raster images, with optional spell‑checking.
การสนับสนุน OCR – ทำการจดจำอักขระด้วยแสง (OCR) บนไฟล์ PDF ที่สแกนและภาพราสเตอร์ พร้อมตัวเลือกการตรวจตัวสะกด - Metadata extraction – Access document properties like author, creation date, and custom metadata.
การสกัดเมตาดาต้า – เข้าถึงคุณสมบัติของเอกสาร เช่น ผู้เขียน, วันสร้าง, และเมตาดาต้ากำหนดเอง - Table of contents extraction – Retrieve TOC structures from supported formats.
การสกัดสารบัญ – ดึงโครงสร้างสารบัญจากรูปแบบที่รองรับ - Hyperlink extraction – Extract hyperlinks (currently limited to a subset of formats).
การสกัดลิงก์ – ดึงไฮเปอร์ลิงก์ (ขณะนี้จำกัดไว้ในบางรูปแบบ)
Supported document formats
รูปแบบเอกสารที่รองรับ
- Word processing – DOC, DOCX, RTF, TXT, ODT
การประมวลผลคำ – DOC, DOCX, RTF, TXT, ODT - PDF & markup – PDF, HTML/MHTML, Markdown, XML
PDF & มาร์กอัพ – PDF, HTML/MHTML, Markdown, XML - Spreadsheets – XLS, XLSX, ODS, CSV
สเปรดชีต – XLS, XLSX, ODS, CSV - Presentations – PPT, PPTX, ODP
งานนำเสนอ – PPT, PPTX, ODP - Email & notes – PST, OST, EML, MSG, ONE
อีเมล & โน้ต – PST, OST, EML, MSG, ONE - eBooks & web content – EPUB, MOBI, AZW3, CHM, FB2
อีบุ๊ค & เนื้อหาเว็บ – EPUB, MOBI, AZW3, CHM, FB2 - Images – JPEG, PNG, TIFF, GIF, BMP, SVG
รูปภาพ – JPEG, PNG, TIFF, GIF, BMP, SVG - Archives & containers – ZIP, RAR, 7Z, TAR, GZ, BZ2
ไฟล์บีบอัด & คอนเทนเนอร์ – ZIP, RAR, 7Z, TAR, GZ, BZ2
Platform support
การสนับสนุนแพลตฟอร์ม
- Windows, Linux, and macOS
Windows, Linux, และ macOS - Python 3.5+
Python 3.5+
Installation
การติดตั้ง
-
Download the appropriate WHL package for your platform from the GroupDocs Releases page:
ดาวน์โหลดแพ็กเกจ WHL ที่เหมาะสม สำหรับแพลตฟอร์มของคุณจาก GroupDocs Releases page:- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Install the package with pip (replace
*with the actual file name you downloaded): ติดตั้งแพ็กเกจด้วย pip (แทนที่*ด้วยชื่อไฟล์ที่คุณดาวน์โหลดจริง):
pip install groupdocs_parser_net-25.12-*.whl
Getting started
เริ่มต้นใช้งาน
The following snippet shows how to extract plain text from a PDF file: ตัวอย่างโค้ดต่อไปนี้แสดงวิธีสกัดข้อความธรรมดาจากไฟล์ PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
For more complex scenarios—such as using templates, OCR, or barcode scanning—refer to the API reference and the code samples repository linked below. สำหรับสถานการณ์ที่ซับซ้อนมากขึ้น—เช่นการใช้เทมเพลต, OCR, หรือการสแกนบาร์โค้ด—ดูอ้างอิง API และคลังตัวอย่างโค้ดที่ลิงก์ด้านล่าง
How to get the update
วิธีรับการอัปเดต
- Direct download – Choose the WHL package matching your OS from the GroupDocs Releases page.
ดาวน์โหลดโดยตรง – เลือกแพ็กเกจ WHL ที่ตรงกับระบบปฏิบัติการของคุณจาก GroupDocs Releases page - pip upgrade – Once a newer version is published, upgrade with: อัปเกรดด้วย pip – เมื่อมีเวอร์ชันใหม่เผยแพร่ ให้อัปเกรดด้วย:
pip install --upgrade groupdocs_parser_net