We很高興宣佈 GroupDocs.Parser for Python via .NET 25.12 的首次發布,已於 2025 年12月 上線。此初始版本將 .NET 解析引擎的全部功能帶給 Python 開發者,讓他們能從各種文件格式中提取文字、圖像、附件、條碼、OCR 內容以及結構化資料。
此發行版的新功能
主要特性
- 文字提取 – 從 PDF、Office 文件、電子郵件、電子書、壓縮檔等取得純文字或格式化文字。
- 進階搜尋 – 支援頁面級存取,具備區分大小寫、完整詞匹配與正規表達式搜尋選項。
- 結構化內容解析 – 偵測並提取文件層級結構,如標題、段落、表格與自訂文字區域。
- 範本解析 – 使用預先定義的範本,從發票、收據及其他商業文件中提取強類型欄位。
- 圖像提取 – 從支援的文件與影像格式中提取嵌入的點陣圖。
- 附件提取 – 匯出嵌入於文件中的檔案附件。
- 條碼掃描 – 偵測並讀取文件內的條碼。
- OCR 支援 – 對掃描的 PDF 與點陣圖執行光學字元辨識,並提供可選的拼寫檢查。
- 中繼資料提取 – 取得文件屬性,如作者、建立日期與自訂中繼資料。
- 目錄提取 – 從支援的格式中取得目錄結構。
- 超連結提取 – 提取超連結(目前僅限於部分格式)。
支援的文件格式
- 文字處理 – DOC、DOCX、RTF、TXT、ODT
- PDF 與標記 – PDF、HTML/MHTML、Markdown、XML
- 試算表 – XLS、XLSX、ODS、CSV
- 簡報 – PPT、PPTX、ODP
- 電子郵件與筆記 – PST、OST、EML、MSG、ONE
- 電子書與網頁內容 – EPUB、MOBI、AZW3、CHM、FB2
- 影像 – JPEG、PNG、TIFF、GIF、BMP、SVG
- 壓縮檔與容器 – ZIP、RAR、7Z、TAR、GZ、BZ2
平台支援
- Windows、Linux 與 macOS
- Python 3.5+
安裝
-
從 GroupDocs Releases page 下載適用於您平台的 WHL 套件:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
使用 pip 安裝套件(將
*替換為您實際下載的檔名):
pip install groupdocs_parser_net-25.12-*.whl
入門示範
以下程式碼示範如何從 PDF 檔案提取純文字:
from groupdocs.parser import Parser
# 為您的文件建立 Parser 實例
with Parser("sample.pdf") as parser:
# 從文件提取文字
text = parser.GetText()
# 將所有提取的文字輸出至控制台
print(text)
如需更複雜的情境—例如使用範本、OCR 或條碼掃描—請參閱 API 參考與下方連結的程式碼範例庫。
取得更新方式
- 直接下載 – 從 GroupDocs Releases page 選擇符合您作業系統的 WHL 套件。
- pip 升級 – 當發佈較新版本時,可使用以下指令升級:
pip install --upgrade groupdocs_parser_net