We很高興宣佈 GroupDocs.Parser for Python via .NET 25.12 的首次發布,已於 2025 年12月 上線。此初始版本將 .NET 解析引擎的全部功能帶給 Python 開發者,讓他們能從各種文件格式中提取文字、圖像、附件、條碼、OCR 內容以及結構化資料。

此發行版的新功能

主要特性

  • 文字提取 – 從 PDF、Office 文件、電子郵件、電子書、壓縮檔等取得純文字或格式化文字。
  • 進階搜尋 – 支援頁面級存取,具備區分大小寫、完整詞匹配與正規表達式搜尋選項。
  • 結構化內容解析 – 偵測並提取文件層級結構,如標題、段落、表格與自訂文字區域。
  • 範本解析 – 使用預先定義的範本,從發票、收據及其他商業文件中提取強類型欄位。
  • 圖像提取 – 從支援的文件與影像格式中提取嵌入的點陣圖。
  • 附件提取 – 匯出嵌入於文件中的檔案附件。
  • 條碼掃描 – 偵測並讀取文件內的條碼。
  • OCR 支援 – 對掃描的 PDF 與點陣圖執行光學字元辨識,並提供可選的拼寫檢查。
  • 中繼資料提取 – 取得文件屬性,如作者、建立日期與自訂中繼資料。
  • 目錄提取 – 從支援的格式中取得目錄結構。
  • 超連結提取 – 提取超連結(目前僅限於部分格式)。

支援的文件格式

  • 文字處理 – DOC、DOCX、RTF、TXT、ODT
  • PDF 與標記 – PDF、HTML/MHTML、Markdown、XML
  • 試算表 – XLS、XLSX、ODS、CSV
  • 簡報 – PPT、PPTX、ODP
  • 電子郵件與筆記 – PST、OST、EML、MSG、ONE
  • 電子書與網頁內容 – EPUB、MOBI、AZW3、CHM、FB2
  • 影像 – JPEG、PNG、TIFF、GIF、BMP、SVG
  • 壓縮檔與容器 – ZIP、RAR、7Z、TAR、GZ、BZ2

平台支援

  • Windows、Linux 與 macOS
  • Python 3.5+

安裝

  1. GroupDocs Releases page 下載適用於您平台的 WHL 套件

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. 使用 pip 安裝套件(將 * 替換為您實際下載的檔名):

pip install groupdocs_parser_net-25.12-*.whl

入門示範

以下程式碼示範如何從 PDF 檔案提取純文字:

from groupdocs.parser import Parser

# 為您的文件建立 Parser 實例
with Parser("sample.pdf") as parser:
    # 從文件提取文字
    text = parser.GetText()
    
    # 將所有提取的文字輸出至控制台
    print(text)

如需更複雜的情境—例如使用範本、OCR 或條碼掃描—請參閱 API 參考與下方連結的程式碼範例庫。

取得更新方式

  • 直接下載 – 從 GroupDocs Releases page 選擇符合您作業系統的 WHL 套件。
  • pip 升級 – 當發佈較新版本時,可使用以下指令升級:
pip install --upgrade groupdocs_parser_net

資源