We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

本次发布的新功能

主要特性

  • 文本提取 – 从 PDFs、Office 文档、电子邮件、电子书、存档等获取纯文本或格式化文本。
  • 高级搜索 – 支持按页面访问,并提供区分大小写、全词匹配和正则表达式搜索选项。
  • 结构化内容解析 – 检测并提取文档层级结构,如标题、段落、表格和自定义文本区域。
  • 模板解析 – 使用预定义模板从发票、收据及其他业务文档中提取强类型字段。
  • 图像提取 – 从支持的文档和图像格式中提取嵌入的位图图像。
  • 附件提取 – 导出文档中嵌入的文件附件。
  • 条形码扫描 – 检测并读取文档中的条形码。
  • OCR 支持 – 对扫描的 PDFs 和位图图像执行光学字符识别,可选拼写检查。
  • 元数据提取 – 访问文档属性,如作者、创建日期和自定义元数据。
  • 目录提取 – 从支持的格式中获取目录结构。
  • 超链接提取 – 提取超链接(目前仅限于部分格式)。

支持的文档格式

  • 文字处理 – DOC、DOCX、RTF、TXT、ODT
  • PDF 与标记 – PDF、HTML/MHTML、Markdown、XML
  • 电子表格 – XLS、XLSX、ODS、CSV
  • 演示文稿 – PPT、PPTX、ODP
  • 电子邮件与笔记 – PST、OST、EML、MSG、ONE
  • 电子书与网络内容 – EPUB、MOBI、AZW3、CHM、FB2
  • 图像 – JPEG、PNG、TIFF、GIF、BMP、SVG
  • 归档与容器 – ZIP、RAR、7Z、TAR、GZ、BZ2

平台支持

  • Windows、Linux 和 macOS
  • Python 3.5+

安装

  1. GroupDocs Releases 页面 下载适用于您平台的 WHL 包

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. 使用 pip 安装包(将 * 替换为您下载的实际文件名):

pip install groupdocs_parser_net-25.12-*.whl

入门指南

下面的代码片段演示了如何从 PDF 文件中提取纯文本:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

对于更复杂的场景——如使用模板、OCR 或条形码扫描——请参考下面链接的 API 文档和代码示例仓库。

如何获取更新

  • 直接下载 – 从 GroupDocs Releases 页面 选择与您的操作系统匹配的 WHL 包。
  • pip 升级 – 新版本发布后,使用以下命令升级:
pip install --upgrade groupdocs_parser_net

资源