我们很高兴宣布 GroupDocs.Parser for .NET 25.10 版本已于 2025年10月 发布。此更新带来了全新的表格提取功能、若干 API 改进以及针对 PDF 分页的关键修复。

本次发布的新增功能

📄 从任意页面提取表格 (PARSERNET‑2745)

GroupDocs.Parser.Parser 添加了两个重载,使您能够直接从文档中提取表格结构,无需模板。

  • IEnumerable<PageTableArea> GetTables() – 从整个文档中提取表格。
  • IEnumerable<PageTableArea> GetTables(int pageIndex) – 从指定页面提取表格。

注意: PageTableArea 表示检测到的表格区域,包含其单元格、页面引用和边界矩形。

示例 – 从单页获取表格

using (Parser parser = new Parser(filePath))
{
    int pageIndex = 0;               // first page (zero‑based)
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex);

    // iterate over tables
    foreach (var table in tables)
    {
        // work with table.Cells, table.Page, etc.
    }
}

🔧 API 重新设计 – 内部 PageTableArea 构造函数 (PARSERNET‑2743)

已移除 GroupDocs.Parser.Data.PageTableArea 的公共构造函数,现改为 internal。该类的实例仅由 Parser 引擎创建,避免意外误用。这对直接实例化 PageTableArea 的用户是一次向后不兼容的更改。

🐞 修复 – PDF 解析仅限前 4 页的问题 (PARSERNET‑1871)

解析器现在能够正确处理 PDF 文档的所有页面。此前,在调用解析 API 时仅返回前四页。

如何获取更新

资源