We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

このリリースの新機能

主な機能

  • テキスト抽出 – PDF、Office 文書、メール、電子書籍、アーカイブなどからプレーンテキストまたは書式付きテキストを取得します。
  • 高度な検索 – 大文字小文字の区別、完全一致、正規表現検索オプションを備えたページレベルのアクセスを提供します。
  • 構造化コンテンツ解析 – 見出し、段落、テーブル、カスタムテキスト領域などの文書階層を検出・抽出します。
  • テンプレート解析 – 事前定義されたテンプレートを使用して、請求書、領収書、その他のビジネス文書から型が明確なフィールドを取得します。
  • 画像抽出 – サポートされている文書および画像形式から埋め込みラスタ画像を取得します。
  • 添付ファイル抽出 – 文書に埋め込まれたファイル添付をエクスポートします。
  • バーコードスキャン – 文書中のバーコードを検出して読み取ります。
  • OCR サポート – スキャンした PDF やラスタ画像に光学文字認識を実行し、オプションでスペルチェックが可能です。
  • メタデータ抽出 – 作者、作成日、カスタムメタデータなどの文書プロパティにアクセスします。
  • 目次抽出 – サポートされている形式から目次構造を取得します。
  • ハイパーリンク抽出 – ハイパーリンクを抽出します(現在は一部の形式に限定)。

サポートされている文書形式

  • ワードプロセッシング – DOC, DOCX, RTF, TXT, ODT
  • PDF とマークアップ – PDF, HTML/MHTML, Markdown, XML
  • スプレッドシート – XLS, XLSX, ODS, CSV
  • プレゼンテーション – PPT, PPTX, ODP
  • メールとノート – PST, OST, EML, MSG, ONE
  • 電子書籍とウェブコンテンツ – EPUB, MOBI, AZW3, CHM, FB2
  • 画像 – JPEG, PNG, TIFF, GIF, BMP, SVG
  • アーカイブとコンテナ – ZIP, RAR, 7Z, TAR, GZ, BZ2

プラットフォームサポート

  • Windows、Linux、macOS
  • Python 3.5+

インストール

  1. 適切な WHL パッケージをプラットフォームに合わせて、GroupDocs Releases page からダウンロードしてください:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. pip でパッケージをインストールします(* を実際にダウンロードしたファイル名に置き換えてください):

pip install groupdocs_parser_net-25.12-*.whl

はじめに

以下のスニペットは、PDF ファイルからプレーンテキストを抽出する方法を示しています:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

テンプレートの使用、OCR、バーコードスキャンなど、より複雑なシナリオについては、下記の API リファレンスおよびコードサンプルリポジトリをご参照ください。

アップデートの取得方法

  • 直接ダウンロード – OS に合った WHL パッケージを GroupDocs Releases page から選択してください。
  • pip アップグレード – 新しいバージョンが公開されたら、次のコマンドでアップグレードします:
pip install --upgrade groupdocs_parser_net

リソース