ما خوشحالیم که اولین انتشار GroupDocs.Parser for Python via .NET 25.12 را که از دسامبر 2025 در دسترس است، اعلام کنیم. این نسخهٔ اولیه توان کامل موتور تجزیه .NET را به توسعه‌دهندگان پایتون می‌رساند و امکان استخراج متن، تصویر، پیوست‌ها، بارکدها، محتوای OCR و داده‌های ساخت‌یافته را از طیف وسیعی از قالب‌های سند فراهم می‌کند.

چه چیزهای جدیدی در این انتشار وجود دارد

ویژگی‌های اصلی

  • استخراج متن – دریافت متن ساده یا قالب‌بندی‌شده از PDFها، اسناد Office، ایمیل‌ها، کتاب‌های الکترونیکی، بایگانی‌ها و موارد دیگر.
  • جستجوی پیشرفته – دسترسی به سطح صفحه با گزینه‌های جستجوی حساس به حروف، کلمهٔ کامل و عبارات منظم.
  • تجزیه محتوای ساخت‌یافته – شناسایی و استخراج سلسله‌مراتب سند مانند عناوین، پاراگراف‌ها، جداول و نواحی متنی سفارشی.
  • تجزیه قالب – استفاده از قالب‌های پیش‌تعریف‌شده برای استخراج فیلدهای strongly‑typed از فاکتورها، رسیدها و سایر اسناد تجاری.
  • استخراج تصویر – استخراج تصاویر رستر داخلی از قالب‌های سند و تصویر پشتیبانی‌شده.
  • استخراج پیوست – خروجی گرفتن از فایل‌های پیوست‌نشده درون اسناد.
  • اسکن بارکد – شناسایی و خواندن بارکدهای موجود در اسناد.
  • پشتیبانی از OCR – انجام تشخیص کاراکتر نوری روی PDFهای اسکن‌شده و تصاویر رستر، با امکان تصحیح املائی اختیاری.
  • استخراج فراداده – دسترسی به خصوصیات سند مانند نویسنده، تاریخ ایجاد و فراداده‌های سفارشی.
  • استخراج فهرست مطالب – دریافت ساختارهای TOC از قالب‌های پشتیبانی‌شده.
  • استخراج لینک‌های فراگیر – استخراج پیوندهای فراگیر (در حال حاضر محدود به زیرمجموعه‌ای از قالب‌ها).

قالب‌های سند پشتیبانی‌شده

  • پردازش متن – DOC, DOCX, RTF, TXT, ODT
  • PDF و نشانه‌گذاری – PDF, HTML/MHTML, Markdown, XML
  • صفحات گسترده – XLS, XLSX, ODS, CSV
  • ارائه‌ها – PPT, PPTX, ODP
  • ایمیل و یادداشت‌ها – PST, OST, EML, MSG, ONE
  • کتاب‌های الکترونیکی و محتوای وب – EPUB, MOBI, AZW3, CHM, FB2
  • تصاویر – JPEG, PNG, TIFF, GIF, BMP, SVG
  • بایگانی‌ها و کانتینرها – ZIP, RAR, 7Z, TAR, GZ, BZ2

پشتیبانی پلتفرم

  • ویندوز، لینوکس و macOS
  • Python 3.5+

نصب

  1. پکیج WHL مناسب برای پلتفرم خود را از صفحهٔ GroupDocs Releases دریافت کنید:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. پکیج را با pip نصب کنید (به جای * نام واقعی فایلی که دانلود کرده‌اید را قرار دهید):

pip install groupdocs_parser_net-25.12-*.whl

شروع سریع

قطعه کد زیر نشان می‌دهد چگونه متن ساده را از یک فایل PDF استخراج کنید:

from groupdocs.parser import Parser

# ایجاد یک نمونه Parser برای سند شما
with Parser("sample.pdf") as parser:
    # استخراج متن از سند
    text = parser.GetText()
    
    # چاپ تمام متن استخراج‌شده در کنسول
    print(text)

برای سناریوهای پیچیده‌تر—مانند استفاده از قالب‌ها، OCR یا اسکن بارکد—به مرجع API و مخزن نمونه‌های کد که در زیر لینک شده‌اند مراجعه کنید.

نحوه دریافت به‌روزرسانی

  • دانلود مستقیم – بستهٔ WHL متناسب با سیستم‌عامل خود را از صفحهٔ GroupDocs Releases انتخاب کنید.
  • به‌روزرسانی با pip – وقتی نسخهٔ جدیدی منتشر شد، با دستور زیر ارتقا دهید:
pip install --upgrade groupdocs_parser_net

منابع