ما خوشحالیم که اولین انتشار GroupDocs.Parser for Python via .NET 25.12 را که از دسامبر 2025 در دسترس است، اعلام کنیم. این نسخهٔ اولیه توان کامل موتور تجزیه .NET را به توسعهدهندگان پایتون میرساند و امکان استخراج متن، تصویر، پیوستها، بارکدها، محتوای OCR و دادههای ساختیافته را از طیف وسیعی از قالبهای سند فراهم میکند.
چه چیزهای جدیدی در این انتشار وجود دارد
ویژگیهای اصلی
- استخراج متن – دریافت متن ساده یا قالببندیشده از PDFها، اسناد Office، ایمیلها، کتابهای الکترونیکی، بایگانیها و موارد دیگر.
- جستجوی پیشرفته – دسترسی به سطح صفحه با گزینههای جستجوی حساس به حروف، کلمهٔ کامل و عبارات منظم.
- تجزیه محتوای ساختیافته – شناسایی و استخراج سلسلهمراتب سند مانند عناوین، پاراگرافها، جداول و نواحی متنی سفارشی.
- تجزیه قالب – استفاده از قالبهای پیشتعریفشده برای استخراج فیلدهای strongly‑typed از فاکتورها، رسیدها و سایر اسناد تجاری.
- استخراج تصویر – استخراج تصاویر رستر داخلی از قالبهای سند و تصویر پشتیبانیشده.
- استخراج پیوست – خروجی گرفتن از فایلهای پیوستنشده درون اسناد.
- اسکن بارکد – شناسایی و خواندن بارکدهای موجود در اسناد.
- پشتیبانی از OCR – انجام تشخیص کاراکتر نوری روی PDFهای اسکنشده و تصاویر رستر، با امکان تصحیح املائی اختیاری.
- استخراج فراداده – دسترسی به خصوصیات سند مانند نویسنده، تاریخ ایجاد و فرادادههای سفارشی.
- استخراج فهرست مطالب – دریافت ساختارهای TOC از قالبهای پشتیبانیشده.
- استخراج لینکهای فراگیر – استخراج پیوندهای فراگیر (در حال حاضر محدود به زیرمجموعهای از قالبها).
قالبهای سند پشتیبانیشده
- پردازش متن – DOC, DOCX, RTF, TXT, ODT
- PDF و نشانهگذاری – PDF, HTML/MHTML, Markdown, XML
- صفحات گسترده – XLS, XLSX, ODS, CSV
- ارائهها – PPT, PPTX, ODP
- ایمیل و یادداشتها – PST, OST, EML, MSG, ONE
- کتابهای الکترونیکی و محتوای وب – EPUB, MOBI, AZW3, CHM, FB2
- تصاویر – JPEG, PNG, TIFF, GIF, BMP, SVG
- بایگانیها و کانتینرها – ZIP, RAR, 7Z, TAR, GZ, BZ2
پشتیبانی پلتفرم
- ویندوز، لینوکس و macOS
- Python 3.5+
نصب
-
پکیج WHL مناسب برای پلتفرم خود را از صفحهٔ GroupDocs Releases دریافت کنید:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
پکیج را با pip نصب کنید (به جای
*نام واقعی فایلی که دانلود کردهاید را قرار دهید):
pip install groupdocs_parser_net-25.12-*.whl
شروع سریع
قطعه کد زیر نشان میدهد چگونه متن ساده را از یک فایل PDF استخراج کنید:
from groupdocs.parser import Parser
# ایجاد یک نمونه Parser برای سند شما
with Parser("sample.pdf") as parser:
# استخراج متن از سند
text = parser.GetText()
# چاپ تمام متن استخراجشده در کنسول
print(text)
برای سناریوهای پیچیدهتر—مانند استفاده از قالبها، OCR یا اسکن بارکد—به مرجع API و مخزن نمونههای کد که در زیر لینک شدهاند مراجعه کنید.
نحوه دریافت بهروزرسانی
- دانلود مستقیم – بستهٔ WHL متناسب با سیستمعامل خود را از صفحهٔ GroupDocs Releases انتخاب کنید.
- بهروزرسانی با pip – وقتی نسخهٔ جدیدی منتشر شد، با دستور زیر ارتقا دهید:
pip install --upgrade groupdocs_parser_net