نحن سعداء بالإعلان عن الإصدار الأول من GroupDocs.Parser for Python via .NET 25.12، المتاح اعتبارًا من ديسمبر 2025. يجلب هذا الإصدار الأول القوة الكاملة لمحرك التحليل الخاص بـ .NET إلى مطوري بايثون، مما يتيح استخراج النصوص، الصور، المرفقات، الباركود، محتوى OCR، والبيانات المهيكلة من مجموعة واسعة من صيغ المستندات.
ما الجديد في هذا الإصدار
الميزات الرئيسية
- استخراج النص – استرجاع النص العادي أو المنسق من ملفات PDF، مستندات Office، رسائل البريد الإلكتروني، الكتب الإلكترونية، الأرشيفات وغير ذلك.
- البحث المتقدم – وصول على مستوى الصفحات مع خيارات البحث حساسة لحالة الأحرف، كلمة كاملة، وتعبيرات نمطية.
- تحليل المحتوى المهيكل – اكتشاف واستخراج هيكل المستند مثل العناوين، الفقرات، الجداول ومناطق النص المخصصة.
- تحليل القوالب – استخدام قوالب معرفة مسبقًا لاستخراج الحقول ذات النوع القوي من الفواتير، الإيصالات وغيرها من المستندات التجارية.
- استخراج الصور – سحب الصور النقطية المضمّنة من صيغ المستندات والصور المدعومة.
- استخراج المرفقات – تصدير الملفات المرفقة المدمجة داخل المستندات.
- مسح الباركود – اكتشاف وقراءة الباركود الموجود في المستندات.
- دعم OCR – تنفيذ التعرف الضوئي على الحروف على ملفات PDF الممسوحة ضوئيًا والصور النقطية، مع إملاء اختياري.
- استخراج البيانات الوصفية – الوصول إلى خصائص المستند مثل المؤلف، تاريخ الإنشاء، والبيانات الوصفية المخصصة.
- استخراج جدول المحتويات – استرجاع هياكل جدول المحتويات من الصيغ المدعومة.
- استخراج الروابط التشعبية – استخراج الروابط التشعبية (محدودة حاليًا إلى مجموعة فرعية من الصيغ).
صيغ المستندات المدعومة
- معالجة النصوص – DOC, DOCX, RTF, TXT, ODT
- PDF و الترميزات – PDF, HTML/MHTML, Markdown, XML
- الجداول – XLS, XLSX, ODS, CSV
- العروض التقديمية – PPT, PPTX, ODP
- البريد الإلكتروني والملاحظات – PST, OST, EML, MSG, ONE
- الكتب الإلكترونية ومحتوى الويب – EPUB, MOBI, AZW3, CHM, FB2
- الصور – JPEG, PNG, TIFF, GIF, BMP, SVG
- الأرشيفات والحاويات – ZIP, RAR, 7Z, TAR, GZ, BZ2
دعم الأنظمة
- Windows، Linux، و macOS
- Python 3.5+
التثبيت
-
حمّل حزمة WHL المناسبة لنظامك من صفحة GroupDocs Releases:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
ثبّت الحزمة باستخدام pip (استبدل
*باسم الملف الفعلي الذي حمّلته):
pip install groupdocs_parser_net-25.12-*.whl
البدء السريع
المقتطف التالي يوضح كيفية استخراج النص العادي من ملف PDF:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
للحالات الأكثر تعقيدًا—مثل استخدام القوالب، OCR، أو مسح الباركود—اطلع على مرجع API ومستودع أمثلة الشيفرة المرتبط أدناه.
كيفية الحصول على التحديث
- التحميل المباشر – اختر حزمة WHL المطابقة لنظام تشغيلك من صفحة GroupDocs Releases.
- ترقية عبر pip – عندما يُنشر إصدار أحدث، قم بالترقية باستخدام:
pip install --upgrade groupdocs_parser_net