We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

מה חדש במהדורה זו

תכונות עיקריות

  • חילוץ טקסט – שליפת טקסט פשוט או מעוצב מ‑PDFs, מסמכי Office, אימיילים, ספרי אלקטרוניים, ארכיונים ועוד.
  • חיפוש מתקדם – גישה ברמת העמוד עם אפשרויות חיפוש רגישות לרישיות, מילה שלמה, וביטוי רגולרי.
  • פירוש תוכן מובנה – זיהוי וחילוץ היררכיית המסמך כגון כותרים, פסקאות, טבלאות ושטחי טקסט מותאמים.
  • פירוש תבניות – שימוש בתבניות מוגדרות מראש כדי לחלץ שדות בעלת טיפוס חזק מחשבוניות, קבלות ומסמכי עסקים אחרים.
  • חילוץ תמונות – שליפת תמונות רסטר מובנות ממסמכים ותבניות תמונה נתמכות.
  • חילוץ קבצים מצורפים – ייצוא קבצים מצורפים המוטמעים במסמכים.
  • סריקת ברקוד – זיהוי וקריאת ברקודים המופיעים במסמכים.
  • תמיכה ב‑OCR – ביצוע זיהוי תווים אופטי על PDF סרוקים ותמונות רסטר, עם אפשרות לבדיקת איות.
  • חילוץ מטא‑נתונים – גישה למאפייני המסמך כגון מחבר, תאריך יצירה, ומטא‑נתונים מותאמים.
  • חילוץ תוכן עניינים – שליפת מבני תוכן עניינים מפורמטים נתמכים.
  • חילוץ קישורים – חילוץ קישורים (כיום מוגבל למגוון מצומצם של פורמטים).

פורמטים של מסמכים תומכים

  • עיבוד תמלילים – DOC, DOCX, RTF, TXT, ODT
  • PDF ו‑Markup – PDF, HTML/MHTML, Markdown, XML
  • גיליונות אלקטרוניים – XLS, XLSX, ODS, CSV
  • מצגות – PPT, PPTX, ODP
  • אימייל והערות – PST, OST, EML, MSG, ONE
  • ספרים אלקטרוניים ותוכן אינטרנט – EPUB, MOBI, AZW3, CHM, FB2
  • תמונות – JPEG, PNG, TIFF, GIF, BMP, SVG
  • ארכיונים ומכלים – ZIP, RAR, 7Z, TAR, GZ, BZ2

תמיכה בפלטפורמות

  • Windows, Linux, ו‑macOS
  • Python 3.5+

התקנה

  1. הורד את חבילת ה‑WHL המתאימה לפלטפורמה שלך מדף GroupDocs Releases page:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. התקן את החבילה באמצעות pip (החלף * בשם הקובץ האמיתי שהורדת):

pip install groupdocs_parser_net-25.12-*.whl

התחלת עבודה

הקטע הבא מציג כיצד לחלץ טקסט פשוט מקובץ PDF:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

לתרחישים מורכבים יותר — כגון שימוש בתבניות, OCR, או סריקת ברקוד — פנה למפרט ה‑API ולמחסן דוגמאות הקוד המקושר למטה.

איך לקבל את העדכון

  • הורדה ישירה – בחר את חבילת ה‑WHL המתאימה למערכת ההפעלה שלך מדף GroupDocs Releases page.
  • שדרוג pip – ברגע שיש גרסה חדשה, שדרג באמצעות:
pip install --upgrade groupdocs_parser_net

משאבים