Ми раді оголосити про перший випуск GroupDocs.Parser for Python via .NET 25.12, доступний з грудня 2025. Ця початкова версія переносить повну потужність .NET‑двигуна парсингу до розробників Python, дозволяючи витягувати текст, зображення, вкладення, штрих‑коди, OCR‑вміст і структуровані дані з широкого спектру форматів документів.

Що нового в цьому випуску

Основні функції

  • Витягування тексту – Отримання звичайного або форматованого тексту з PDF, документів Office, електронних листів, електронних книг, архівів тощо.
  • Розширений пошук – Пошук на рівні сторінок з урахуванням регістру, пошук цілого слова та регулярних виразів.
  • Парсинг структурованого вмісту – Виявлення та витягування ієрархії документу, такої як заголовки, абзаци, таблиці та власні текстові області.
  • Парсинг шаблонів – Використання готових шаблонів для отримання строго типізованих полів із рахунків, чеків та інших ділових документів.
  • Витягування зображень – Витяг вбудованих растрових зображень із підтримуваних документів та форматів зображень.
  • Витягування вкладень – Експорт файлів‑вкладень, вбудованих у документи.
  • Сканування штрих‑кодів – Виявлення та читання штрих‑кодів, що присутні в документах.
  • Підтримка OCR – Виконання оптичного розпізнавання символів у сканованих PDF та растрових зображеннях, за потребою зі спел‑чекінгом.
  • Витягування метаданих – Доступ до властивостей документа, таких як автор, дата створення та користувацькі метадані.
  • Витягування змісту – Отримання структури змісту (TOC) з підтримуваних форматів.
  • Витягування гіперпосилань – Витяг гіперпосилань (наразі обмежено підмножиною форматів).

Підтримувані формати документів

  • Текстові процесори – DOC, DOCX, RTF, TXT, ODT
  • PDF та розмітка – PDF, HTML/MHTML, Markdown, XML
  • Табличні процесори – XLS, XLSX, ODS, CSV
  • Презентації – PPT, PPTX, ODP
  • Електронна пошта та нотатки – PST, OST, EML, MSG, ONE
  • Е‑книги та веб‑вміст – EPUB, MOBI, AZW3, CHM, FB2
  • Зображення – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Архіви та контейнери – ZIP, RAR, 7Z, TAR, GZ, BZ2

Підтримка платформ

  • Windows, Linux та macOS
  • Python 3.5+

Встановлення

  1. Завантажте відповідний WHL‑пакет для вашої платформи зі сторінки GroupDocs Releases page:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Встановіть пакет за допомогою pip (замініть * на фактичну назву файлу, який ви завантажили):

pip install groupdocs_parser_net-25.12-*.whl

Початок роботи

Нижче наведено приклад, який показує, як витягти простий текст із PDF‑файлу:

from groupdocs.parser import Parser

# Створюємо екземпляр Parser для вашого документа
with Parser("sample.pdf") as parser:
    # Витягуємо текст з документа
    text = parser.GetText()
    
    # Виводимо весь витягнутий текст у консоль
    print(text)

Для більш складних сценаріїв — наприклад, використання шаблонів, OCR або сканування штрих‑кодів — звертайтеся до API reference та репозиторію з прикладами коду, зазначених нижче.

Як отримати оновлення

  • Пряме завантаження – Оберіть WHL‑пакет, що відповідає вашій ОС, на сторінці GroupDocs Releases page.
  • Оновлення через pip – Після публікації новішої версії оновіть пакет командою:
pip install --upgrade groupdocs_parser_net

Ресурси