GroupDocs.Parser для Python 25.12 – Останні оновлення та виправлення (Грудень 2025)

Ми раді оголосити про перший випуск GroupDocs.Parser for Python via .NET 25.12, доступний з грудня 2025. Ця початкова версія переносить повну потужність .NET‑двигуна парсингу до розробників Python, дозволяючи витягувати текст, зображення, вкладення, штрих‑коди, OCR‑вміст і структуровані дані з широкого спектру форматів документів.

Що нового в цьому випуску

Основні функції

Витягування тексту – Отримання звичайного або форматованого тексту з PDF, документів Office, електронних листів, електронних книг, архівів тощо.
Розширений пошук – Пошук на рівні сторінок з урахуванням регістру, пошук цілого слова та регулярних виразів.
Парсинг структурованого вмісту – Виявлення та витягування ієрархії документу, такої як заголовки, абзаци, таблиці та власні текстові області.
Парсинг шаблонів – Використання готових шаблонів для отримання строго типізованих полів із рахунків, чеків та інших ділових документів.
Витягування зображень – Витяг вбудованих растрових зображень із підтримуваних документів та форматів зображень.
Витягування вкладень – Експорт файлів‑вкладень, вбудованих у документи.
Сканування штрих‑кодів – Виявлення та читання штрих‑кодів, що присутні в документах.
Підтримка OCR – Виконання оптичного розпізнавання символів у сканованих PDF та растрових зображеннях, за потребою зі спел‑чекінгом.
Витягування метаданих – Доступ до властивостей документа, таких як автор, дата створення та користувацькі метадані.
Витягування змісту – Отримання структури змісту (TOC) з підтримуваних форматів.
Витягування гіперпосилань – Витяг гіперпосилань (наразі обмежено підмножиною форматів).

Підтримувані формати документів

Текстові процесори – DOC, DOCX, RTF, TXT, ODT
PDF та розмітка – PDF, HTML/MHTML, Markdown, XML
Табличні процесори – XLS, XLSX, ODS, CSV
Презентації – PPT, PPTX, ODP
Електронна пошта та нотатки – PST, OST, EML, MSG, ONE
Е‑книги та веб‑вміст – EPUB, MOBI, AZW3, CHM, FB2
Зображення – JPEG, PNG, TIFF, GIF, BMP, SVG
Архіви та контейнери – ZIP, RAR, 7Z, TAR, GZ, BZ2

Підтримка платформ

Windows, Linux та macOS
Python 3.5+

Встановлення

Завантажте відповідний WHL‑пакет для вашої платформи зі сторінки GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Встановіть пакет за допомогою pip (замініть * на фактичну назву файлу, який ви завантажили):

pip install groupdocs_parser_net-25.12-*.whl

Початок роботи

Нижче наведено приклад, який показує, як витягти простий текст із PDF‑файлу:

from groupdocs.parser import Parser

# Створюємо екземпляр Parser для вашого документа
with Parser("sample.pdf") as parser:
    # Витягуємо текст з документа
    text = parser.GetText()
    
    # Виводимо весь витягнутий текст у консоль
    print(text)

Для більш складних сценаріїв — наприклад, використання шаблонів, OCR або сканування штрих‑кодів — звертайтеся до API reference та репозиторію з прикладами коду, зазначених нижче.

Як отримати оновлення

Пряме завантаження – Оберіть WHL‑пакет, що відповідає вашій ОС, на сторінці GroupDocs Releases page.
Оновлення через pip – Після публікації новішої версії оновіть пакет командою:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser для Python 25.12 – грудень 2025: Основні моменти релізу

Що нового в цьому випуску

Основні функції

Підтримувані формати документів

Підтримка платформ

Встановлення

Початок роботи

Як отримати оновлення

Ресурси

Що нового в цьому випуску#

Основні функції#

Підтримувані формати документів#

Підтримка платформ#

Встановлення#

Початок роботи#

Як отримати оновлення#

Ресурси#

Що нового в цьому випуску

Основні функції

Підтримувані формати документів

Підтримка платформ

Встановлення

Початок роботи

Як отримати оновлення

Ресурси