GroupDocs.Parser для Python 25.12 – Последние обновления и исправления (Декабрь 2025)

We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.

Что нового в этом выпуске

Основные возможности

Извлечение текста – Получайте простой или форматированный текст из PDF, офисных документов, электронных писем, электронных книг, архивов и прочего.
Расширенный поиск – Доступ к тексту на уровне страниц с возможностью поиска с учётом регистра, целых слов и регулярных выражений.
Парсинг структурированного контента – Обнаружение и извлечение иерархии документа, такой как заголовки, абзацы, таблицы и пользовательские текстовые области.
Парсинг по шаблонам – Используйте предопределённые шаблоны для получения строго типизированных полей из счетов, чеков и других бизнес‑документов.
Извлечение изображений – Извлекайте встроенные растровые изображения из поддерживаемых форматов документов и изображений.
Извлечение вложений – Экспортируйте вложенные в документы файлы.
Сканирование штрихкодов – Обнаруживайте и считывайте штрихкоды, присутствующие в документах.
Поддержка OCR – Выполняйте оптическое распознавание символов в отсканированных PDF и растровых изображениях, с опциональной проверкой орфографии.
Извлечение метаданных – Получайте свойства документа, такие как автор, дата создания и пользовательские метаданные.
Извлечение оглавления – Получайте структуры оглавления из поддерживаемых форматов.
Извлечение гиперссылок – Извлекайте гиперссылки (в настоящее время ограничено набором форматов).

Поддерживаемые форматы документов

Обработка текста – DOC, DOCX, RTF, TXT, ODT
PDF и разметка – PDF, HTML/MHTML, Markdown, XML
Электронные таблицы – XLS, XLSX, ODS, CSV
Презентации – PPT, PPTX, ODP
Электронная почта и заметки – PST, OST, EML, MSG, ONE
Электронные книги и веб‑контент – EPUB, MOBI, AZW3, CHM, FB2
Изображения – JPEG, PNG, TIFF, GIF, BMP, SVG
Архивы и контейнеры – ZIP, RAR, 7Z, TAR, GZ, BZ2

Поддержка платформ

Windows, Linux и macOS
Python 3.5+

Установка

Скачайте соответствующий WHL‑пакет для вашей платформы со страницы GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Установите пакет с помощью pip (замените * на фактическое имя скачанного файла):

pip install groupdocs_parser_net-25.12-*.whl

Начало работы

Следующий фрагмент кода демонстрирует, как извлечь простой текст из PDF‑файла:

from groupdocs.parser import Parser

# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
    # Extract text from the document
    text = parser.GetText()
    
    # Print all extracted text to the console
    print(text)

Для более сложных сценариев — например, использования шаблонов, OCR или сканирования штрихкодов — обратитесь к справочнику API и репозиторию примеров кода, указанных ниже.

Как получить обновление

Прямое скачивание – Выберите WHL‑пакет, соответствующий вашей ОС, со страницы GroupDocs Releases page.
Обновление через pip – Как только будет опубликована новая версия, выполните обновление:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser для Python 25.12 – Декабрь 2025 Основные особенности релиза

Что нового в этом выпуске

Основные возможности

Поддерживаемые форматы документов

Поддержка платформ

Установка

Начало работы

Как получить обновление

Ресурсы

Что нового в этом выпуске#

Основные возможности#

Поддерживаемые форматы документов#

Поддержка платформ#

Установка#

Начало работы#

Как получить обновление#

Ресурсы#

Что нового в этом выпуске

Основные возможности

Поддерживаемые форматы документов

Поддержка платформ

Установка

Начало работы

Как получить обновление

Ресурсы