We’re happy to announce the first release of GroupDocs.Parser for Python via .NET 25.12, available as of December 2025. This initial version brings the full power of the .NET parsing engine to Python developers, enabling extraction of text, images, attachments, barcodes, OCR content, and structured data from a wide range of document formats.
Что нового в этом выпуске
Основные возможности
- Извлечение текста – Получайте простой или форматированный текст из PDF, офисных документов, электронных писем, электронных книг, архивов и прочего.
- Расширенный поиск – Доступ к тексту на уровне страниц с возможностью поиска с учётом регистра, целых слов и регулярных выражений.
- Парсинг структурированного контента – Обнаружение и извлечение иерархии документа, такой как заголовки, абзацы, таблицы и пользовательские текстовые области.
- Парсинг по шаблонам – Используйте предопределённые шаблоны для получения строго типизированных полей из счетов, чеков и других бизнес‑документов.
- Извлечение изображений – Извлекайте встроенные растровые изображения из поддерживаемых форматов документов и изображений.
- Извлечение вложений – Экспортируйте вложенные в документы файлы.
- Сканирование штрихкодов – Обнаруживайте и считывайте штрихкоды, присутствующие в документах.
- Поддержка OCR – Выполняйте оптическое распознавание символов в отсканированных PDF и растровых изображениях, с опциональной проверкой орфографии.
- Извлечение метаданных – Получайте свойства документа, такие как автор, дата создания и пользовательские метаданные.
- Извлечение оглавления – Получайте структуры оглавления из поддерживаемых форматов.
- Извлечение гиперссылок – Извлекайте гиперссылки (в настоящее время ограничено набором форматов).
Поддерживаемые форматы документов
- Обработка текста – DOC, DOCX, RTF, TXT, ODT
- PDF и разметка – PDF, HTML/MHTML, Markdown, XML
- Электронные таблицы – XLS, XLSX, ODS, CSV
- Презентации – PPT, PPTX, ODP
- Электронная почта и заметки – PST, OST, EML, MSG, ONE
- Электронные книги и веб‑контент – EPUB, MOBI, AZW3, CHM, FB2
- Изображения – JPEG, PNG, TIFF, GIF, BMP, SVG
- Архивы и контейнеры – ZIP, RAR, 7Z, TAR, GZ, BZ2
Поддержка платформ
- Windows, Linux и macOS
- Python 3.5+
Установка
-
Скачайте соответствующий WHL‑пакет для вашей платформы со страницы GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Установите пакет с помощью pip (замените
*на фактическое имя скачанного файла):
pip install groupdocs_parser_net-25.12-*.whl
Начало работы
Следующий фрагмент кода демонстрирует, как извлечь простой текст из PDF‑файла:
from groupdocs.parser import Parser
# Create a Parser instance for your document
with Parser("sample.pdf") as parser:
# Extract text from the document
text = parser.GetText()
# Print all extracted text to the console
print(text)
Для более сложных сценариев — например, использования шаблонов, OCR или сканирования штрихкодов — обратитесь к справочнику API и репозиторию примеров кода, указанных ниже.
Как получить обновление
- Прямое скачивание – Выберите WHL‑пакет, соответствующий вашей ОС, со страницы GroupDocs Releases page.
- Обновление через pip – Как только будет опубликована новая версия, выполните обновление:
pip install --upgrade groupdocs_parser_net