Ми раді оголосити про перший випуск GroupDocs.Parser for Python via .NET 25.12, доступний з грудня 2025. Ця початкова версія переносить повну потужність .NET‑двигуна парсингу до розробників Python, дозволяючи витягувати текст, зображення, вкладення, штрих‑коди, OCR‑вміст і структуровані дані з широкого спектру форматів документів.
Що нового в цьому випуску
Основні функції
- Витягування тексту – Отримання звичайного або форматованого тексту з PDF, документів Office, електронних листів, електронних книг, архівів тощо.
- Розширений пошук – Пошук на рівні сторінок з урахуванням регістру, пошук цілого слова та регулярних виразів.
- Парсинг структурованого вмісту – Виявлення та витягування ієрархії документу, такої як заголовки, абзаци, таблиці та власні текстові області.
- Парсинг шаблонів – Використання готових шаблонів для отримання строго типізованих полів із рахунків, чеків та інших ділових документів.
- Витягування зображень – Витяг вбудованих растрових зображень із підтримуваних документів та форматів зображень.
- Витягування вкладень – Експорт файлів‑вкладень, вбудованих у документи.
- Сканування штрих‑кодів – Виявлення та читання штрих‑кодів, що присутні в документах.
- Підтримка OCR – Виконання оптичного розпізнавання символів у сканованих PDF та растрових зображеннях, за потребою зі спел‑чекінгом.
- Витягування метаданих – Доступ до властивостей документа, таких як автор, дата створення та користувацькі метадані.
- Витягування змісту – Отримання структури змісту (TOC) з підтримуваних форматів.
- Витягування гіперпосилань – Витяг гіперпосилань (наразі обмежено підмножиною форматів).
Підтримувані формати документів
- Текстові процесори – DOC, DOCX, RTF, TXT, ODT
- PDF та розмітка – PDF, HTML/MHTML, Markdown, XML
- Табличні процесори – XLS, XLSX, ODS, CSV
- Презентації – PPT, PPTX, ODP
- Електронна пошта та нотатки – PST, OST, EML, MSG, ONE
- Е‑книги та веб‑вміст – EPUB, MOBI, AZW3, CHM, FB2
- Зображення – JPEG, PNG, TIFF, GIF, BMP, SVG
- Архіви та контейнери – ZIP, RAR, 7Z, TAR, GZ, BZ2
Підтримка платформ
- Windows, Linux та macOS
- Python 3.5+
Встановлення
-
Завантажте відповідний WHL‑пакет для вашої платформи зі сторінки GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Встановіть пакет за допомогою pip (замініть
*на фактичну назву файлу, який ви завантажили):
pip install groupdocs_parser_net-25.12-*.whl
Початок роботи
Нижче наведено приклад, який показує, як витягти простий текст із PDF‑файлу:
from groupdocs.parser import Parser
# Створюємо екземпляр Parser для вашого документа
with Parser("sample.pdf") as parser:
# Витягуємо текст з документа
text = parser.GetText()
# Виводимо весь витягнутий текст у консоль
print(text)
Для більш складних сценаріїв — наприклад, використання шаблонів, OCR або сканування штрих‑кодів — звертайтеся до API reference та репозиторію з прикладами коду, зазначених нижче.
Як отримати оновлення
- Пряме завантаження – Оберіть WHL‑пакет, що відповідає вашій ОС, на сторінці GroupDocs Releases page.
- Оновлення через pip – Після публікації новішої версії оновіть пакет командою:
pip install --upgrade groupdocs_parser_net