Jesteśmy szczęśliwi, mogąc ogłosić pierwsze wydanie GroupDocs.Parser for Python via .NET 25.12, dostępne od grudnia 2025. Ta początkowa wersja przenosi pełną moc silnika parsującego .NET do programistów Pythona, umożliwiając wyodrębnianie tekstu, obrazów, załączników, kodów kreskowych, treści OCR oraz danych strukturalnych z szerokiego zakresu formatów dokumentów.

Co nowego w tym wydaniu

Główne funkcje

  • Ekstrakcja tekstu – Pobieranie zwykłego lub sformatowanego tekstu z PDF‑ów, dokumentów Office, e‑maili, e‑booków, archiwów i nie tylko.
  • Zaawansowane wyszukiwanie – Dostęp na poziomie stron z opcjami wyszukiwania rozróżniającymi wielkość znaków, dopasowaniem całych wyrazów oraz wyrażeniami regularnymi.
  • Parsowanie treści strukturalnych – Wykrywanie i wyodrębnianie hierarchii dokumentu, takiej jak nagłówki, akapity, tabele i niestandardowe obszary tekstowe.
  • Parsowanie szablonów – Użycie zdefiniowanych szablonów do pobierania ściśle typowanych pól z faktur, paragonów i innych dokumentów biznesowych.
  • Ekstrakcja obrazów – Pobieranie osadzonych obrazów rastrowych z obsługiwanych formatów dokumentów i obrazów.
  • Ekstrakcja załączników – Eksportowanie plików załączonych do dokumentów.
  • Skanowanie kodów kreskowych – Wykrywanie i odczytywanie kodów kreskowych znajdujących się w dokumentach.
  • Obsługa OCR – Przeprowadzanie optycznego rozpoznawania znaków na zeskanowanych PDF‑ach i obrazach rastrowych, z opcjonalnym sprawdzaniem pisowni.
  • Ekstrakcja metadanych – Dostęp do właściwości dokumentu, takich jak autor, data utworzenia i niestandardowe metadane.
  • Ekstrakcja spisu treści – Pobieranie struktur spisu treści z obsługiwanych formatów.
  • Ekstrakcja hiperłączy – Wyodrębnianie hiperłączy (obecnie ograniczone do wybranej podgrupy formatów).

Obsługiwane formaty dokumentów

  • Przetwarzanie tekstu – DOC, DOCX, RTF, TXT, ODT
  • PDF i markup – PDF, HTML/MHTML, Markdown, XML
  • Arkusze kalkulacyjne – XLS, XLSX, ODS, CSV
  • Prezentacje – PPT, PPTX, ODP
  • E‑mail i notatki – PST, OST, EML, MSG, ONE
  • e‑booki i treści internetowe – EPUB, MOBI, AZW3, CHM, FB2
  • Obrazy – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Archiwa i kontenery – ZIP, RAR, 7Z, TAR, GZ, BZ2

Obsługa platform

  • Windows, Linux i macOS
  • Python 3.5+

Instalacja

  1. Pobierz odpowiedni pakiet WHL dla swojej platformy ze strony GroupDocs Releases:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Zainstaluj pakiet przy pomocy pip (zamień * na rzeczywistą nazwę pobranego pliku):

pip install groupdocs_parser_net-25.12-*.whl

Rozpoczęcie pracy

Poniższy fragment kodu pokazuje, jak wyodrębnić zwykły tekst z pliku PDF:

from groupdocs.parser import Parser

# Utwórz instancję Parser dla swojego dokumentu
with Parser("sample.pdf") as parser:
    # Pobierz tekst z dokumentu
    text = parser.GetText()
    
    # Wypisz cały wyodrębniony tekst w konsoli
    print(text)

W bardziej złożonych scenariuszach — np. przy użyciu szablonów, OCR lub skanowania kodów kreskowych — zapoznaj się z referencją API oraz repozytorium przykładów kodu pod linkiem poniżej.

Jak uzyskać aktualizację

  • Bezpośrednie pobranie — Wybierz pakiet WHL pasujący do Twojego systemu operacyjnego na stronie GroupDocs Releases.
  • upgrade pip — Gdy opublikowana zostanie nowsza wersja, zaktualizuj ją poleceniem:
pip install --upgrade groupdocs_parser_net

Zasoby