GroupDocs.Parser dla Pythona 25.12 – Najnowsze aktualizacje i poprawki (Grudzień 2025)

Jesteśmy szczęśliwi, mogąc ogłosić pierwsze wydanie GroupDocs.Parser for Python via .NET 25.12, dostępne od grudnia 2025. Ta początkowa wersja przenosi pełną moc silnika parsującego .NET do programistów Pythona, umożliwiając wyodrębnianie tekstu, obrazów, załączników, kodów kreskowych, treści OCR oraz danych strukturalnych z szerokiego zakresu formatów dokumentów.

Co nowego w tym wydaniu

Główne funkcje

Ekstrakcja tekstu – Pobieranie zwykłego lub sformatowanego tekstu z PDF‑ów, dokumentów Office, e‑maili, e‑booków, archiwów i nie tylko.
Zaawansowane wyszukiwanie – Dostęp na poziomie stron z opcjami wyszukiwania rozróżniającymi wielkość znaków, dopasowaniem całych wyrazów oraz wyrażeniami regularnymi.
Parsowanie treści strukturalnych – Wykrywanie i wyodrębnianie hierarchii dokumentu, takiej jak nagłówki, akapity, tabele i niestandardowe obszary tekstowe.
Parsowanie szablonów – Użycie zdefiniowanych szablonów do pobierania ściśle typowanych pól z faktur, paragonów i innych dokumentów biznesowych.
Ekstrakcja obrazów – Pobieranie osadzonych obrazów rastrowych z obsługiwanych formatów dokumentów i obrazów.
Ekstrakcja załączników – Eksportowanie plików załączonych do dokumentów.
Skanowanie kodów kreskowych – Wykrywanie i odczytywanie kodów kreskowych znajdujących się w dokumentach.
Obsługa OCR – Przeprowadzanie optycznego rozpoznawania znaków na zeskanowanych PDF‑ach i obrazach rastrowych, z opcjonalnym sprawdzaniem pisowni.
Ekstrakcja metadanych – Dostęp do właściwości dokumentu, takich jak autor, data utworzenia i niestandardowe metadane.
Ekstrakcja spisu treści – Pobieranie struktur spisu treści z obsługiwanych formatów.
Ekstrakcja hiperłączy – Wyodrębnianie hiperłączy (obecnie ograniczone do wybranej podgrupy formatów).

Obsługiwane formaty dokumentów

Przetwarzanie tekstu – DOC, DOCX, RTF, TXT, ODT
PDF i markup – PDF, HTML/MHTML, Markdown, XML
Arkusze kalkulacyjne – XLS, XLSX, ODS, CSV
Prezentacje – PPT, PPTX, ODP
E‑mail i notatki – PST, OST, EML, MSG, ONE
e‑booki i treści internetowe – EPUB, MOBI, AZW3, CHM, FB2
Obrazy – JPEG, PNG, TIFF, GIF, BMP, SVG
Archiwa i kontenery – ZIP, RAR, 7Z, TAR, GZ, BZ2

Obsługa platform

Windows, Linux i macOS
Python 3.5+

Instalacja

Pobierz odpowiedni pakiet WHL dla swojej platformy ze strony GroupDocs Releases:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Zainstaluj pakiet przy pomocy pip (zamień * na rzeczywistą nazwę pobranego pliku):

pip install groupdocs_parser_net-25.12-*.whl

Rozpoczęcie pracy

Poniższy fragment kodu pokazuje, jak wyodrębnić zwykły tekst z pliku PDF:

from groupdocs.parser import Parser

# Utwórz instancję Parser dla swojego dokumentu
with Parser("sample.pdf") as parser:
    # Pobierz tekst z dokumentu
    text = parser.GetText()
    
    # Wypisz cały wyodrębniony tekst w konsoli
    print(text)

W bardziej złożonych scenariuszach — np. przy użyciu szablonów, OCR lub skanowania kodów kreskowych — zapoznaj się z referencją API oraz repozytorium przykładów kodu pod linkiem poniżej.

Jak uzyskać aktualizację

Bezpośrednie pobranie — Wybierz pakiet WHL pasujący do Twojego systemu operacyjnego na stronie GroupDocs Releases.
upgrade pip — Gdy opublikowana zostanie nowsza wersja, zaktualizuj ją poleceniem:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser dla Pythona 25.12 – grudzień 2025 Najważniejsze informacje o wydaniu

Co nowego w tym wydaniu

Główne funkcje

Obsługiwane formaty dokumentów

Obsługa platform

Instalacja

Rozpoczęcie pracy

Jak uzyskać aktualizację

Zasoby

Co nowego w tym wydaniu#

Główne funkcje#

Obsługiwane formaty dokumentów#

Obsługa platform#

Instalacja#

Rozpoczęcie pracy#

Jak uzyskać aktualizację#

Zasoby#

Co nowego w tym wydaniu

Główne funkcje

Obsługiwane formaty dokumentów

Obsługa platform

Instalacja

Rozpoczęcie pracy

Jak uzyskać aktualizację

Zasoby