우리는 GroupDocs.Parser for Python via .NET 25.12의 첫 번째 릴리스를 발표하게 되어 기쁩니다. 이 릴리스는 2025년 12월부터 사용할 수 있습니다. 이번 초기 버전은 .NET 파싱 엔진의 전체 성능을 Python 개발자에게 제공하여 다양한 문서 형식에서 텍스트, 이미지, 첨부 파일, 바코드, OCR 콘텐츠 및 구조화된 데이터를 추출할 수 있게 합니다.
이번 릴리스의 새로운 기능
주요 기능
- 텍스트 추출 – PDF, Office 문서, 이메일, 전자책, 압축 파일 등에서 일반 텍스트 또는 서식 있는 텍스트를 가져옵니다.
- 고급 검색 – 대소문자 구분, 전체 단어, 정규식 옵션을 지원하는 페이지 수준 검색을 제공합니다.
- 구조화된 콘텐츠 파싱 – 제목, 단락, 표 및 사용자 정의 텍스트 영역과 같은 문서 계층 구조를 감지하고 추출합니다.
- 템플릿 파싱 – 사전 정의된 템플릿을 사용하여 인보이스, 영수증 및 기타 비즈니스 문서에서 강타입 필드를 추출합니다.
- 이미지 추출 – 지원되는 문서 및 이미지 형식에서 삽입된 래스터 이미지를 가져옵니다.
- 첨부 파일 추출 – 문서에 포함된 파일 첨부 항목을 내보냅니다.
- 바코드 스캔 – 문서에 존재하는 바코드를 감지하고 읽어냅니다.
- OCR 지원 – 스캔된 PDF 및 래스터 이미지에 대해 광학 문자 인식을 수행하며, 옵션으로 맞춤법 검사를 제공할 수 있습니다.
- 메타데이터 추출 – 작성자, 생성 날짜 및 사용자 정의 메타데이터와 같은 문서 속성에 접근합니다.
- 목차 추출 – 지원되는 형식에서 목차 구조를 가져옵니다.
- 하이퍼링크 추출 – 하이퍼링크를 추출합니다(현재 일부 형식에만 제한됨).
지원되는 문서 형식
- 워드 프로세싱 – DOC, DOCX, RTF, TXT, ODT
- PDF 및 마크업 – PDF, HTML/MHTML, Markdown, XML
- 스프레드시트 – XLS, XLSX, ODS, CSV
- 프레젠테이션 – PPT, PPTX, ODP
- 이메일 및 메모 – PST, OST, EML, MSG, ONE
- 전자책 및 웹 콘텐츠 – EPUB, MOBI, AZW3, CHM, FB2
- 이미지 – JPEG, PNG, TIFF, GIF, BMP, SVG
- 압축 파일 및 컨테이너 – ZIP, RAR, 7Z, TAR, GZ, BZ2
플랫폼 지원
- Windows, Linux, macOS
- Python 3.5+
설치
-
GroupDocs Releases page에서 플랫폼에 맞는 WHL 패키지를 다운로드합니다.
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
pip으로 패키지를 설치합니다 (
*를 실제 다운로드한 파일 이름으로 교체).
pip install groupdocs_parser_net-25.12-*.whl
시작하기
다음 코드 스니펫은 PDF 파일에서 일반 텍스트를 추출하는 방법을 보여줍니다.
from groupdocs.parser import Parser
# 문서를 위한 Parser 인스턴스 생성
with Parser("sample.pdf") as parser:
# 문서에서 텍스트 추출
text = parser.GetText()
# 추출된 모든 텍스트를 콘솔에 출력
print(text)
템플릿 사용, OCR, 바코드 스캔 등 더 복잡한 시나리오에 대해서는 아래 API 레퍼런스와 코드 샘플 저장소를 참조하십시오.
업데이트 받는 방법
- 직접 다운로드 – GroupDocs Releases page에서 운영 체제에 맞는 WHL 패키지를 선택합니다.
- pip 업그레이드 – 새로운 버전이 게시되면 다음 명령으로 업그레이드합니다.
pip install --upgrade groupdocs_parser_net