개발자는 다양한 문서에서 텍스트를 추출해야 하는 경우가 많습니다. 우리는 이미 ZIP 아카이브 추출, 문서의 단어 계산, eBook에서 이미지 추출 및 기타 몇 가지 구문 분석 방법에 대해 논의했습니다. 오늘 이 기사에서는 Java의 Markdown 파일에서 텍스트를 구문 분석하고 추출하는 방법을 배웁니다.

C#.jpg를 사용하여 MD 파일에서 텍스트 추출

마크다운 텍스트 추출을 위한 자바 API

GroupDocs는 Java 애플리케이션 내의 다양한 문서 형식에서 문서를 구문 분석하고 텍스트를 추출하는 Java API를 제공합니다. API는 다음과 같은 다양한 파일 형식의 구문 분석을 지원합니다.

  • 워드 프로세싱 문서: DOC, DOCX, …
  • 스프레드시트: XLS, XLSX, …
  • 프레젠테이션: PPT, PPTX, …
  • 전자책: EPUB, FB2, …
  • 바코드 이미지: JPG, PNG, …
  • 전체 목록은 문서에 나와 있습니다.

그러나 이 기사에서는 GroupDocs.Parser for Java를 사용하여 Java를 사용하여 MD 파일에서 텍스트만 추출합니다.

다운로드 섹션에서 JAR 파일을 다운로드하거나 maven 기반 Java 애플리케이션의 pom.xml에 대한 저장소 및 종속성 구성을 가져올 수 있습니다.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Java의 마크다운 파일에서 텍스트 추출

다음은 Java의 마크다운 파일에서 전체 텍스트 콘텐츠를 추출하는 단계입니다.

  • Parser 클래스를 사용하여 MD 파일을 로드합니다.
  • getText 메서드를 사용하여 전체 텍스트를 TextReader로 추출합니다.
  • 원하는대로 텍스트를 사용하십시오.

다음 Java 소스 코드는 MD 파일의 텍스트 내용을 추출합니다.

// Java에서 Markdown 파일의 전체 텍스트 추출
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

무료 API 라이선스 받기

임시 무료 라이선스 받기 평가 제한 없이 API를 사용할 수 있습니다.

결론

요약하면 이 기사에서는 Java의 마크다운 파일에서 텍스트를 추출하는 기본적이고 빠른 방법을 설명했습니다. 이 접근 방식을 사용하면 GroupDocs에서 개발한 Online Document Parser와 같은 텍스트 추출 및 문서 파서 응용 프로그램을 개발할 수 있습니다.

문서를 사용하여 문서 구문 분석 Java API에 대해 자세히 알아볼 수 있습니다. 배우는 빠른 방법은 GitHub에서 사용할 수 있는 예제를 경험하는 것입니다. 문의 사항은 포럼을 통해 문의하십시오.

또한보십시오