프로그래머는 다양한 종류의 문서에서 텍스트를 추출해야 하는 경우가 많습니다. 이전에 문서의 단어 수 계산, ZIP 아카이브 추출, eBook에서 이미지 추출, PDF 양식 필드 구문 분석에 대해 논의했습니다. 오늘 이 기사에서는 C#을 사용하여 Markdown 파일에서 텍스트를 구문 분석하고 추출하는 방법을 배웁니다.

C#.jpg를 사용하여 MD 파일에서 텍스트 추출

마크다운 텍스트 추출을 위한 .NET API

GroupDocs는 .NET API를 제공하여 문서를 구문 분석하고 .NET 애플리케이션 내의 다양한 문서 형식에서 텍스트를 추출합니다. 이 기사에서는 GroupDocs.Parser for .NET을 사용하여 C#을 사용하여 MD 파일에서 텍스트를 추출합니다.

또한 API는 워드 프로세싱 문서(DOC, DOCX, …), 스프레드시트(XLS, XLSX, …), 프레젠테이션(PPT, PPTX, …), eBook(EPUB, FB2, …)과 같은 다른 많은 파일 형식의 구문 분석을 지원합니다. , 바코드 이미지(JPG, PNG, …) 및 문서에 언급된 기타 여러 가지가 있습니다.

다운로드 섹션에서 DLL 또는 MSI 설치 프로그램을 다운로드하거나 NuGet을 통해 .NET 애플리케이션에 API를 설치할 수 있습니다.

PM> Install-Package GroupDocs.Parser

C#의 마크다운 파일에서 텍스트 추출

다음은 C#을 사용하여 마크다운 파일에서 전체 텍스트 콘텐츠를 추출하는 단계입니다.

  • Parser 클래스를 사용하여 MD 파일을 로드합니다.
  • GetText 메서드를 사용하여 전체 텍스트를 TextReader로 추출합니다.
  • 원하는대로 텍스트를 사용하십시오.

다음 C# 소스 코드는 MD 파일의 텍스트 내용을 추출합니다.

// Markdown 파일의 전체 텍스트 추출
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

무료 API 라이선스 받기

임시 무료 라이선스 받기 평가 제한 없이 API를 사용할 수 있습니다.

결론

요약하자면 C#의 마크다운 파일에서 텍스트를 추출하는 방법에 대해 예제를 통해 논의했습니다. 이것은 GroupDocs에서 개발한 Online Document Parser와 같은 고유한 텍스트 추출 또는 문서 파서 응용 프로그램을 개발하도록 안내했을 수 있습니다.

문서를 사용하여 문서 구문 분석 .NET API에 대해 자세히 알아볼 수 있습니다. 가장 좋은 학습 방법은 GitHub에서 사용할 수 있는 예제를 경험하는 것입니다. 문의 사항은 포럼을 통해 문의하십시오.

또한보십시오