분류는 기본적으로 텍스트를 체계적으로 식별한 다음 규칙에 따라 구성하는 접근 방식입니다. 분류학은 그러한 분류의 과학을 정의합니다. 많은 양의 텍스트 문서를 다룰 때 콘텐츠의 분류학적 분류까지는 문서의 주제를 찾기가 어렵습니다. 이 기사에서는 IAB-2에 따라 문서를 프로그래밍 방식으로 분류하고 C#을 사용하는 문서 분류를 배웁니다.

다음 주제는 아래에서 다룹니다.

문서의 분류학적 분류를 위한 .NET API

GroupDocs.Classification은 다양한 종류의 애플리케이션에 대한 분류 솔루션을 제공합니다. .NET API를 사용하면 .NET 애플리케이션 내에서 다양한 분류 범주에 따라 다양한 파일 형식의 문서를 분류할 수 있습니다. C#을 사용하여 PDF 및 Word 문서를 분류하기 위해 GroupDocs.Classification for .NET API를 사용할 것입니다.

다운로드 섹션에서 DLL 또는 MSI 설치 프로그램을 다운로드하거나 NuGet을 통해 .NET 애플리케이션에 API를 설치할 수 있습니다.

PM> Install-Package GroupDocs.Classification

C#을 사용하여 IAB-2 분류로 문서 분류

IAB-2는 문서의 내용을 여러 주제로 분류한 다음 깊이 수준에 따라 분류합니다. 다음은 C#을 사용하여 IAB-2 taxonomy 문서의 분류학적 분류를 식별하는 단계입니다.

  • Classifier 클래스를 사용하여 분류기를 인스턴스화합니다.
  • 입력 문서와 입력 폴더를 정의합니다.
  • TaxonomyIAB2로 정의합니다.
  • 응답에서 처음 몇 개의 최상의 결과에 대한 개수를 설정합니다. (선택 과목)
  • 정의된 매개변수로 Classify 메서드를 호출하여 분류 범주를 가져옵니다.
  • Classify 메소드의 분류 응답을 사용하여 Best Class NameProbability를 출력합니다.

다음 C# 소스 코드는 IAB-2 분류법을 사용하여 문서를 분류하고 상위 문서 분류 결과를 얻는 방법을 보여줍니다.

/*
* C#을 사용하여 IAB-2 분류로 문서(PDF, Word, ...) 분류
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

C#을 사용하여 문서 분류로 문서 분류

문서 분류는 송장, 이력서, 양식, 이메일 등과 같은 다양한 문서 클래스를 식별하는 데 사용됩니다. 다음은 C#을 사용하여 문서 분류로 문서의 분류 분류를 식별하는 단계입니다.

  • Classifier 클래스를 사용하여 분류기를 인스턴스화합니다.
  • 입력 문서와 폴더를 설정합니다.
  • Taxonomy문서로 정의합니다.
  • 응답의 상위 결과 수에 대한 개수를 설정합니다. (선택 과목)
  • 위에서 정의한 매개변수로 Classify 메서드를 호출하여 분류 그룹을 가져옵니다.
  • Classify 메소드의 분류 응답을 사용하여 Best Class NameProbability를 출력합니다.

다음 C# 소스 코드는 문서 분류를 사용하여 문서를 분류하고 최고의 분류 범주를 가져오는 방법을 보여줍니다.

/*
* C#을 사용하여 문서 분류로 문서(PDF, Word, ...) 분류
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

C#을 사용하여 암호로 보호된 문서 분류

문서가 암호로 보호되어 있으면 분류하는 동안 자격 증명을 제공하기만 하면 됩니다. 다음은 C#을 사용하여 암호로 보호된 문서를 분류하는 단계입니다.

  • 분류기를 인스턴스화합니다.
  • 보호된 문서의 입력 문서, 입력 폴더, 비밀번호를 정의합니다.
  • Taxonomy문서로 정의합니다.
  • 정의된 매개변수로 Classify 메서드를 호출하여 분류 그룹을 가져옵니다.
  • Classify 메소드의 response에서 Best Class NameProbability를 가져옵니다.

다음 코드 조각은 암호로 보호된 문서를 분류하고 기본 분류(IAB-2)를 사용하여 최상의 분류 범주를 가져오는 방법을 보여줍니다.

/*
* C#을 사용하여 암호로 보호된 문서 분류
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

분류법의 기본값은 IAB-2이고 최상의 결과 수는 1입니다.

무료 라이선스 받기

평가 제한 없이 API를 사용하기 위해 임시 무료 라이선스 받기를 할 수 있습니다.

결론

결론적으로, 우리는 다양한 분류법을 사용하여 다양한 종류의 문서를 분류하는 방법을 배웠습니다. 보다 정확하게는 IAB-2에 따라 PDF 문서를 분류하고 C#을 사용하여 문서 분류를 분류했습니다. 또한 기본 또는 특정 분류 분류로 암호로 보호된 Word 문서를 분류하는 방법에 대해 논의했습니다. 이제 .NET 애플리케이션 내에서 문서 분류 기능을 통합할 수 있습니다.

API에 대한 자세한 내용은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의해 주세요.

또한보십시오