Повторення даних може зменшити цінність вмісту. Працюючи як письменник, ви повинні дотримуватися принципу DRY(не повторюйтесь). Такі статистичні дані, як кількість слів або кількість входжень кожного слова, дозволяють аналізувати вміст, але це важко зробити вручну для кількох документів. Отже, у цій статті показано, як програмно підраховувати слова та кількість повторів кожного слова у документах PDF, Word, Excel, PowerPoint, eBook, Markup та Email за допомогою C#.

.NET API для підрахунку слів і випадків

GroupDocs.Parser надає рішення для аналізу документів для розробників. Для вилучення тексту з документів і підрахунку входжень ми будемо використовувати його GroupDocs.Parser for .NET. Крім того, API дозволяє отримувати зображення та метадані з довгого списку підтримуваних документів форматів, таких як текстові документи, презентації, електронні таблиці, електронні листи, бази даних, електронні книги та багато інших.

Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API, додавши його пакет до програми .NET за допомогою NuGet.

PM> Install-Package GroupDocs.Parser

Підрахунок слів за допомогою C#

Для підрахунку слів головне розібрати та витягнути весь вміст документа. Після виділення тексту ми можемо розділити його вміст на набір речень і слів. Наступний крок дозволяє підрахувати слова в документі за допомогою C#.

  • Завантажте документ за допомогою класу Parser.
  • Отримайте текст завантаженого документа в TextReader.
  • отримати the text of the document from the TextReader as a string.
  • Розбийте текст на слова та збережіть їх у рядковий масив.
  • Виконайте підрахунок слів.

Наведений нижче вихідний код C# підраховує кількість слів у документі.

// Підрахунок слів у PDF-документі за допомогою C#
using (Parser parser = new Parser("path/document.pdf"))
{                
	// Витягніть текст у зчитувач
	using (TextReader reader = parser.GetText())
	{
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// розділити слова
		string[] words = text.Split(chars);
		// надрукувати загальну кількість слів
		Console.WriteLine("Total word count: {0}", stats.Count);
	}
}

Підрахувати кількість слів у C#

Подібним чином ми можемо порахувати, скільки разів певне слово або фраза було використано в документі. Використовуючи цю функцію, ви можете уникнути надмірного повторення будь-якого слова в статті. У наступних кроках підраховується кількість випадків, коли кожне слово використовується в документі.

  • Завантажте документ за допомогою класу Parser.
  • Отримайте текст завантаженого документа в TextReader.
  • Прочитайте та розділіть увесь текст на збірку слів.
  • Перегляньте колекцію слів, щоб підрахувати слова.

У наведеному нижче фрагменті коду C# підраховується кількість випадків появи кожного унікального слова в документі.

// Підрахунок унікальних слів та їх появи в документі PDF за допомогою C#
using (Parser parser = new Parser("path/document.pdf"))
{                
	// Витягніть текст у TextReader
	using (TextReader reader = parser.GetText())
	{
		Dictionary<string, int> stats = new Dictionary<string, int>();
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// розділити слова
		string[] words = text.Split(chars);
		int minWordLength = 2; // Consider a word having more than 2 characters

		// перебирайте колекцію слів для підрахунку входжень
		foreach (string word in words)
		{
			string w = word.Trim().ToLower();
			if (w.Length > minWordLength)
			{
				if (!stats.ContainsKey(w))
				{
					stats.Add(w, 1); // add new word to collection
				}
				else
				{
					stats[w] += 1; // update word occurrence count
				}
			}
		}
		// упорядкувати колекцію за кількістю слів
		var orderedStats = stats.OrderByDescending(x => x.Value);
		
    		// Роздрукувати результати підрахунку слів
		Console.WriteLine("Total word count: {0}", stats.Count);

    		foreach (var pair in orderedStats)
		{
			Console.WriteLine("Total occurrences of {0}: {1}", pair.Key, pair.Value);
		}
	}
}

Нижче наведено результат наведеного вище коду:

Підрахунок повторень слів

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підсумовуючи, ви навчилися рахувати слова в документі за допомогою C#. Крім того, ми обговорили, як ми можемо отримати кількість повторень для кожного слова в документі. Спробуйте розробити програму .NET для онлайн-лічильника слів. Щоб дізнатися більше та дізнатися про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.

Дивись також