En tant que programmeur, nous avons souvent besoin d’extraire le texte de divers types de documents. Auparavant, nous avons discuté du comptage des mots dans les documents, de l’extraction des archives ZIP, de l’extraction des images des livres électroniques et de l’analyse des champs de formulaire PDF. Aujourd’hui, dans cet article, vous apprendrez à analyser et extraire du texte à partir de fichiers Markdown à l’aide de C#.
API .NET pour l’extraction de texte Markdown
GroupDocs fournit son API .NET pour analyser les documents et extraire le texte de divers formats de document dans les applications .NET. Dans cet article, nous utiliserons son GroupDocs.Parser for .NET pour extraire le texte des fichiers MD à l’aide de C#.
De plus, l’API prend en charge l’analyse de nombreux autres formats de fichiers tels que les documents de traitement de texte (DOC, DOCX, …), les feuilles de calcul (XLS, XLSX, …), les présentations (PPT, PPTX, …), les livres électroniques (EPUB, FB2, …) , images de codes-barres (JPG, PNG, …), et bien d’autres cités dans sa documentation.
Vous pouvez télécharger les DLL ou le programme d’installation MSI à partir de la section des téléchargements ou installer l’API dans votre application .NET via NuGet.
PM> Install-Package GroupDocs.Parser
Extraire le texte du fichier Markdown en C#
Voici les étapes pour extraire tout le contenu du texte du fichier Markdown à l’aide de C#.
- Chargez le fichier MD à l’aide de la classe Parser.
- Extrayez tout le texte dans TextReader à l’aide de la méthode GetText.
- Utilisez le texte comme vous le souhaitez.
Le code source C# suivant extrait le contenu textuel du fichier MD.
// Extraire le texte entier du fichier Markdown
using (Parser parser = new Parser("/path/document.md"))
{
using (TextReader reader = parser.GetText())
{
Console.WriteLine(reader.ReadToEnd());
}
}
Obtenez une licence API gratuite
Vous pouvez obtenir une licence temporaire gratuite pour utiliser l’API sans les limitations d’évaluation.
Conclusion
Pour résumer, nous avons expliqué comment extraire du texte des fichiers Markdown en C# avec un exemple. Cela vous a peut-être guidé pour développer votre propre application d’extraction de texte ou d’analyseur de documents comme Online Document Parser développé par GroupDocs.
Vous pouvez en savoir plus sur l’API .NET d’analyse de documents à l’aide de sa documentation. La meilleure façon d’apprendre est d’expérimenter les exemples disponibles sur GitHub. Contactez-nous pour toute question via le forum.