כמתכנת, לעתים קרובות יש לנו דרישה לחלץ את הטקסט מסוגים שונים של מסמכים. בעבר דנו בספירת מילים במסמכים, חילוץ ארכיוני ZIP, חילוץ תמונות מספרים אלקטרוניים וניתוח שדות טופס PDF. היום, במאמר זה, תלמדו כיצד לנתח ולחלץ טקסט מקבצי Markdown באמצעות C#.

חלץ טקסט מקובצי MD באמצעות C#.jpg

NET API עבור חילוץ טקסט Markdown

GroupDocs מספקת את ה-.NET API שלה כדי לנתח מסמכים ולחלץ טקסט מפורמטים שונים של מסמכים בתוך יישומי NET. במאמר זה, נשתמש ב-GroupDocs.Parser for .NET שלו כדי לחלץ טקסט מקבצי ה-MD באמצעות C#.

בנוסף, ה-API תומך בניתוח של פורמטים רבים אחרים של קבצים כמו מסמכי עיבוד תמלילים (DOC, DOCX, …), גיליונות אלקטרוניים (XLS, XLSX, …), מצגות (PPT, PPTX, …), ספרים אלקטרוניים (EPUB, FB2, …) , תמונות ברקוד (JPG, PNG, …), ועוד רבים אחרים המוזכרים בתיעוד שלה.

אתה יכול להוריד את קובצי ה-DLL או ה-MSI מתקין מסעיף ההורדות או להתקין את ה-API באפליקציית NET שלך דרך NuGet.

PM> Install-Package GroupDocs.Parser

חלץ טקסט מקובץ Markdown ב-C#

להלן השלבים לחילוץ כל תוכן הטקסט מקובץ הסימון באמצעות C#.

  • טען את קובץ ה-MD באמצעות המחלקה Parser.
  • חלץ את כל הטקסט לתוך TextReader באמצעות שיטת GetText.
  • השתמש בטקסט כרצונך.

קוד המקור C# הבא מחלץ את התוכן הטקסטואלי של קובץ ה-MD.

// חלץ טקסט שלם של קובץ Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

קבל רישיון API בחינם

אתה יכול לקבל רישיון זמני בחינם לשימוש ב-API ללא מגבלות ההערכה.

סיכום

לסיכום, דנו כיצד לחלץ טקסט מקבצי הסימון ב-C# עם דוגמה. ייתכן שזה הנחה אותך לפתח יישום חילוץ טקסט או מנתח מסמכים משלך כמו מנתח מסמכים מקוון שפותח על ידי GroupDocs.

אתה יכול ללמוד עוד על ניתוח המסמכים .NET API באמצעות תיעוד שלו. הדרך הטובה ביותר ללמוד היא לחוות את הדוגמאות הזמינות ב-GitHub. צור איתנו קשר לכל שאלה דרך הפורום.

ראה גם