למפתחים יש לרוב דרישות לחלץ טקסט ממסמכים שונים. כבר דנו בחילוץ ארכיוני ZIP, ספירת מילים במסמכים, חילוץ תמונות מ-eBooks ועוד כמה דרכים לניתוח. היום, במאמר זה, תלמדו כיצד לנתח ולחלץ טקסט מקבצי Markdown ב-Java.
Java API עבור חילוץ טקסט Markdown
GroupDocs מספק Java API לנתח מסמכים ולחלץ טקסט מפורמטים שונים של מסמכים בתוך יישומי Java. ה-API תומך בניתוח של פורמטים רבים של קבצים כמו:
- מסמכי עיבוד תמלילים: DOC, DOCX, …
- גיליונות אלקטרוניים: XLS, XLSX, …
- מצגות: PPT, PPTX, ….
- ספרים אלקטרוניים: EPUB, FB2, …
- תמונות ברקוד: JPG, PNG, …
- הרשימה המלאה מוזכרת בתיעוד.
במאמר זה, נשתמש ב-GroupDocs.Parser עבור Java רק כדי לחלץ טקסט מקבצי ה-MD באמצעות Java.
אתה יכול להוריד את קובץ ה-JAR מסעיף ההורדות, או פשוט לקבל את תצורות המאגר והתלות עבור ה-pom.xml של יישומי Java המבוססים על maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
חלץ טקסט מקובץ Markdown ב-Java
להלן השלבים לחילוץ כל תוכן הטקסט מקובץ הסימון ב-Java.
- טען את קובץ ה-MD באמצעות המחלקה Parser.
- חלץ את כל הטקסט לתוך TextReader באמצעות שיטת getText.
- השתמש בטקסט כרצונך.
קוד המקור של Java הבא מחלץ את התוכן הטקסטואלי של קובץ ה-MD.
// חלץ טקסט שלם של קובץ Markdown ב-Java
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
קבל רישיון API בחינם
אתה יכול לקבל רישיון זמני בחינם לשימוש ב-API ללא מגבלות ההערכה.
סיכום
לסיכום, המאמר הסביר את הדרך הבסיסית והמהירה כיצד לחלץ טקסט מקבצי הסימון ב-Java. גישה זו אולי אפשרה לך לחשוב לפתח את אפליקציית חילוץ הטקסט ומנתח המסמכים שלך כמו מנתח מסמכים מקוון שפותח על ידי GroupDocs.
אתה יכול ללמוד עוד על ניתוח מסמכי Java API באמצעות תיעוד שלו. הדרך המהירה ללמוד היא לחוות את הדוגמאות הזמינות ב-GitHub. צור איתנו קשר לכל שאלה דרך הפורום.