توسعه دهندگان اغلب الزاماتی برای استخراج متن از اسناد مختلف دارند. قبلاً در مورد استخراج آرشیوهای ZIP، شمارش کلمات در اسناد، استخراج تصاویر از کتابهای الکترونیکی و چند روش تجزیه دیگر بحث کردهایم. امروز در این مقاله با نحوه تجزیه و استخراج متن از فایل های Markdown در Java آشنا می شوید.
Java API برای استخراج متن Markdown
GroupDocs [Java API را برای تجزیه اسناد و استخراج متن 1 از قالبهای سند مختلف در برنامههای Java فراهم میکند. API از تجزیه بسیاری از فرمت های فایل مانند:
- اسناد پردازش کلمه: DOC، DOCX، …
- صفحات گسترده: XLS، XLSX، …
- ارائه ها: PPT، PPTX، ….
- کتاب های الکترونیکی: EPUB، FB2، …
- تصاویر بارکد: JPG، PNG، …
- فهرست کامل در [اسناد] ذکر شده است.
با این حال، در این مقاله، ما از GroupDocs.Parser آن برای Java استفاده می کنیم تا فقط متن را با استفاده از Java از فایل های MD استخراج کنیم.
میتوانید فایل JAR را از بخش دانلودها دانلود کنید، یا فقط تنظیمات مخزن و وابستگی را برای pom.xml برنامههای Java مبتنی بر maven خود دریافت کنید.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
متن را از فایل Markdown در Java استخراج کنید
مراحل زیر برای استخراج کل محتوای متن از فایل علامت گذاری در Java است.
- فایل MD را با استفاده از کلاس Parser بارگیری کنید.
- کل متن را با استفاده از متد getText در TextReader استخراج کنید.
- از متن به دلخواه استفاده کنید.
کد منبع Java زیر محتوای متنی فایل MD را استخراج می کند.
// کل متن فایل Markdown را در Java استخراج کنید
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
یک مجوز API رایگان دریافت کنید
برای استفاده از API بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.
نتیجه
به طور خلاصه، مقاله روش اساسی و سریع نحوه استخراج متن از فایل های علامت گذاری در Java را توضیح داد. این رویکرد ممکن است به شما اجازه داده باشد که برنامه استخراج متن و تجزیه کننده سند خود را مانند [تجزیه کننده سند آنلاین12 توسعه داده شده توسط GroupDocs توسعه دهید.
میتوانید با استفاده از مستندات جاوا، اطلاعات بیشتری درباره تجزیه اسناد Java کسب کنید. راه سریع یادگیری تجربه نمونه هایی است که در GitHub موجود است. برای هرگونه سوال از طریق [فروم 11 با ما تماس بگیرید.