توسعه دهندگان اغلب الزاماتی برای استخراج متن از اسناد مختلف دارند. قبلاً در مورد استخراج آرشیوهای ZIP، شمارش کلمات در اسناد، استخراج تصاویر از کتاب‌های الکترونیکی و چند روش تجزیه دیگر بحث کرده‌ایم. امروز در این مقاله با نحوه تجزیه و استخراج متن از فایل های Markdown در Java آشنا می شوید.

متن را از فایل های MD با استفاده از C#.jpg استخراج کنید

Java API برای استخراج متن Markdown

GroupDocs [Java API را برای تجزیه اسناد و استخراج متن 1 از قالب‌های سند مختلف در برنامه‌های Java فراهم می‌کند. API از تجزیه بسیاری از فرمت های فایل مانند:

  • اسناد پردازش کلمه: DOC، DOCX، …
  • صفحات گسترده: XLS، XLSX، …
  • ارائه ها: PPT، PPTX، ….
  • کتاب های الکترونیکی: EPUB، FB2، …
  • تصاویر بارکد: JPG، PNG، …
  • فهرست کامل در [اسناد] ذکر شده است.

با این حال، در این مقاله، ما از GroupDocs.Parser آن برای Java استفاده می کنیم تا فقط متن را با استفاده از Java از فایل های MD استخراج کنیم.

می‌توانید فایل JAR را از بخش دانلودها دانلود کنید، یا فقط تنظیمات مخزن و وابستگی را برای pom.xml برنامه‌های Java مبتنی بر maven خود دریافت کنید.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

متن را از فایل Markdown در Java استخراج کنید

مراحل زیر برای استخراج کل محتوای متن از فایل علامت گذاری در Java است.

  • فایل MD را با استفاده از کلاس Parser بارگیری کنید.
  • کل متن را با استفاده از متد getText در TextReader استخراج کنید.
  • از متن به دلخواه استفاده کنید.

کد منبع Java زیر محتوای متنی فایل MD را استخراج می کند.

// کل متن فایل Markdown را در Java استخراج کنید
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

یک مجوز API رایگان دریافت کنید

برای استفاده از API بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

نتیجه

به طور خلاصه، مقاله روش اساسی و سریع نحوه استخراج متن از فایل های علامت گذاری در Java را توضیح داد. این رویکرد ممکن است به شما اجازه داده باشد که برنامه استخراج متن و تجزیه کننده سند خود را مانند [تجزیه کننده سند آنلاین12 توسعه داده شده توسط GroupDocs توسعه دهید.

می‌توانید با استفاده از مستندات جاوا، اطلاعات بیشتری درباره تجزیه اسناد Java کسب کنید. راه سریع یادگیری تجربه نمونه هایی است که در GitHub موجود است. برای هرگونه سوال از طریق [فروم 11 با ما تماس بگیرید.

همچنین ببینید