Geliştiricilerin genellikle çeşitli belgelerden metin ayıklama gereksinimleri vardır. ZIP arşivlerini ayıklamayı, belgelerdeki kelimeleri saymayı, e-Kitaplardan görüntüleri çıkarmayı ve diğer birkaç ayrıştırma yöntemini zaten tartışmıştık. Bugün, bu makalede, Java’daki Markdown dosyalarından metin ayrıştırmayı ve ayıklamayı öğreneceksiniz.

C#.jpg kullanarak MD dosyalarından metin ayıklayın

Markdown Metin Çıkarma için Java API

GroupDocs, Java uygulamaları içindeki çeşitli belge biçimlerinden [Belgeleri ayrıştırmak ve metin çıkarmak için Java API] sağlar. API, aşağıdakiler gibi birçok dosya biçiminin ayrıştırılmasını destekler:

  • Kelime işlemci Belgeleri: DOC, DOCX, …
  • E-tablolar: XLS, XLSX, …
  • Sunumlar: PPT, PPTX, ….
  • e-Kitaplar: EPUB, FB2, …
  • Barkod resimleri: JPG, PNG, …
  • Tam liste belgelerde belirtilmiştir.

Ancak bu makalede, GroupDocs.Parser for Java’yı yalnızca Java kullanarak MD dosyalarından metin çıkarmak için kullanacağız.

JAR dosyasını indirilenler bölümünden indirebilir veya maven tabanlı Java uygulamalarınızın pom.xml dosyası için depo ve bağımlılık yapılandırmalarını alabilirsiniz.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Java’daki Markdown Dosyasından Metin Çıkarın

Aşağıdakiler, Java’daki işaretleme dosyasından tüm metin içeriğini çıkarmak için gereken adımlardır.

  • Parser sınıfını kullanarak MD dosyasını yükleyin.
  • getText yöntemini kullanarak tüm metni TextReader’a çıkarın.
  • Metni istediğiniz gibi kullanın.

Aşağıdaki Java kaynak kodu, MD dosyasının metin içeriğini çıkarır.

// Markdown dosyasının tüm metnini Java'da ayıklayın
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Ücretsiz API Lisansı Alın

API’yi değerlendirme sınırlamaları olmadan kullanmak için ücretsiz bir geçici lisans alabilirsiniz.

Çözüm

Özetlemek gerekirse, makale Java’daki işaretleme dosyalarından metin çıkarmanın temel ve hızlı yolunu açıkladı. Bu yaklaşım, GroupDocs tarafından geliştirilen Çevrimiçi Belge Ayrıştırıcı gibi metin çıkarma ve belge ayrıştırıcı uygulamanızı geliştirmeyi düşünmenize izin vermiş olabilir.

Belgelerini kullanarak belge ayrıştırma Java API’si hakkında daha fazla bilgi edinebilirsiniz. Öğrenmenin hızlı yolu, GitHub üzerinde bulunan örnekleri deneyimlemektir. Herhangi bir sorunuz için forum aracılığıyla bize ulaşın.

Ayrıca bakınız