Vývojáři mají často požadavky na extrahování textu z různých dokumentů. Již jsme diskutovali o extrahování archivů ZIP, počítání slov v dokumentech, extrahování obrázků z elektronických knih a několika dalších způsobech analýzy. Dnes se v tomto článku dozvíte, jak analyzovat a extrahovat text ze souborů Markdown v Java.

Extrahujte text ze souborů MD pomocí C#.jpg

Java API pro extrakci textu Markdown

GroupDocs poskytuje Java API pro analýzu dokumentů a extrahování textu z různých formátů dokumentů v rámci aplikací Java. API podporuje analýzu mnoha formátů souborů, jako jsou:

  • Textové dokumenty: DOC, DOCX, …
  • Tabulky: XLS, XLSX, …
  • Prezentace: PPT, PPTX, ….
  • Elektronické knihy: EPUB, FB2, …
  • Obrázky čárových kódů: JPG, PNG,…
  • Kompletní seznam je uveden v dokumentaci.

V tomto článku použijeme jeho GroupDocs.Parser for Java pouze k extrahování textu ze souborů MD pomocí Java.

Soubor JAR si můžete stáhnout z části ke stažení, nebo stačí získat konfigurace úložiště a závislostí pro pom.xml vašich Java aplikací založených na maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extrahujte text ze souboru Markdown v Java

Následují kroky k extrahování celého textového obsahu ze souboru markdown v Java.

  • Načtěte soubor MD pomocí třídy Parser.
  • Extrahujte celý text do TextReaderu pomocí metody getText.
  • Použijte text, jak chcete.

Následující zdrojový kód Java extrahuje textový obsah souboru MD.

// Extrahujte celý text souboru Markdown v Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Získejte bezplatnou licenci API

Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.

Závěr

Abych to shrnul, článek vysvětlil základní a rychlý způsob, jak extrahovat text ze souborů markdown v Java. Tento přístup vám možná umožnil vyvinout aplikaci pro extrakci textu a analyzátor dokumentů, jako je Online Document Parser vyvinutý společností GroupDocs.

Můžete se dozvědět více o analýze dokumentů Java API pomocí jeho dokumentace. Rychlý způsob, jak se to naučit, je vyzkoušet si příklady, které jsou k dispozici na GitHub. Kontaktujte nás s jakýmkoli dotazem prostřednictvím fóra.

Viz také