Vývojáři mají často požadavky na extrahování textu z různých dokumentů. Již jsme diskutovali o extrahování archivů ZIP, počítání slov v dokumentech, extrahování obrázků z elektronických knih a několika dalších způsobech analýzy. Dnes se v tomto článku dozvíte, jak analyzovat a extrahovat text ze souborů Markdown v Java.
Java API pro extrakci textu Markdown
GroupDocs poskytuje Java API pro analýzu dokumentů a extrahování textu z různých formátů dokumentů v rámci aplikací Java. API podporuje analýzu mnoha formátů souborů, jako jsou:
- Textové dokumenty: DOC, DOCX, …
- Tabulky: XLS, XLSX, …
- Prezentace: PPT, PPTX, ….
- Elektronické knihy: EPUB, FB2, …
- Obrázky čárových kódů: JPG, PNG,…
- Kompletní seznam je uveden v dokumentaci.
V tomto článku použijeme jeho GroupDocs.Parser for Java pouze k extrahování textu ze souborů MD pomocí Java.
Soubor JAR si můžete stáhnout z části ke stažení, nebo stačí získat konfigurace úložiště a závislostí pro pom.xml vašich Java aplikací založených na maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
Extrahujte text ze souboru Markdown v Java
Následují kroky k extrahování celého textového obsahu ze souboru markdown v Java.
- Načtěte soubor MD pomocí třídy Parser.
- Extrahujte celý text do TextReaderu pomocí metody getText.
- Použijte text, jak chcete.
Následující zdrojový kód Java extrahuje textový obsah souboru MD.
// Extrahujte celý text souboru Markdown v Java
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
Získejte bezplatnou licenci API
Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.
Závěr
Abych to shrnul, článek vysvětlil základní a rychlý způsob, jak extrahovat text ze souborů markdown v Java. Tento přístup vám možná umožnil vyvinout aplikaci pro extrakci textu a analyzátor dokumentů, jako je Online Document Parser vyvinutý společností GroupDocs.
Můžete se dozvědět více o analýze dokumentů Java API pomocí jeho dokumentace. Rychlý způsob, jak se to naučit, je vyzkoušet si příklady, které jsou k dispozici na GitHub. Kontaktujte nás s jakýmkoli dotazem prostřednictvím fóra.