นักพัฒนามักมีข้อกำหนดในการดึงข้อความจากเอกสารต่างๆ เราได้พูดถึงการแยกไฟล์ ZIP การนับคำในเอกสาร การแยกรูปภาพจาก eBook และวิธีการแยกวิเคราะห์อื่นๆ อีกสองสามวิธีแล้ว วันนี้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการแยกวิเคราะห์และแยกข้อความจากไฟล์ Markdown ใน Java

แยกข้อความจากไฟล์ MD โดยใช้ C#.jpg

Java API สำหรับการสกัดข้อความ Markdown

GroupDocs มี Java API เพื่อแยกวิเคราะห์เอกสารและแยกข้อความ จากรูปแบบเอกสารต่างๆ ภายในแอปพลิเคชัน Java API รองรับการแยกวิเคราะห์ไฟล์หลายรูปแบบ เช่น:

  • เอกสารประมวลผลคำ: DOC, DOCX, …
  • สเปรดชีต: XLS, XLSX, …
  • งานนำเสนอเรื่อง: PPT, PPTX, ….
  • อีบุ๊ค: EPUB, FB2, …
  • ภาพบาร์โค้ด: JPG, PNG, …
  • รายการทั้งหมดกล่าวถึงใน เอกสารประกอบ

อย่างไรก็ตาม ในบทความนี้ เราจะใช้ GroupDocs.Parser for Java เพื่อแยกข้อความจากไฟล์ MD โดยใช้ Java เท่านั้น

คุณสามารถดาวน์โหลดไฟล์ JAR ได้จาก ส่วนการดาวน์โหลด หรือเพียงแค่รับการกำหนดค่าพื้นที่เก็บข้อมูลและการพึ่งพาสำหรับ pom.xml ของแอปพลิเคชัน Java ที่ใช้ maven

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

แยกข้อความจากไฟล์ Markdown ใน Java

ต่อไปนี้เป็นขั้นตอนในการแยกเนื้อหาข้อความทั้งหมดจากไฟล์มาร์กดาวน์ใน Java

  • โหลดไฟล์ MD โดยใช้คลาส Parser
  • แยกข้อความทั้งหมดลงใน TextReader โดยใช้วิธี getText
  • ใช้ข้อความตามที่คุณต้องการ

ซอร์สโค้ด Java ต่อไปนี้แยกเนื้อหาที่เป็นข้อความของไฟล์ MD

// แยกไฟล์ Text of Markdown ทั้งหมดใน Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

รับใบอนุญาต API ฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป บทความอธิบายวิธีพื้นฐานและรวดเร็วในการแยกข้อความจากไฟล์มาร์กดาวน์ใน Java วิธีการนี้อาจช่วยให้คุณคิดที่จะพัฒนาแอปพลิเคชันการแยกข้อความและตัวแยกวิเคราะห์เอกสารของคุณ เช่น ตัวแยกวิเคราะห์เอกสารออนไลน์ ที่พัฒนาโดย GroupDocs

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการแยกวิเคราะห์เอกสาร Java API โดยใช้ เอกสารประกอบ วิธีที่รวดเร็วในการเรียนรู้คือการสัมผัสกับตัวอย่างที่มีอยู่ใน GitHub ติดต่อเราสำหรับคำถามใด ๆ ผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย