นักพัฒนามักมีข้อกำหนดในการดึงข้อความจากเอกสารต่างๆ เราได้พูดถึงการแยกไฟล์ ZIP การนับคำในเอกสาร การแยกรูปภาพจาก eBook และวิธีการแยกวิเคราะห์อื่นๆ อีกสองสามวิธีแล้ว วันนี้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการแยกวิเคราะห์และแยกข้อความจากไฟล์ Markdown ใน Java
Java API สำหรับการสกัดข้อความ Markdown
GroupDocs มี Java API เพื่อแยกวิเคราะห์เอกสารและแยกข้อความ จากรูปแบบเอกสารต่างๆ ภายในแอปพลิเคชัน Java API รองรับการแยกวิเคราะห์ไฟล์หลายรูปแบบ เช่น:
- เอกสารประมวลผลคำ: DOC, DOCX, …
- สเปรดชีต: XLS, XLSX, …
- งานนำเสนอเรื่อง: PPT, PPTX, ….
- อีบุ๊ค: EPUB, FB2, …
- ภาพบาร์โค้ด: JPG, PNG, …
- รายการทั้งหมดกล่าวถึงใน เอกสารประกอบ
อย่างไรก็ตาม ในบทความนี้ เราจะใช้ GroupDocs.Parser for Java เพื่อแยกข้อความจากไฟล์ MD โดยใช้ Java เท่านั้น
คุณสามารถดาวน์โหลดไฟล์ JAR ได้จาก ส่วนการดาวน์โหลด หรือเพียงแค่รับการกำหนดค่าพื้นที่เก็บข้อมูลและการพึ่งพาสำหรับ pom.xml ของแอปพลิเคชัน Java ที่ใช้ maven
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
แยกข้อความจากไฟล์ Markdown ใน Java
ต่อไปนี้เป็นขั้นตอนในการแยกเนื้อหาข้อความทั้งหมดจากไฟล์มาร์กดาวน์ใน Java
- โหลดไฟล์ MD โดยใช้คลาส Parser
- แยกข้อความทั้งหมดลงใน TextReader โดยใช้วิธี getText
- ใช้ข้อความตามที่คุณต้องการ
ซอร์สโค้ด Java ต่อไปนี้แยกเนื้อหาที่เป็นข้อความของไฟล์ MD
// แยกไฟล์ Text of Markdown ทั้งหมดใน Java
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
รับใบอนุญาต API ฟรี
คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
โดยสรุป บทความอธิบายวิธีพื้นฐานและรวดเร็วในการแยกข้อความจากไฟล์มาร์กดาวน์ใน Java วิธีการนี้อาจช่วยให้คุณคิดที่จะพัฒนาแอปพลิเคชันการแยกข้อความและตัวแยกวิเคราะห์เอกสารของคุณ เช่น ตัวแยกวิเคราะห์เอกสารออนไลน์ ที่พัฒนาโดย GroupDocs
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการแยกวิเคราะห์เอกสาร Java API โดยใช้ เอกสารประกอบ วิธีที่รวดเร็วในการเรียนรู้คือการสัมผัสกับตัวอย่างที่มีอยู่ใน GitHub ติดต่อเราสำหรับคำถามใด ๆ ผ่านทาง ฟอรัม