Biến tài liệu doanh nghiệp của bạn sẵn sàng cho AI — một cách đáng tin cậy, tại chỗ và ngữ nghĩa.
Thường gặp trường hợp các tổ chức lưu trữ tài liệu của mình ở các định dạng PDF, DOCX, XLSX và ePub. Trong khi LLMs (large language models) hoạt động tốt với HTML hoặc văn bản thuần, các định dạng tài liệu gốc này cần được chuyển đổi trước khi có thể được sử dụng hiệu quả trong các pipeline LLM + RAG, nơi chúng ta muốn trò chuyện với một tài liệu hoặc một tập hợp tài liệu.
LLM (Large Language Model) — mô hình AI đã được huấn luyện trước, tạo ra văn bản và trả lời dựa trên các tập văn bản lớn.
RAG (Retrieval‑Augmented Generation) — phương pháp kết hợp LLM với một cơ sở kiến thức bên ngoài (ví dụ: tài liệu doanh nghiệp) để mô hình có thể truy xuất và suy luận dựa trên nội dung miền.
Sơ đồ tuần tự sau minh họa các bước điển hình trong việc tạo câu trả lời cho một câu hỏi:
Chất lượng câu trả lời bạn nhận được từ một Hệ thống (LLM + RAG) phụ thuộc cả vào chính Hệ thống và cách các tài liệu nguồn bảo tồn cấu trúc và ý nghĩa khi được đưa vào pipeline truy xuất.
Vấn đề
Định dạng tài liệu không chỉ là hình ảnh — nó mang ngữ nghĩa. Các tiêu đề, danh sách, bảng, in đậm/ nghiêng, chú thích, và hình ảnh nội dòng đều truyền tải ý nghĩa giúp LLM hiểu ngữ cảnh. Việc chuyển đổi tài liệu một cách thô sơ (ví dụ, dùng OCR xử lý mỗi trang như một hình ảnh phẳng) thường làm mất các ngữ nghĩa này. Kết quả, việc truy xuất RAG và các câu trả lời LLM phía sau có thể trở nên không chính xác hoặc nhiễu.
OCR có thể giúp với các tài liệu đã quét nhưng thường loại bỏ cấu trúc (danh sách bị chia thành nhiều trang, viền bảng bị hiểu sai, mất chú thích). Nó cũng tăng chi phí và yêu cầu hạ tầng khi xử lý các kho lưu trữ lớn.
Giải pháp
Một cách tiếp cận thay thế là phân tích tài liệu có nhận thức cấu trúc và xuất cấu trúc đó ra một định dạng ngữ nghĩa, thân thiện với LLM — Markdown. Markdown nhẹ, được hỗ trợ rộng rãi, và bảo tồn tiêu đề, danh sách, bảng, khối mã, nhấn mạnh, chú thích và tham chiếu hình ảnh — chính những tính năng cải thiện chất lượng truy xuất.
GroupDocs.Markdown for .NET chuyển đổi các định dạng tài liệu phổ biến (PDF, DOCX, XLSX, ePub và hơn thế nữa) thành Markdown sạch, ngữ nghĩa, phù hợp để nhập vào các hệ thống RAG. Đây là thư viện .NET chạy tại chỗ, vì vậy mọi xử lý diễn ra trong môi trường của bạn — không có dịch vụ bên ngoài, không rò rỉ dữ liệu và không phụ thuộc vào GPU từ xa.
Cách bắt đầu
GroupDocs.Markdown for .NET có sẵn dưới dạng gói NuGet, cũng như các bản tải xuống MSI và ZIP.
Cài đặt gói NuGet bằng .NET CLI:
dotnet add package GroupDocs.Markdown
Hoặc tải các trình cài đặt và assembly từ trang tải về chính thức: https://releases.groupdocs.com/markdown/net/
Ví dụ sử dụng (thêm vào Program.cs):
// Import the namespace
using GroupDocs.Markdown;
// Set the license (optional for evaluation)
License.Set("GroupDocs.Markdown.lic");
// Instantiate the converter for a source document
var converter = new MarkdownConverter("rich-text-formatting.docx");
// Convert and save output to file
converter.Convert("rich-text-formatting.md");
Tệp rich-text-formatting.md đã chuyển đổi sẽ được lưu trong cùng thư mục với ứng dụng của bạn.
Ảnh chụp màn hình sau hiển thị tệp DOCX đầu vào và Markdown đầu ra.
Nếu bạn chạy mà không có giấy phép, chế độ đánh giá sẽ xử lý một số lượng trang giới hạn (ví dụ: ba trang đầu). Để thử toàn bộ sản phẩm, hãy yêu cầu giấy phép tạm thời.
Để yêu cầu giấy phép tạm thời, mở Purchase Wizard, cung cấp thông tin liên hệ và nhấn Get a temporary license ở bước Contact Details. Giấy phép tạm thời sẽ được gửi qua email cho bạn.
Tìm hiểu thêm về giấy phép tạm thời: https://purchase.groupdocs.com/temporary-license/.
Định dạng tệp được hỗ trợ
GroupDocs.Markdown for .NET hỗ trợ một loạt các định dạng doanh nghiệp và ebook phổ biến. Danh sách đầy đủ các phần mở rộng được hỗ trợ:
- PDF
pdf
- Bảng tính
.xls,.xlsx,.xlsb,.xlsm,.xlt,.xltx,.xltm,.xlam,.csv,.tsv,.ods,.ots,.fods,.numbers,.sxc
- Word / Rich Text
.doc,.docx,.dot,.dotm,.dotx,.docm,.rtf,.odt,.ott
- Ebook
.azw3,.mobi,.epub
- Văn bản / Đánh dấu / Trợ giúp
.chm,.xml,.txt
Cách hoạt động (cấu trúc nội bộ — mức cao)
Khi một tài liệu được xử lý, có hai giai đoạn chính:
-
Trích xuất mô hình tài liệu
Tài liệu được phân tích thành một mô hình đối tượng trong bộ nhớ, đại diện cho các yếu tố cấu trúc (đoạn văn, tiêu đề, danh sách, bảng, hình ảnh, chú thích, annotation, v.v.). Trình phân tích cố gắng bảo tồn ngữ nghĩa (ví dụ: mức lồng danh sách, ô bảng và chú thích hình ảnh). -
Tạo Markdown
Mô hình đối tượng được duyệt và chuyển đổi sang Markdown dựa trên các tùy chọn chuyển đổi có thể cấu hình (cách xử lý hình ảnh, định dạng bảng, mức tiêu đề, annotation đặc biệt, v.v.). Kết quả là một tệp Markdown dễ đọc, có ý nghĩa ngữ nghĩa, sẵn sàng để lập chỉ mục bởi pipeline RAG của bạn.
Ví dụ xuất
Mã mẫu ở trên cho thấy cách xuất DOCX sang Markdown. Hãy xem lại ví dụ mã này và xem các tệp nguồn và đầu ra như một minh chứng.
DOCX nguồn
Tệp nguồn rich-text-formatting.docx chứa nhiều khối nội dung và được định dạng mạnh để làm nổi bật các yếu tố ngữ nghĩa chính.
Markdown đầu ra
Nội dung đầu ra của rich-text-formatting.md được cung cấp dưới đây, cho thấy cách các yếu tố định dạng khác nhau được biểu diễn trong tệp Markdown đã tạo.
This document contains a variety of formatted elements that are used to test document rendering quality during file conversion
# <a name="_toc76372684"></a>**Font Formatting**
Source Sans Pro Light, 14 pt.
Simple text in Times New Roman 12 followed by an empty paragraph<sub>subscript</sub> and<sup>superscript</sup>.
Various characters: ‘ “ & < > £ ¥ § ¨ © ª « ® » ¼
Paragraph with multiple segments of text formatted in different fonts, sizes and colors. Very different sizes and colors including **bold**, *italic*, underline and 1 2 3 4 5 ~~strikethrough~~. Make sure that the lines wrapped in the same way in Word and in Pdf.
This text has shading and highlighting and borders, and it is supported.
# <a name="_toc76372685"></a>**Paragraph Formatting**
Paragraph shading should not form empty gaps even with spacing 12 after.
Centered paragraph with a line break had a problem.\
Centered paragraph with a line break had a problem.
Right aligned paragraphs must be right aligned properly.
Right aligned paragraph with line break works well.\
Right aligned paragraph with line break works well.
This paragraph has a border.
Right aligned condensed text had a problem.
Right aligned expanded text had a problem.
Spacing after and before do not add up, just the greater is used. This paragraph has 12 after. Also, when indents are different, the shading does not join.
This paragraph has 12 before, but in total there is only 12 above. Also note that shading belongs to the paragraph at the top and shading of this paragraph does not go down unless next paragraph has shading too. There are 24 points below.
There are 24 points above, but the gap between this and previous paragraph is only 24.
This paragraph is a test for double line spacing. This paragraph is a test for double line spacing. It also have 0.5” for the first line.
This is a test for 1.5 line spacing. This is a test for 1.5 line spacing. Also has -0.5” indent for the first line.
This paragraph has a page break
and centered. It actually creates two paragraphs.
This is a test for Exactly 20 points of spacing. This is a test for Exactly 20 points of spacing. TTTTTT (20, 22, 24, 26, 28, 30).
There is a continuous section break after this line.
This line is in the new section. Next here is an empty section.
This line is in the fourth section.
# <a name="_toc76372686"></a>**Paragraph Justify**
This is a justified paragraph with a single segment. 111111111111111111111111111111111111111111.
Also a justified **paragraph** reset to left because of multiple segments. 111111111111111111111111111111111111111111.
# **Non-English Characters**
Wingdings: (x, Symbol: WÄ
Russian: Теперь немного по русски.
# <a name="_toc76372687"></a>**Tables**
|Cell 1.1 Left|Cell 1.2 Right|||
| :- | -: | :- | :- |
|Cell 2.1 Centered vertically|Cell 2.2 with background|Cell 2.3 with line break<br>and coloured border.||
|Cell 3.1 Bottom vertically|<p>Cell 3.2</p><p>Centered</p><p>Horizontally</p>|Cell 3.3 No border||
|Left red, blue top, green right and yellow bottom.|
| :- |
|Table with left indent and merged cells.||||
| :- | :- | :- | :- |
|||||
|||||
**Cell padding etc.**
|<p>Cell padding.</p><p>Top: 0.1, bottom 0.2</p><p>Left: 0.5, Right 0.4</p>|Zero padding on all sides, right aligned.|
| :- | -: |
|Outer 1.1|Outer 1.2. There is a nested table here||
| :- | :-: | -: |
|**Nested 1.1**|**Nested 1.2**|
| :- | :- |
|||Outer 1.3|
| :- | :-: | -: |
#
# <a name="_toc76372688"></a>**Lists**
**Numbered list:**
1. Item 1
1. Item 2
1. Item 2.1
1. Item 2.2
1. Item 3
**Bulleted list:**
- Item 1
- Item 2
- Item 2.1
- Item 2.2
- Item 3
#
# <a name="_toc76372689"></a>**Images**
This section starts from a new page.
**Ellipse text**
There is an image in a black border in the top right corner, but it will drop down into the text. There is also a transparent ellipse with text that overlaps the picture.
Inline JPEG in a separate paragraph.

Inline GIF scaled 50% and WMF scaled 25% in a paragraph. This text is before the image and  this text is after the image.
Images in a table. Left and right aligned.
|||
| :- | -: |
Inline text box  is here and inline ellipse  is here.
New section that starts from a new page is here.
It has portrait orientation and margins.
# <a name="_toc76372690"></a>**Fields**
Merge field «FirstName»
Page number 5
Hyperlink [Aspose.com](http://www.aspose.com)
TOC
[Font Formatting 1](#_toc76372684)
[Paragraph Formatting 1](#_toc76372685)
[Non-English Characters 2](#_toc76372686)
[Tables 2](#_toc76372687)
[Lists 2](#_toc76372688)
[Images 4](#_toc76372689)
[Fields 5](#_toc76372690)
# **Form Fields**
Edit <a name="text1"></a>test text
Checkbox <a name="check1"></a>
Combobox <a name="dropdown1"></a>
# **Footnotes and Endnotes**
This line has a footnote at the end.[^1]
This line has an endnote at the end.[^2]
[^1]: Footnote 1.
[^2]: Endnote 1.
Tóm tắt
GroupDocs.Markdown for .NET giúp bạn chuyển đổi một loạt các định dạng tài liệu sang Markdown ngữ nghĩa, sẵn sàng cho các hệ thống LLM + RAG. Nó bảo tồn cấu trúc và ý nghĩa tài liệu, chạy tại chỗ, và hỗ trợ các định dạng doanh nghiệp phổ biến — làm cho nó trở thành lựa chọn thực tế cho các tổ chức cần chuẩn bị bộ sưu tập tài liệu lớn cho việc tiêu thụ AI.
Tìm hiểu thêm
- Trang sản phẩm: https://products.groupdocs.com/markdown/net/
- Tài liệu: https://docs.groupdocs.com/markdown/net/
- Thông tin giấy phép: https://about.groupdocs.com/legal/
- Tải xuống: https://releases.groupdocs.com/markdown/net/
Hỗ trợ & phản hồi
Đối với câu hỏi hoặc hỗ trợ kỹ thuật, vui lòng sử dụng Free Support Forum — chúng tôi sẽ sẵn sàng giúp đỡ.