مستندات سازمانی خود را برای هوش مصنوعی آماده کنید — بهصورت قابلاعتماد، داخلی و معنایی.
این یک مورد رایج است که سازمانها مستندات خود را در فرمتهای PDF، DOCX، XLSX و ePub نگهداری میکنند. در حالی که مدلهای بزرگ زبانی (LLM) با HTML یا متن ساده به خوبی کار میکنند، این فرمتهای بومی سند نیاز به تبدیل دارند تا بتوانند بهصورت مؤثر در خطوط لوله LLM + RAG مورد استفاده قرار گیرند، جایی که میخواهیم با یک سند یا مجموعهای از اسناد گفتگو کنیم.
LLM (مدل بزرگ زبان) — یک مدل هوش مصنوعی پیشآموزشدیده است که متن و پاسخها را بر پایهٔ مجموعهٔ بزرگ متون تولید میکند.
RAG (تولید افزوده توسط بازیابی) — روشی است که یک LLM را با یک پایگاه دانش خارجی (مثلاً اسناد سازمانی) ترکیب میکند تا مدل بتواند محتویات حوزه را بازیابی و استدلال کند.
دیاگرام ترتیبی زیر مراحل معمولی تولید پاسخ به یک سؤال را نشان میدهد:
کیفیت پاسخهایی که از یک سیستم (LLM + RAG) دریافت میکنید، هم به خود سیستم و هم به این که اسناد منبع چقدر ساختار و معنای خود را هنگام وارد شدن به مسیر بازیابی حفظ کنند، وابسته است.
مشکل
قالببندی اسناد فقط بصری نیست — معنای داخلی دارد. عناوین، فهرستها، جدولها، تأکیدهای بولد/ایتالیک، زیرنویسها و تصاویر درونخطی همه به مدل زبانی کمک میکنند تا زمینه را درک کند. تبدیل ساده اسناد (مثلاً با OCR که هر صفحه را به عنوان یک تصویر صاف پردازش میکند) معمولاً این معناها را از دست میدهد. در نتیجه، بازیابی RAG و پاسخهای LLM میتوانند نادرست یا پر سر و صدا شوند.
OCR میتواند برای اسناد اسکنشده مفید باشد اما معمولاً ساختار را حذف میکند (فهرستها که در صفحات مختلف شکستهاند، خطوط جدول بهدرستی تشخیص داده نمیشوند، حاشیهنویسیها از دست میروند). همچنین هزینه و زیرساخت اضافی برای پردازش آرشیوهای بزرگ ایجاد میکند.
راهحل
یک روش جایگزین این است که اسناد را با آگاهی ساختاری تجزیه کنیم و آن ساختار را به فرمتی معنایی و مناسب برای LLM — Markdown — صادر کنیم. Markdown سبکتر، بهطور گستردهای پشتیبانی میشود و عناوین، فهرستها، جدولها، بلوکهای کد، تأکیدها، زیرنویسها و مراجع تصویر را حفظ میکند — دقیقاً ویژگیهایی که کیفیت بازیابی را بهبود میبخشند.
GroupDocs.Markdown for .NET فرمتهای محبوب اسناد (PDF، DOCX، XLSX، ePub و …) را به Markdown تمیز و معنایی تبدیل میکند که برای ورود به سیستمهای RAG مناسب است. این یک کتابخانه .NET داخلی است، بنابراین تمام پردازشها در محیط شما انجام میشود — بدون سرویسهای خارجی، بدون نشت داده و بدون وابستگی به GPUهای ریموت.
چطور شروع کنیم
GroupDocs.Markdown for .NET بهصورت بسته NuGet در دسترس است و همچنین بهصورت فایلهای MSI و ZIP قابل دانلود میباشد.
dotnet add package GroupDocs.Markdown
یا نصبکنندهها و اسمبلیها را از صفحه دانلودهای رسمی دریافت کنید: https://releases.groupdocs.com/markdown/net/
مثال استفاده (اضافه شدن به Program.cs):
// Import the namespace
using GroupDocs.Markdown;
// Set the license (optional for evaluation)
License.Set("GroupDocs.Markdown.lic");
// Instantiate the converter for a source document
var converter = new MarkdownConverter("rich-text-formatting.docx");
// Convert and save output to file
converter.Convert("rich-text-formatting.md");
فایل rich-text-formatting.md تبدیلشده در همان پوشهای که برنامه شما قرار دارد ذخیره میشود.
اسکرینشات زیر فایل ورودی DOCX و خروجی Markdown را نشان میدهد.
اگر بدون مجوز اجرا کنید، حالت ارزیابی تنها تعداد محدودی صفحه (مثلاً سه صفحه اول) را پردازش میکند. برای استفاده کامل، درخواست یک مجوز موقت کنید.
برای درخواست یک مجوز موقت، Purchase Wizard را باز کنید، جزئیات تماس را وارد کنید و در مرحله Contact Details روی Get a temporary license کلیک کنید. مجوز موقت برای شما ایمیل خواهد شد.
اطلاعات بیشتر درباره مجوزهای موقت: https://purchase.groupdocs.com/temporary-license/
فرمتهای فایل پشتیبانیشده
- PDF
pdf
- Spreadsheets
.xls,.xlsx,.xlsb,.xlsm,.xlt,.xltx,.xltm,.xlam,.csv,.tsv,.ods,.ots,.fods,.numbers,.sxc
- Word / Rich Text
.doc,.docx,.dot,.dotm,.dotx,.docm,.rtf,.odt,.ott
- Ebooks
.azw3,.mobi,.epub
- Text / Markup / Help
.chm,.xml,.txt
نحوه کار (سطح بالا)
-
استخراج مدل سند
سند به یک مدل شیء در حافظه تبدیل میشود که عناصر ساختاری (پاراگرافها، عناوین، فهرستها، جدولها، تصاویر، پانوشتها، حاشیهنویسها و …) را نشان میدهد. تجزیهکننده سعی میکند معناها (مانند تو در تویی فهرستها، سلولهای جدول و زیرنویسهای تصویر) را حفظ کند. -
تولید Markdown
مدل شیء پیمایش میشود و بر پایهٔ گزینههای قابل تنظیم تبدیل (چگونگی پردازش تصاویر، قالببندی جدول، سطوح عنوان، حاشیهنویسهای ویژه و …) به Markdown تبدیل میشود. در نهایت فایلی Markdown خوانا و معنایی برای ایندکسگذاری توسط خط لوله RAG شما بهدست میآید.
مثال خروجی
کد مثال بالا نشان میدهد چگونه DOCX را به Markdown صادر کنیم. در ادامه به منبع و فایل خروجی نگاهی میاندازیم.
منبع DOCX
منبع فایل rich-text-formatting.docx شامل بلوکهای محتوا و قالبهای متنوع است تا عناصر معنایی اصلی را نشان دهد.
Markdown خروجی
محتوای خروجی rich-text-formatting.md در ادامه آورده شده است تا نشان دهد چگونه عناصر قالببندی مختلف در فایل Markdown تولید شده نمایان میشوند.
This document contains a variety of formatted elements that are used to test document rendering quality during file conversion
# <a name="_toc76372684"></a>**Font Formatting**
Source Sans Pro Light, 14 pt.
Simple text in Times New Roman 12 followed by an empty paragraph<sub>subscript</sub> and<sup>superscript</sup>.
Various characters: ‘ “ & < > £ ¥ § ¨ © ª « ® » ¼
Paragraph with multiple segments of text formatted in different fonts, sizes and colors. Very different sizes and colors including **bold**, *italic*, underline and 1 2 3 4 5 ~~strikethrough~~. Make sure that the lines wrapped in the same way in Word and in Pdf.
This text has shading and highlighting and borders, and it is supported.
# <a name="_toc76372685"></a>**Paragraph Formatting**
Paragraph shading should not form empty gaps even with spacing 12 after.
Centered paragraph with a line break had a problem.\
Centered paragraph with a line break had a problem.
Right aligned paragraphs must be right aligned properly.
Right aligned paragraph with line break works well.\
Right aligned paragraph with line break works well.
This paragraph has a border.
Right aligned condensed text had a problem.
Right aligned expanded text had a problem.
Spacing after and before do not add up, just the greater is used. This paragraph has 12 after. Also, when indents are different, the shading does not join.
This paragraph has 12 before, but in total there is only 12 above. Also note that shading belongs to the paragraph at the top and shading of this paragraph does not go down unless next paragraph has shading too. There are 24 points below.
There are 24 points above, but the gap between this and previous paragraph is only 24.
This paragraph is a test for double line spacing. This paragraph is a test for double line spacing. It also have 0.5” for the first line.
This is a test for 1.5 line spacing. This is a test for 1.5 line spacing. Also has -0.5” indent for the first line.
This paragraph has a page break
and centered. It actually creates two paragraphs.
This is a test for Exactly 20 points of spacing. This is a test for Exactly 20 points of spacing. TTTTTT (20, 22, 24, 26, 28, 30).
There is a continuous section break after this line.
This line is in the new section. Next here is an empty section.
This line is in the fourth section.
# <a name="_toc76372686"></a>**Paragraph Justify**
This is a justified paragraph with a single segment. 111111111111111111111111111111111111111111.
Also a justified **paragraph** reset to left because of multiple segments. 111111111111111111111111111111111111111111.
# **Non-English Characters**
Wingdings: (x, Symbol: WÄ
Russian: Теперь немного по русски.
# <a name="_toc76372687"></a>**Tables**
|Cell 1.1 Left|Cell 1.2 Right|||
| :- | -: | :- | :- |
|Cell 2.1 Centered vertically|Cell 2.2 with background|Cell 2.3 with line break<br>and coloured border.||
|Cell 3.1 Bottom vertically|<p>Cell 3.2</p><p>Centered</p><p>Horizontally</p>|Cell 3.3 No border||
|Left red, blue top, green right and yellow bottom.|
| :- |
|Table with left indent and merged cells.||||
| :- | :- | :- | :- |
|||||
|||||
**Cell padding etc.**
|<p>Cell padding.</p><p>Top: 0.1, bottom 0.2</p><p>Left: 0.5, Right 0.4</p>|Zero padding on all sides, right aligned.|
| :- | -: |
|Outer 1.1|Outer 1.2. There is a nested table here||
| :- | :-: | -: |
|**Nested 1.1**|**Nested 1.2**|
| :- | :- |
|||Outer 1.3|
| :- | :-: | -: |
#
# <a name="_toc76372688"></a>**Lists**
**Numbered list:**
1. Item 1
1. Item 2
1. Item 2.1
1. Item 2.2
1. Item 3
**Bulleted list:**
- Item 1
- Item 2
- Item 2.1
- Item 2.2
- Item 3
#
# <a name="_toc76372689"></a>**Images**
This section starts from a new page.
**Ellipse text**
 این تصویر در بالای سمت راست یک حاشیه سیاه دارد، اما در متن به پایین میافتد. همچنین یک بیضی شفاف با متن که بر روی تصویر همپوشانی میکند نیز وجود دارد.
متن JPEG بهصورت جداگانه در یک پاراگراف دیگر.
 این تصویر در بالای سمت راست یک حاشیه سیاه دارد، اما در متن به پایین میافتد. همچنین یک بیضی شفاف با متن که بر روی تصویر همپوشانی میکند نیز وجود دارد.
متن JPEG بهصورت جداگانه در یک پاراگراف دیگر.
 این تصویر یک جعبه متن درونخطی ... اینجا است و بیضی درونخطی ... اینجا است.
New section that starts from a new page is here.
It has portrait orientation and margins.
# **فیلدها**
فیلد ترکیبی «FirstName»
شماره صفحه 5
لینک [Aspose.com](http://www.aspose.com)
فهرست مطالب
[قالببندی قلم 1](#_toc76372684)
[قالببندی پاراگراف 1](#_toc76372685)
[کاراکترهای غیر‑انگلیسی 2](#_toc76372686)
[جداول 2](#_toc76372687)
[فهرستها 2](#_toc76372688)
[تصاویر 4](#_toc76372689)
[فیلدها 5](#_toc76372690)
# **فیلدهای فرم**
ویرایش <a name="text1"></a>متن تست
چکباکس <a name="check1"></a>
جعبهترکیبی <a name="dropdown1"></a>
# **پاورقیها و یادداشتهای انتهایی**
این خط در پایان یک پاورقی دارد.[^1]
این خط در پایان یک یادداشت انتهایی دارد.[^2]
[^1]: پاورقی ۱.
[^2]: یادداشت انتهایی ۱.
خلاصه
GroupDocs.Markdown for .NET به شما کمک میکند تا طیف گستردهای از فرمتهای اسناد را به Markdown معنایی تبدیل کنید که برای سیستمهای LLM + RAG آماده است. این ابزار ساختار و معنای سند را حفظ میکند، بهصورت داخلی اجرا میشود و از فرمتهای رایج سازمانی پشتیبانی میکند — انتخابی عملی برای سازمانهایی که نیاز به آمادهسازی مجموعههای بزرگ اسنادی برای مصرف هوش مصنوعی دارند.
اطلاعات بیشتر
- صفحه محصول: https://products.groupdocs.com/markdown/net/
- مستندات: https://docs.groupdocs.com/markdown/net/
- اطلاعات مجوز: https://about.groupdocs.com/legal/
- دانلودها: https://releases.groupdocs.com/markdown/net/
پشتیبانی و بازخورد
برای پرسش یا کمک فنی، لطفاً از انجمن پشتیبانی رایگان استفاده کنید — خوشحال میشویم که کمک کنیم.