Сделайте ваши корпоративные документы готовыми к ИИ — надёжно, в локальном окружении и семантически.
Очень часто организации хранят документацию в форматах PDF, DOCX, XLSX и ePub. В то время как LLM (large language models — большие языковые модели) хорошо работают с HTML или простым текстом, эти родные форматы документов требуют конвертации, прежде чем их можно будет эффективно использовать в конвейерах LLM + RAG, где требуется «пообщаться» с документом или набором документов.
LLM (Large Language Model) — предобученная AI‑модель, генерирующая текст и ответы на основе большого корпуса текстов.
RAG (Retrieval‑Augmented Generation) — подход, комбинирующий LLM с внешним базой знаний (например, корпоративными документами), позволяющий модели извлекать и рассуждать над содержимым домена.
Ниже представлена типичная последовательная схема генерации ответа на вопрос:
Качество ответов, получаемых от системы (LLM + RAG), зависит как от самой системы, так и от того, насколько хорошо исходные документы сохраняют свою структуру и смысл при передаче в конвейер извлечения.
Проблема
Форматирование документа — это не только визуальное оформление, но и носитель семантики. Заголовки, списки, таблицы, жирный/курсивный шрифт, подписи, встроенные изображения — всё это передаёт смысл, помогающий LLM‑модели понять контекст. Наивное преобразование документов (например, OCR, рассматривающий каждую страницу как плоское изображение) часто теряет эту семантику. В результате поиск в RAG и последующие ответы LLM могут стать неточными или «шумными».
OCR может помочь для отсканированных документов, но часто убирает структуру (разделённые списки, искажённые границы таблиц, потерянные аннотации). Кроме того, он добавляет затраты и нагрузку на инфраструктуру при обработке больших архивов.
Решение
Альтернативный подход — разбирать документы с учётом их структуры и экспортировать её в семантично‑дружественный для LLM формат — Markdown. Markdown лёгок, широко поддерживается и сохраняет заголовки, списки, таблицы, блоки кода, выделения, подписи и ссылки на изображения — именно те свойства, которые повышают качество извлечения.
GroupDocs.Markdown for .NET преобразует популярные форматы (PDF, DOCX, XLSX, ePub и прочие) в чистый, семантический Markdown, пригодный для загрузки в RAG‑системы. Это библиотека .NET, работающая полностью on‑premise, без сторонних сервисов, утечек данных и зависимостей от удалённых GPU.
Как начать
GroupDocs.Markdown for .NET доступен как пакет NuGet, а также как MSI‑ и ZIP‑дистрибутивы.
Установите пакет через .NET CLI:
dotnet add package GroupDocs.Markdown
Или скачайте установщики и сборки со страницы загрузок: https://releases.groupdocs.com/markdown/net/
Пример использования (добавьте в Program.cs):
// Import the namespace
using GroupDocs.Markdown;
// Set the license (optional for evaluation)
License.Set("GroupDocs.Markdown.lic");
// Instantiate the converter for a source document
var converter = new MarkdownConverter("rich-text-formatting.docx");
// Convert and save output to file
converter.Convert("rich-text-formatting.md");
Сконвертированный файл rich-text-formatting.md будет сохранён в той же папке, где расположен ваш проект.
Следующее изображение показывает исходный DOCX‑файл и полученный Markdown.
При запуске без лицензии режим оценки обрабатывает ограниченное количество страниц (например, первые три). Чтобы попробовать полную версию, запросите временную лицензию.
Для получения временной лицензии откройте Мастер покупки, укажите контактные данные и нажмите Get a temporary license на шаге Contact Details. Временная лицензия будет отправлена вам по электронной почте.
Подробнее о временных лицензиях: https://purchase.groupdocs.com/temporary-license/.
Поддерживаемые форматы файлов
GroupDocs.Markdown for .NET поддерживает широкий набор распространённых корпоративных и электронных форматов. Полный список поддерживаемых расширений:
- PDF
pdf
- Электронные таблицы
.xls,.xlsx,.xlsb,.xlsm,.xlt,.xltx,.xltm,.xlam,.csv,.tsv,.ods,.ots,.fods,.numbers,.sxc
- Word / Rich Text
.doc,.docx,.dot,.dotm,.dotx,.docm,.rtf,.odt,.ott
- Электронные книги
.azw3,.mobi,.epub
- Текст / разметка / справка
.chm,.xml,.txt
Как это работает (внутренний процесс — высокий уровень)
При обработке документа происходят два основных этапа:
-
Извлечение модели документа
Документ парсится в объектную модель в памяти, представляющую структурные элементы (абзацы, заголовки, списки, таблицы, изображения, сноски, аннотации и т.п.). Парсер стремится сохранить семантику (например, вложенность списков, ячейки таблиц, подписи к изображениям). -
Генерация Markdown
Объектная модель обходится и преобразуется в Markdown согласно конфигурируемым параметрам конвертации (как обрабатывать изображения, таблицы, уровни заголовков, специальные аннотации и др.). Результатом является читаемый, семантически‑значимый Markdown‑файл, готовый к индексации вашим RAG‑конвейером.
Экспортный пример
Приведённый выше код‑пример показывает, как экспортировать DOCX в Markdown. Рассмотрим полученные файлы подробнее.
Исходный DOCX
Исходный файл rich-text-formatting.docx содержит различные блоки контента и интенсивно форматирован, чтобы подчеркнуть основные семантические элементы.
Полученный Markdown
Содержимое rich-text-formatting.md приведено ниже; в нём показано, как разные элементы форматирования отображаются в сгенерированном Markdown‑файле.
This document contains a variety of formatted elements that are used to test document rendering quality during file conversion
# <a name="_toc76372684"></a>**Font Formatting**
Source Sans Pro Light, 14 pt.
Simple text in Times New Roman 12 followed by an empty paragraph<sub>subscript</sub> and<sup>superscript</sup>.
Various characters: ‘ “ & < > £ ¥ § ¨ © ª « ® » ¼
Paragraph with multiple segments of text formatted in different fonts, sizes and colors. Very different sizes and colors including **bold**, *italic*, underline and 1 2 3 4 5 ~~strikethrough~~. Make sure that the lines wrapped in the same way in Word and in Pdf.
This text has shading and highlighting and borders, and it is supported.
# <a name="_toc76372685"></a>**Paragraph Formatting**
Paragraph shading should not form empty gaps even with spacing 12 after.
Centered paragraph with a line break had a problem.\
Centered paragraph with a line break had a problem.
Right aligned paragraphs must be right aligned properly.
Right aligned paragraph with line break works well.\
Right aligned paragraph with line break works well.
This paragraph has a border.
Right aligned condensed text had a problem.
Right aligned expanded text had a problem.
Spacing after and before do not add up, just the greater is used. This paragraph has 12 after. Also, when indents are different, the shading does not join.
This paragraph has 12 before, but in total there is only 12 above. Also note that shading belongs to the paragraph at the top and shading of this paragraph does not go down unless next paragraph has shading too. There are 24 points below.
There are 24 points above, but the gap between this and previous paragraph is only 24.
This paragraph is a test for double line spacing. This paragraph is a test for double line spacing. It also have 0.5” for the first line.
This is a test for 1.5 line spacing. This is a test for 1.5 line spacing. Also has -0.5” indent for the first line.
This paragraph has a page break
and centered. It actually creates two paragraphs.
This is a test for Exactly 20 points of spacing. This is a test for Exactly 20 points of spacing. TTTTTT (20, 22, 24, 26, 28, 30).
There is a continuous section break after this line.
This line is in the new section. Next here is an empty section.
This line is in the fourth section.
# <a name="_toc76372686"></a>**Paragraph Justify**
This is a justified paragraph with a single segment. 111111111111111111111111111111111111111111.
Also a justified **paragraph** reset to left because of multiple segments. 111111111111111111111111111111111111111111.
# **Non-English Characters**
Wingdings: (x, Symbol: WÄ
Russian: Теперь немного по русски.
# <a name="_toc76372687"></a>**Tables**
|Cell 1.1 Left|Cell 1.2 Right|||
| :- | -: | :- | :- |
|Cell 2.1 Centered vertically|Cell 2.2 with background|Cell 2.3 with line break<br>and coloured border.||
|Cell 3.1 Bottom vertically|<p>Cell 3.2</p><p>Centered</p><p>Horizontally</p>|Cell 3.3 No border||
|Left red, blue top, green right and yellow bottom.|
| :- |
|Table with left indent and merged cells.||||
| :- | :- | :- | :- |
|||||
|||||
**Cell padding etc.**
|<p>Cell padding.</p><p>Top: 0.1, bottom 0.2</p><p>Left: 0.5, Right 0.4</p>|Zero padding on all sides, right aligned.|
| :- | -: |
|Outer 1.1|Outer 1.2. There is a nested table here||
| :- | :-: | -: |
|**Nested 1.1**|**Nested 1.2**|
| :- | :- |
|||Outer 1.3|
| :- | :-: | -: |
#
# <a name="_toc76372688"></a>**Lists**
**Numbered list:**
1. Item 1
1. Item 2
1. Item 2.1
1. Item 2.2
1. Item 3
**Bulleted list:**
- Item 1
- Item 2
- Item 2.1
- Item 2.2
- Item 3
#
# <a name="_toc76372689"></a>**Images**
This section starts from a new page.
**Ellipse text**
There is an image in a black border in the top right corner, but it will drop down into the text. There is also a transparent ellipse with text that overlaps the picture.
Inline JPEG in a separate paragraph.

Inline GIF scaled 50 % and WMF scaled 25 % in a paragraph. This text is before the image and  Ниже находится изображение в чёрной рамке в правом верхнем углу, которое будет перенесено в текст. Также присутствует прозрачный эллипс с текстом, перекрывающим картинку.
Inline‑JPEG в отдельном абзаце.

Inline‑GIF (масштаб 50 %) и WMF (масштаб 25 %) в абзаце. Этот текст стоит перед изображением и 
---
## Сводка
GroupDocs.Markdown for .NET помогает преобразовать широкий спектр форматов документов в семантический Markdown, готовый для LLM + RAG‑систем. Он сохраняет структуру и смысл документов, работает полностью on‑premise и поддерживает обычные корпоративные форматы — удобный вариант для организаций, которым нужно подготовить большие коллекции файлов к использованию ИИ.
---
## Узнать больше
- Страница продукта: https://products.groupdocs.com/markdown/net/
- Документация: https://docs.groupdocs.com/markdown/net/
- Информация о лицензии: https://about.groupdocs.com/legal/
- Загрузки: https://releases.groupdocs.com/markdown/net/
---
## Поддержка и обратная связь
По вопросам или технической помощи используйте наш [Free Support Forum](https://forum.groupdocs.com/) — будем рады помочь.