Udělejte své firemní dokumenty připravené pro AI — spolehlivě, on‑premise a srozumitelně.
Je poměrně běžné, že organizace uchovávají svou dokumentaci ve formátech PDF, DOCX, XLSX a ePub. Zatímco LLM (large language models) dobře fungují s HTML nebo prostým textem, tyto nativní formáty dokumentů je potřeba před použitím v LLM + RAG pipeline (kde chceme „povídat“ s dokumentem nebo sadu dokumentů) převést.
LLM (Large Language Model) — předtrénovaný AI model, který generuje text a odpovědi na základě rozsáhlých textových korpusů.
RAG (Retrieval‑Augmented Generation) — přístup, který kombinuje LLM s externí znalostní bází (např. firemní dokumenty), aby model mohl vyhledávat a uvažovat nad obsahem domény.
Následující sekvenční diagram ilustruje typické kroky potřebné k vygenerování odpovědi na otázku:
Kvalita odpovědí, které získáte ze systému (LLM + RAG), závisí jak na samotném systému, tak na tom, jak dobře zdrojové dokumenty zachovají svou strukturu a význam při předání do vyhledávací pipeline.
Problém
Formátování dokumentů není jen vizuální — nese i sémantiku. Nadpisy, seznamy, tabulky, tučné/kurzívy, popisky a vložené obrázky vše vyjadřuje smysl, který pomáhá LLM pochopit kontext. Naivní převod dokumentů (např. pomocí OCR, které zachází s každou stránkou jako s plochým obrázkem) často tuto sémantiku ztrácí. Výsledkem je, že RAG‑vyhledávání a následné odpovědi LLM mohou být nepřesné nebo šumové.
OCR může pomoci u naskenovaných dokumentů, ale často odstraňuje strukturu (seznamy rozdělené napříč stránkami, špatně interpretované okraje tabulek, ztracené anotace). Navíc přidává náklady a infrastrukturu při zpracování velkých archivů.
Řešení
Alternativním přístupem je parsovat dokumenty se znalostí jejich struktury a exportovat tuto strukturu do sémantického, LLM‑přátelského formátu — Markdown. Markdown je lehký, široce podporovaný a zachovává nadpisy, seznamy, tabulky, bloky kódu, zvýraznění, popisky a odkazy na obrázky — právě funkce, které zlepšují kvalitu vyhledávání.
GroupDocs.Markdown pro .NET převádí oblíbené formáty dokumentů (PDF, DOCX, XLSX, ePub a další) do čistého, sémantického Markdownu vhodného pro ingestaci do RAG systémů. Jedná se o on‑premise .NET knihovnu, takže veškeré zpracování probíhá uvnitř vašeho prostředí — žádné externí služby, žádné úniky dat a žádná závislost na vzdálených GPU.
Jak začít
GroupDocs.Markdown pro .NET je k dispozici jako balíček NuGet i jako MSI a ZIP ke stažení.
Nainstalujte NuGet balíček pomocí .NET CLI:
dotnet add package GroupDocs.Markdown
Nebo stáhněte instalátory a sestavy z oficiální stránky ke stažení: https://releases.groupdocs.com/markdown/net/
Ukázka použití (přidejte do Program.cs):
// Importujte jmenný prostor
using GroupDocs.Markdown;
// Nastavte licenci (volitelné pro hodnocení)
License.Set("GroupDocs.Markdown.lic");
// Vytvořte konvertor pro zdrojový dokument
var converter = new MarkdownConverter("rich-text-formatting.docx");
// Převod a uložení výstupu do souboru
converter.Convert("rich-text-formatting.md");
Převěný soubor rich-text-formatting.md bude uložen do stejné složky jako vaše aplikace.
Následující snímek ukazuje vstupní soubor DOCX a výstupní Markdown.
Pokud spustíte bez licence, režim hodnocení zpracuje omezený počet stránek (například první tři stránky). Pro plnou funkčnost požádejte o dočasnou licenci.
Pro získání dočasné licence otevřete Purchase Wizard, zadejte kontaktní údaje a klikněte na Get a temporary license v kroku Contact Details. Dočasná licence vám bude zaslána e‑mailem.
Více o dočasných licencích: https://purchase.groupdocs.com/temporary-license/.
Podporované formáty souborů
GroupDocs.Markdown pro .NET podporuje širokou škálu běžných podnikových a e‑bookových formátů. Kompletní seznam podporovaných přípon:
- PDF
pdf
- Tabulky
.xls,.xlsx,.xlsb,.xlsm,.xlt,.xltx,.xltm,.xlam,.csv,.tsv,.ods,.ots,.fods,.numbers,.sxc
- Word / Rich Text
.doc,.docx,.dot,.dotm,.dotx,.docm,.rtf,.odt,.ott
- E‑booky
.azw3,.mobi,.epub
- Text / Značení / Nápověda
.chm,.xml,.txt
Jak to funguje (interní – vysoká úroveň)
Při zpracování dokumentu probíhají dvě hlavní fáze:
-
Extrahování modelu dokumentu
Dokument je parsován do paměťového objektového modelu, který představuje strukturu (odstavce, nadpisy, seznamy, tabulky, obrázky, poznámky pod čarou, anotace atd.). Parser se snaží zachovat sémantiku (např. vnoření seznamů, buňky tabulek, popisky obrázků). -
Generování Markdownu
Objektový model se projde a převede do Markdownu podle konfigurovatelných možností převodu (jak zacházet s obrázky, formátováním tabulek, úrovněmi nadpisů, speciálními anotacemi atd.). Výsledkem je čitelný, sémanticky významný Markdown soubor připravený k indexování vaším RAG pipeline.
Exportní příklad
Ukázkový kód výše ukazuje, jak exportovat DOCX do Markdownu. Podívejme se na zdrojové a výstupní soubory jako demonstraci.
Zdrojový DOCX
Zdrojový soubor rich-text-formatting.docx obsahuje různá obsahová bloky a je bohatě formátovaný, aby zdůraznil hlavní sémantické prvky.
Výstupní Markdown
Výstupní obsah rich-text-formatting.md je uveden níže a ukazuje, jak jsou různé formátovací prvky reprezentovány v generovaném Markdown souboru.
This document contains a variety of formatted elements that are used to test document rendering quality during file conversion
# <a name="_toc76372684"></a>**Font Formatting**
Source Sans Pro Light, 14 pt.
Simple text in Times New Roman 12 followed by an empty paragraph<sub>subscript</sub> and<sup>superscript</sup>.
Various characters: ‘ “ & < > £ ¥ § ¨ © ª « ® » ¼
Paragraph with multiple segments of text formatted in different fonts, sizes and colors. Very different sizes and colors including **bold**, *italic*, underline and 1 2 3 4 5 ~~strikethrough~~. Make sure that the lines wrapped in the same way in Word and in Pdf.
This text has shading and highlighting and borders, and it is supported.
# <a name="_toc76372685"></a>**Paragraph Formatting**
Paragraph shading should not form empty gaps even with spacing 12 after.
Centered paragraph with a line break had a problem.\
Centered paragraph with a line break had a problem.
Right aligned paragraphs must be right aligned properly.
Right aligned paragraph with line break works well.\
Right aligned paragraph with line break works well.
This paragraph has a border.
Right aligned condensed text had a problem.
Right aligned expanded text had a problem.
Spacing after and before do not add up, just the greater is used. This paragraph has 12 after. Also, when indents are different, the shading does not join.
This paragraph has 12 before, but in total there is only 12 above. Also note that shading belongs to the paragraph at the top and shading of this paragraph does not go down unless next paragraph has shading too. There are 24 points below.
There are 24 points above, but the gap between this and previous paragraph is only 24.
This paragraph is a test for double line spacing. This paragraph is a test for double line spacing. It also have 0.5” for the first line.
This is a test for 1.5 line spacing. This is a test for 1.5 line spacing. Also has -0.5” indent for the first line.
This paragraph has a page break
and centered. It actually creates two paragraphs.
This is a test for Exactly 20 points of spacing. This is a test for Exactly 20 points of spacing. TTTTTT (20, 22, 24, 26, 28, 30).
There is a continuous section break after this line.
This line is in the new section. Next here is an empty section.
This line is in the fourth section.
# <a name="_toc76372686"></a>**Paragraph Justify**
This is a justified paragraph with a single segment. 111111111111111111111111111111111111111111.
Also a justified **paragraph** reset to left because of multiple segments. 111111111111111111111111111111111111111111.
# **Non-English Characters**
Wingdings: (x, Symbol: WÄ
Russian: Теперь немного по русски.
# <a name="_toc76372687"></a>**Tables**
|Cell 1.1 Left|Cell 1.2 Right|||
| :- | -: | :- | :- |
|Cell 2.1 Centered vertically|Cell 2.2 with background|Cell 2.3 with line break<br>and coloured border.||
|Cell 3.1 Bottom vertically|<p>Cell 3.2</p><p>Centered</p><p>Horizontally</p>|Cell 3.3 No border||
|Left red, blue top, green right and yellow bottom.|
| :- |
|Table with left indent and merged cells.||||
| :- | :- | :- | :- |
|||||
|||||
**Cell padding etc.**
|<p>Cell padding.</p><p>Top: 0.1, bottom 0.2</p><p>Left: 0.5, Right 0.4</p>|Zero padding on all sides, right aligned.|
| :- | -: |
|Outer 1.1|Outer 1.2. There is a nested table here||
| :- | :-: | -: |
|**Nested 1.1**|**Nested 1.2**|
| :- | :- |
|||Outer 1.3|
| :- | :-: | -: |
#
# <a name="_toc76372688"></a>**Lists**
**Numbered list:**
1. Item 1
1. Item 2
1. Item 2.1
1. Item 2.2
1. Item 3
**Bulleted list:**
- Item 1
- Item 2
- Item 2.1
- Item 2.2
- Item 3
#
# <a name="_toc76372689"></a>**Images**
This section starts from a new page.
**Ellipse text**

V pravém horním rohu je černý rámeček, který se posune dolů do textu. V pravém dolním rohu je také průhledná elipsa s textem překrývajícím obrázek.
Inline JPEG v samostatném odstavci.
 **continues...**
---
## Shrnutí
GroupDocs.Markdown pro .NET pomáhá převádět širokou škálu formátů dokumentů do sémantického Markdownu připraveného pro LLM + RAG systémy. Zachovává strukturu a význam dokumentu, běží on‑premise a podporuje běžné podnikové formáty — což z něj činí praktickou volbu pro organizace, které potřebují připravit velké kolekce dokumentů pro AI.
---
## Další informace
- Domovská stránka produktu: https://products.groupdocs.com/markdown/net/
- Dokumentace: https://docs.groupdocs.com/markdown/net/
- Informace o licenci: https://about.groupdocs.com/legal/
- Stažení: https://releases.groupdocs.com/markdown/net/
---
## Podpora a zpětná vazba
Pro otázky nebo technickou pomoc použijte náš [Free Support Forum](https://forum.groupdocs.com/) — rádi vám pomůžeme.