Kurumsal belgelerinizi AI’ye hazır hale getirin — güvenilir, yerel ve anlamsal olarak.
Kuruluşların belgelerini PDF, DOCX, XLSX ve ePub formatlarında tutması oldukça yaygın bir durumdur. LLM’ler (büyük dil modelleri) HTML veya düz metinle iyi çalışırken, bu yerel belge formatlarının LLM + RAG (Retrieval‑Augmented Generation) boru hatlarında etkili bir şekilde kullanılabilmesi için önce dönüştürülmesi gerekir; aksi takdirde bir belge ya da belge kümesiyle sohbet etmek istediğimizde sorun yaşarız.
LLM (Büyük Dil Modeli) — büyük metin derlemeleri üzerinde önceden eğitilmiş ve metin üretip sorulara yanıt veren bir AI modelidir.
RAG (Retrieval‑Augmented Generation) — bir LLM’yi dış bir bilgi kaynağı (örneğin kurumsal belgeler) ile birleştirerek modelin alan içeriğini alıp üzerinde akıl yürütmesini sağlayan yaklaşımdır.
Aşağıdaki sıralama diyagramı, bir soruya yanıt üretirken tipik olarak izlenen adımları gösterir:
Bir Sistem (LLM + RAG) tarafından verilen yanıtların kalitesi, hem sistemin kendisine hem de kaynak belgelerin yapısını ve anlamını ne kadar iyi koruyarak geri getirme boru hattına beslediğinize bağlıdır.
Sorun
Belge biçimlendirmesi yalnızca görsel değildir — aynı zamanda anlamsal bir yapıya sahiptir. Başlıklar, listeler, tablolar, kalın/eğik vurgular, başlıklar ve satır içi görseller, bir LLM’nin bağlamı anlamasına yardımcı olan anlamları taşır. Belgeleri (örneğin her sayfayı düz bir resim olarak işleyen OCR) kör bir şekilde dönüştürmek bu anlamları sıklıkla kaybeder. Sonuç olarak, RAG geri getirme ve ardından gelen LLM yanıtları hatalı ya da gürültülü olabilir.
OCR, taranmış belgeler için yardımcı olabilir ancak genellikle yapıyı (sayfalar arasında bölünmüş listeler, tablo kenarlıkları yanlış yorumlanması, kaybolmuş ek açıklamalar) yok eder. Ayrıca büyük arşivleri işlerken maliyet ve altyapı yükü getirir.
Çözüm
Alternatif bir yaklaşım, belgeleri yapısal farkındalıkla ayrıştırıp bu yapıyı semantik, LLM‑dostu bir formata — Markdown’a — dışa aktarmaktır. Markdown hafif, yaygın olarak desteklenen bir biçimdir ve başlıklar, listeler, tablolar, kod blokları, vurgular, başlıklar ve görsel referansları korur; bu da geri getirme kalitesini artıran özelliklerdir.
GroupDocs.Markdown for .NET, popüler belge formatlarını (PDF, DOCX, XLSX, ePub ve daha fazlasını) temiz, semantik Markdown’a dönüştürür; böylece RAG sistemlerine beslenebilir. Tamamen yerel bir .NET kütüphanesidir; tüm işleme ortamınız içinde gerçekleşir — dış servis yok, veri sızıntısı yok ve uzaktan GPU bağımlılığı yok.
Nasıl Başlanır
GroupDocs.Markdown for .NET bir NuGet paketi olarak ve ayrıca MSI ve ZIP indirmeleri olarak mevcuttur.
.NET CLI ile NuGet paketini kurun:
dotnet add package GroupDocs.Markdown
Ya da resmi indirme sayfasından kurulum dosyalarını ve derlemeleri indirin: https://releases.groupdocs.com/markdown/net/
Kullanım örneği (Program.cs içine ekleyin):
// Namespace'i içe aktar
using GroupDocs.Markdown;
// Lisansı ayarla (değerlendirme için isteğe bağlı)
License.Set("GroupDocs.Markdown.lic");
// Kaynak belge için dönüştürücüyü oluştur
var converter = new MarkdownConverter("rich-text-formatting.docx");
// Çıktıyı dosyaya dönüştür ve kaydet
converter.Convert("rich-text-formatting.md");
Dönüştürülen rich-text-formatting.md dosyası, uygulamanızın bulunduğu klasöre kaydedilir.
Aşağıdaki ekran görüntüsü, giriş DOCX dosyasını ve çıktı Markdown dosyasını gösterir.
Lisanssız çalıştırırsanız, değerlendirme modu sınırlı sayıda sayfayı (örneğin ilk üç sayfa) işler. Tam ürün deneyimi için geçici bir lisans talep edin.
Geçici lisans talep etmek için Satın Alma Sihirbazı sayfasını açın, iletişim bilgilerinizi girin ve İletişim Bilgileri adımında Geçici Lisans Al butonuna tıklayın. Geçici lisans e‑posta ile size gönderilecektir.
Geçici lisanslar hakkında daha fazla bilgi: https://purchase.groupdocs.com/temporary-license/.
Desteklenen dosya formatları
GroupDocs.Markdown for .NET, geniş bir kurumsal ve e‑kitap formatı yelpazesini destekler. Desteklenen uzantıların tam listesi:
- PDF
pdf
- Elektronik Tablo
.xls,.xlsx,.xlsb,.xlsm,.xlt,.xltx,.xltm,.xlam,.csv,.tsv,.ods,.ots,.fods,.numbers,.sxc
- Word / Zengin Metin
.doc,.docx,.dot,.dotm,.dotx,.docm,.rtf,.odt,.ott
- E‑kitaplar
.azw3,.mobi,.epub
- Metin / İşaretleme / Yardım
.chm,.xml,.txt
Nasıl Çalışır (İç İşleyiş — Yüksek Seviye)
-
Belge modeli çıkarma
Belge, paragraflar, başlıklar, listeler, tablolar, görseller, dipnotlar, ek açıklamalar gibi yapısal öğeleri temsil eden bir bellek içi nesne modeline ayrıştırılır. Ayrıştırıcı, anlamı korumaya çalışır (örneğin liste iç içe geçmesi, tablo hücreleri ve görsel alt yazıları). -
Markdown oluşturma
Nesne modeli dolaşılır ve yapılandırılmış seçeneklere göre (görsellerin nasıl ele alınacağı, tablo biçimlendirmesi, başlık seviyeleri, özel ek açıklamalar vb.) Markdown’a dönüştürülür. Sonuç, RAG boru hattı tarafından indekslenebilen okunabilir, anlamsal bir Markdown dosyasıdır.
Dışa Aktarım Örneği
Kaynak DOCX
Kaynak dosya rich-text-formatting.docx çeşitli içerik blokları içerir ve ana anlamsal öğeleri vurgulamak için yoğun biçimlendirilmiştir.
Çıktı Markdown
Aşağıdaki örnek, DOCX’ten Markdown’a dışa aktarımı gösterir.
This document contains a variety of formatted elements that are used to test document rendering quality during file conversion
# <a name="_toc76372684"></a>**Font Formatting**
Source Sans Pro Light, 14 pt.
Simple text in Times New Roman 12 followed by an empty paragraph<sub>subscript</sub> and<sup>superscript</sup>.
Various characters: ‘ “ & < > £ ¥ § ¨ © ª « ® » ¼
Paragraph with multiple segments of text formatted in different fonts, sizes and colors. Very different sizes and colors including **bold**, *italic*, underline and 1 2 3 4 5 ~~strikethrough~~. Make sure that the lines wrapped in the same way in Word and in Pdf.
This text has shading and highlighting and borders, and it is supported.
# <a name="_toc76372685"></a>**Paragraph Formatting**
Paragraph shading should not form empty gaps even with spacing 12 after.
Centered paragraph with a line break had a problem.\
Centered paragraph with a line break had a problem.
Right aligned paragraphs must be right aligned properly.
Right aligned paragraph with line break works well.\
Right aligned paragraph with line break works well.
This paragraph has a border.
Right aligned condensed text had a problem.
Right aligned expanded text had a problem.
Spacing after and before do not add up, just the greater is used. This paragraph has 12 after. Also, when indents are different, the shading does not join.
This paragraph has 12 before, but in total there is only 12 above. Also note that shading belongs to the paragraph at the top and shading of this paragraph does not go down unless next paragraph has shading too. There are 24 points below.
There are 24 points above, but the gap between this and previous paragraph is only 24.
This paragraph is a test for double line spacing. This paragraph is a test for double line spacing. It also have 0.5” for the first line.
This is a test for 1.5 line spacing. This is a test for 1.5 line spacing. Also has -0.5” indent for the first line.
This paragraph has a page break
and centered. It actually creates two paragraphs.
This is a test for Exactly 20 points of spacing. This is a test for Exactly 20 points of spacing. TTTTTT (20, 22, 24, 26, 28, 30).
There is a continuous section break after this line.
This line is in the new section. Next here is an empty section.
This line is in the fourth section.
# <a name="_toc76372686"></a>**Non-English Characters**
Wingdings: (x, Symbol: WÄ
Russian: Теперь немного по русски.
# <a name="_toc76372687"></a>**Tables**
|Cell 1.1 Left|Cell 1.2 Right|||
| :- | -: | :- | :- |
|Cell 2.1 Centered vertically|Cell 2.2 with background|Cell 2.3 with line break<br>and coloured border.||
|Cell 3.1 Bottom vertically|<p>Cell 3.2</p><p>Centered</p><p>Horizontally</p>|Cell 3.3 No border||
|Left red, blue top, green right and yellow bottom.|
| :- |
|Table with left indent and merged cells.||||
| :- | :- | :- | :- |
|||||
|||||
**Cell padding etc.**
|<p>Cell padding.</p><p>Top: 0.1, bottom 0.2</p><p>Left: 0.5, Right 0.4</p>|Zero padding on all sides, right aligned.|
| :- | -: |
|Outer 1.1|Outer 1.2. There is a nested table here||
| :- | :-: | -: |
|**Nested 1.1**|**Nested 1.2**|
| :- | :- |
|||Outer 1.3|
| :- | :-: | -: |
#
# <a name="_toc76372688"></a>**Lists**
**Numbered list:**
1. Item 1
1. Item 2
1. Item 2.1
1. Item 2.2
1. Item 3
**Bulleted list:**
- Item 1
- Item 2
- Item 2.1
- Item 2.2
- Item 3
#
# <a name="_toc76372689"></a>**Images**
This section starts from a new page.
**Ellipse text**
 is here and inline ellipse  is here.
---
Yeni sayfada başlayan yeni bir bölüm burada.
Portre yönelimi ve kenar boşlukları vardır.
# <a name="_toc76372690"></a>**Alanlar**
Merge field «FirstName»
Sayfa numarası 5
Hipermetin [Aspose.com](http://www.aspose.com)
İçindekiler
[Font Formatting 1](#_toc76372684)
[Paragraph Formatting 1](#_toc76372685)
[Non-English Characters 2](#_toc76372686)
[Tables 2](#_toc76372687)
[Lists 2](#_toc76372688)
[Images 4](#_toc76372689)
[Fields 5](#_toc76372690)
# **Form Alanları**
Edit <a name="text1"></a>test text
Checkbox <a name="check1"></a>
Combobox <a name="dropdown1"></a>
# **Dipnotlar ve Son Notlar**
Bu satırın sonunda bir dipnot var.[^1]
Bu satırın sonunda bir son not var.[^2]
[^1]: Dipnot 1.
[^2]: Son not 1.
---
## Özet
GroupDocs.Markdown for .NET, geniş bir belge formatı yelpazesini LLM + RAG sistemleri için hazır, anlamsal Markdown’a dönüştürür. Belge yapısını ve anlamını korur, yerel ortamda çalışır ve yaygın kurumsal formatları destekler — büyük belge koleksiyonlarını AI tüketimi için hazırlamak isteyen kuruluşlar için pratik bir seçimdir.
---
## Daha fazla bilgi
- Ürün ana sayfası: https://products.groupdocs.com/markdown/net/
- Dokümantasyon: https://docs.groupdocs.com/markdown/net/
- Lisans bilgileri: https://about.groupdocs.com/legal/
- İndirmeler: https://releases.groupdocs.com/markdown/net/
---
## Destek ve geri bildirim
Sorularınız veya teknik yardım için lütfen **[Free Support Forum](https://forum.groupdocs.com/)** adresini kullanın — size yardımcı olmaktan memnuniyet duyarız.