Gizli ve hassas bilgileri genellikle belgelerde saklamamız gerekir. Diğer makalelerde kelime aramak için farklı stratejiler ve hatta birden çok belgede eşanlamlı arama konularını ele aldık. Bu makale, C# kullanarak bir belgedeki PDF metnini ve resimlerdeki metni nasıl yeniden düzenleyeceğiniz konusunda size yol gösterir.
Aşağıdaki konular aşağıda ele alınacaktır:
Metin ve Resim Düzeltme için .NET API
GroupDocs.Redaction, çeşitli dosya biçimlerindeki belgelerdeki gizli bilgileri gizlemeye ve kaldırmaya olanak tanıyan belge düzenleme .NET API sağlar. API, basit metin redaksiyonu ve rasterleştirmenin yanı sıra, en sık kullanılan taranmış PDF dosyaları gibi herhangi bir belgenin içinde olabilecek resimlerdeki metnin tanımlanmasına da olanak tanır. Desteklenen dosya biçimlerinin tam listesi belgelerde mevcuttur.
DLL’leri veya MSI yükleyicisini indirilenler bölümünden indirebilir veya API’yi NuGet aracılığıyla .NET uygulamanıza yükleyebilirsiniz.
Paket Yöneticisi Konsolu aracılığıyla yükleyin
PM> Install-Package GroupDocs.Redaction
NuGet Paket Yöneticisi aracılığıyla yükleyin
C# kullanarak PDF Metnini ve Taranan Görüntü Metnini Reddet
Daha önce tartışılan [belgelerdeki metni bulma ve değiştirmenin] birçok farklı yolu10 vardır. Belirli kelimeleri herhangi bir belgede bulabilir, büyük/küçük harfe duyarlı olarak veya normal ifadeler kullanarak bulabilirsiniz. Biraz metin ve içinde biraz metin bulunan bir resim içeren aşağıdaki PDF belgesini kullanacağım. Burada GroupDocs.Redaction for .NET kullanarak OCR ve redaksiyon sürecini birleştireceğiz. İlk olarak, belgedeki metni ve ayrıca belgenin görüntüsünün içindeki metni tanımlayacağız. İkinci olarak, taranmış bir belge görüntüsü içinde metin olsa bile herhangi bir yasal veya gizli bilginin programlı olarak nasıl gizleneceğini göstermek için bir kara kutu ile kapatacağız.
Aşağıdaki adımlar, normal metinle birlikte gömülü bir görüntü içindeki bazı metinleri içeren bir PDF belgesindeki metni algılar ve değiştirir.
- Herhangi bir OCR Bağlayıcı kullanarak redaktör ayarlarını hazırlayın.
- Redactor sınıfını kullanarak hazırlanmış ayarlar ve herhangi bir özel yükleme seçeneği ile PDF belgesini yükleyin.
- Değiştirme seçeneğini tanımlayın. Metni karartmak için tanımladım.
- Metin redaksiyonu için uygun metin seçim stratejisini kullanın. RegEx kullandım.
- Uygula yöntemini kullanarak düzeltmeleri uygulayın.
- Düzeltilen belgeyi Kaydet yöntemini kullanarak kaydedin.
Aşağıdaki kaynak kodu, C# kullanarak bir PDF belgesindeki seçili metni yeniden düzenler.
// C# kullanarak PDF'deki Metni ve Görüntüdeki Metni taranmış belge gibi yeniden düzenleyin
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
var marker = new ReplacementOptions(Color.Black);
var redactions = new Redaction[] {
new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
new RegexRedaction(@"\d{4}", marker) // Card Number
};
var result = redactor.Apply(redactions);
if (result.Status != RedactionStatus.Failed)
{
redactor.Save(new SaveOptions(false, "OnPremise"));
}
}
Yukarıdaki kodun çıktısı, PDF belgesinin seçilen metnini karartan aşağıdaki gibidir.
Ücretsiz API Lisansı Alın
API’yi değerlendirme sınırlamaları olmadan kullanmak için ücretsiz bir geçici lisans alabilirsiniz.
Çözüm
Özetlemek gerekirse, belgelerdeki metni düzeltmeyi öğrendiniz. Daha da önemlisi ve kesin olarak, C# kullanarak bir PDF belgesindeki resimlerdeki metnin nasıl yeniden düzenleneceğini tartıştık. Düzenlenecek metni normal ifadeler kullanarak seçtik, ancak daha önce tartışıldığı gibi birçok farklı yol kullanılarak seçilebilir. Daha sonra, aranan metnin üzerinde siyah bir dikdörtgen kutu kullanarak arama sonuçlarını karartıyoruz.
API hakkında bilgi edinmek için daha fazla ayrıntı için belgeleri ziyaret edin. Sorularınız için forum aracılığıyla bize ulaşın.