Kami sering kali perlu menyembunyikan informasi rahasia dan sensitif di dalam dokumen. Di artikel lain, kami telah membahas strategi berbeda untuk mencari kata dan bahkan mencari sinonim dalam banyak dokumen. Artikel ini memandu Anda tentang cara menyunting teks PDF dan teks dalam gambar dalam dokumen menggunakan C#.
Topik-topik berikut akan dibahas di bawah ini:
.NET API untuk Redaksi Teks dan Gambar
GroupDocs.Redaction menyediakan redaksi dokumen .NET API yang memungkinkan penyembunyian dan penghapusan informasi rahasia di dalam dokumen dengan berbagai format file. Seiring dengan redaksi teks dan rasterisasi sederhana, API juga memungkinkan mengidentifikasi teks dalam gambar yang mungkin ada di dalam dokumen apa pun seperti file PDF pindaian yang paling umum digunakan. Daftar lengkap format file yang didukung tersedia di dokumentasi.
Anda dapat mengunduh penginstal DLL atau MSI dari bagian unduhan atau menginstal API di aplikasi .NET Anda melalui NuGet.
Instal melalui Package Manager Console
PM> Install-Package GroupDocs.Redaction
Instal melalui NuGet Package Manager
Redact Teks PDF dan Teks Gambar yang Dipindai menggunakan C#
Ada berbagai cara mencari dan mengganti teks dalam dokumen yang telah dibahas. Anda dapat menemukan kata tertentu dalam dokumen apa pun, menemukan dengan sensitivitas huruf besar-kecil, atau dengan menggunakan ekspresi reguler. Saya akan menggunakan dokumen PDF berikut, yang berisi beberapa teks dan juga gambar dengan beberapa teks di dalamnya. Di sini kita akan menggabungkan proses OCR dan redaksi menggunakan GroupDocs.Redaction for .NET. Pertama, kita akan mengidentifikasi teks dalam dokumen dan juga teks yang ada di dalam gambar dokumen. Kedua, kami akan menutupinya dengan kotak hitam untuk mendemonstrasikan cara menyembunyikan informasi hukum atau rahasia apa pun secara terprogram meskipun berupa teks dalam gambar dokumen yang dipindai.
Langkah-langkah berikut akan mendeteksi dan mengganti teks dalam dokumen PDF, yang berisi teks biasa beserta beberapa teks di dalam gambar yang disematkan.
- Persiapkan pengaturan redaktor menggunakan Konektor OCR apa pun.
- Muat dokumen PDF menggunakan kelas Redactor dengan pengaturan yang telah disiapkan dan opsi pemuatan khusus apa pun.
- Tentukan opsi penggantian. Saya telah menetapkan untuk menghilangkan teks.
- Untuk redaksi teks, gunakan strategi pemilihan teks yang sesuai. Saya telah menggunakan RegEx.
- Terapkan redaksi menggunakan metode Terapkan.
- Simpan dokumen yang telah disunting menggunakan metode Simpan.
Kode sumber berikut menyunting teks yang dipilih dalam dokumen PDF menggunakan C#.
// Redact Teks dalam PDF dan Teks dalam Gambar seperti dokumen yang dipindai menggunakan C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
var marker = new ReplacementOptions(Color.Black);
var redactions = new Redaction[] {
new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
new RegexRedaction(@"\d{4}", marker) // Card Number
};
var result = redactor.Apply(redactions);
if (result.Status != RedactionStatus.Failed)
{
redactor.Save(new SaveOptions(false, "OnPremise"));
}
}
Output dari kode di atas adalah sebagai berikut yang menghitamkan teks yang dipilih dari dokumen PDF.
Dapatkan Lisensi API Gratis
Anda bisa mendapatkan lisensi sementara gratis untuk menggunakan API tanpa batasan evaluasi.
Kesimpulan
Singkatnya, Anda telah belajar menyunting teks dalam dokumen. Lebih penting dan tepat, kami membahas cara menyunting teks dalam gambar dalam dokumen PDF menggunakan C#. Kami memilih teks untuk disunting menggunakan ekspresi reguler, namun dapat dipilih menggunakan berbagai cara seperti yang telah dibahas sebelumnya. Kemudian kami menutup hasil pencarian menggunakan kotak persegi panjang hitam di atas teks yang dicari.
Untuk detail lebih lanjut untuk mempelajari tentang API, kunjungi dokumentasi. Untuk pertanyaan, hubungi kami melalui forum.