Nous avons souvent besoin de cacher les informations confidentielles et sensibles dans les documents. Dans d’autres articles, nous avons discuté des différentes stratégies pour rechercher des mots et même rechercher des synonymes dans plusieurs documents. Cet article vous explique comment biffer du texte PDF et du texte dans des images dans un document à l’aide de C#.

Les sujets suivants seront abordés ci-dessous :

API .NET pour la rédaction de texte et d’image

GroupDocs.Redaction fournit l’API .NET de rédaction de documents qui permet de masquer et de supprimer des informations confidentielles dans des documents de différents formats de fichiers. En plus de la rédaction et de la rastérisation simples du texte, l’API permet également d’identifier le texte dans les images qui peuvent avoir été à l’intérieur de n’importe quel document, comme les fichiers PDF numérisés les plus couramment utilisés. La liste complète des formats de fichiers pris en charge est disponible dans la documentation.

Vous pouvez télécharger le programme d’installation DLLs ou MSI à partir de la section téléchargements ou installer l’API dans votre application .NET via NuGet.

Installer via la console du gestionnaire de packages

PM> Install-Package GroupDocs.Redaction

Installer via le gestionnaire de packages NuGet

GroupDocs.Redaction - Package NuGet - Installer

Masquer le texte PDF et le texte de l’image numérisée à l’aide de C#

Il existe de nombreuses façons de rechercher et de remplacer du texte dans des documents qui ont déjà été discutées. Vous pouvez rechercher des mots spécifiques dans n’importe quel document, en tenant compte de la casse ou en utilisant des expressions régulières. J’utiliserai le document PDF suivant, qui contient du texte et également une image contenant du texte. Ici, nous allons combiner l’OCR et le processus de rédaction à l’aide de GroupDocs.Redaction for .NET. Premièrement, nous identifierons le texte dans le document et également le texte qui se trouve à l’intérieur de l’image du document. Deuxièmement, nous le couvrirons d’une boîte noire pour montrer comment masquer par programme toute information légale ou confidentielle, même si elle est sous forme de texte dans une image de document numérisé.

PDF avec texte et image numérisée

Les étapes suivantes détecteront et remplaceront le texte dans un document PDF, qui contient du texte normal ainsi que du texte dans une image intégrée.

  • Préparez les paramètres du rédacteur à l’aide de n’importe quel connecteur OCR.
  • Chargez le document PDF à l’aide de la classe Redactor avec les paramètres préparés et toutes les options de chargement spécifiques.
  • Définissez l’option de remplacement. J’ai défini pour noircir le texte.
  • Pour la rédaction du texte, utilisez la stratégie de sélection de texte appropriée. J’ai utilisé RegEx.
  • Appliquer les caviardages en utilisant la méthode Appliquer.
  • Enregistrez le document expurgé en utilisant la méthode Save.

Le code source suivant expurge le texte sélectionné dans un document PDF à l’aide de C#.

// Masquer le texte dans un PDF et le texte dans une image comme un document numérisé à l'aide de C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

La sortie du code ci-dessus est la suivante qui noircit le texte sélectionné du document PDF.

Masquer le texte du PDF et le texte de l'image numérisée

Obtenez une licence API gratuite

Vous pouvez obtenir une licence temporaire gratuite pour utiliser l’API sans les limitations d’évaluation.

Conclusion

En résumé, vous avez appris à caviarder du texte dans des documents. Plus important encore et plus précisément, nous avons discuté de la manière de rédiger du texte dans des images dans un document PDF à l’aide de C#. Nous avons sélectionné le texte à expurger à l’aide d’expressions régulières, cependant, il peut être sélectionné de différentes manières, comme indiqué précédemment. Plus tard, nous occultons les résultats de la recherche à l’aide d’un rectangle noir sur le texte recherché.

Pour plus de détails sur l’API, consultez la documentation. Pour toute question, contactez-nous via le forum.

Voir également