Dans cet article, nous allons apprendre comment lire et analyser des documents PDF, puis extraire par programme les valeurs des champs de formulaire PDF en C#. Plus tôt, nous avons vu comment extraire des valeurs de formulaires PDF en Java. Après avoir lu ces articles, si vous avez rempli des formulaires de commentaires, vous pouvez extraire les valeurs de vos applications .NET et Java pour les analyser ou les enregistrer dans la base de données.

Analyser des formulaires PDF pour extraire des valeurs en C#

API .NET pour analyser et extraire les valeurs des formulaires PDF

GroupDocs.Parser for .NET est une API d’analyse et d’extraction de données facile à utiliser et puissante pour les applications .NET. Il prend en charge l’extraction de texte, de métadonnées et d’images à partir de documents de traitement de texte et PDF, de feuilles de calcul, de présentations, d’e-mails, d’annotations, d’ebooks, d’archives et bien plus encore. L’une des fonctionnalités importantes et qui sera également présentée ci-dessous est l’analyse des formulaires PDF à remplir pour extraire les valeurs des champs du formulaire à l’aide d’un petit morceau de code C#.

Pour tester les exemples d’API mentionnés ci-dessous et d’autres, vous pouvez télécharger et installer l’API à partir de NuGet ou directement télécharger à partir des téléchargements GroupDocs.

PM> Install-Package GroupDocs.Parser

Extraire des données d’un champ de formulaire PDF à l’aide de C#

Les étapes simples suivantes expliquent comment analyser un PDF, puis extraire des valeurs de champ de formulaire PDF en C#.

  • Chargez le fichier PDF à l’aide de la classe Parser.
  • Analysez le formulaire PDF à l’aide de la méthode ParseForm.
  • Parcourez la collection analysée pour extraire les valeurs des champs de formulaire.

L’exemple de code C# suivant montre l’extraction des valeurs de champ des formulaires PDF remplis dans les applications .NET.

// Analyser le formulaire PDF rempli pour extraire les valeurs de champ en C #
using (Parser parser = new Parser("filePath/PDFForm.pdf"))
{
    // Extraire les données du formulaire PDF
    DocumentData data = parser.ParseForm();
    // Itérer sur les données extraites des champs du formulaire PDF
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Conclusion

Je suis convaincu que vous vous sentirez désormais à l’aise pour développer votre propre application basée sur .NET capable d’analyser des fichiers PDF et d’extraire rapidement et précisément des valeurs à partir de champs de formulaire PDF à remplir. Pour ajouter plus de fonctionnalités, vous pouvez en savoir plus sur l’API à partir des articles documentation et des exemples C# sur GitHub.

Pour les questions et une réponse rapide, restez en contact sur le forum.

Voir également