В этой статье мы узнаем, как читать и анализировать PDF-документы, а затем программно извлекать значения полей формы PDF на C#. Ранее мы видели как извлекать значения из форм PDF в Java. После прочтения этих статей, если вы заполнили формы обратной связи, вы можете извлечь значения из своих приложений .NET и Java для анализа или сохранить их в базе данных.

Анализировать PDF-формы для извлечения значений в C#

.NET API для анализа и извлечения значений из форм PDF

GroupDocs.Parser for .NET — это простой в использовании и мощный API для синтаксического анализа и извлечения данных для приложений .NET. Он поддерживает извлечение текста, метаданных и изображений из текстовых и PDF-документов, электронных таблиц, презентаций, электронных писем, пометок, электронных книг, архивов и многого другого. Одной из важных функций, которая также будет показана ниже, является синтаксический анализ заполняемых форм PDF для извлечения значений полей формы с использованием небольшого фрагмента кода C#.

Чтобы протестировать приведенные ниже и другие примеры API, вы можете загрузить и установить API из NuGet или напрямую скачать из загрузок GroupDocs.

PM> Install-Package GroupDocs.Parser

Извлечь данные из поля формы PDF с помощью С#

Следующие простые шаги показывают, как анализировать PDF, а затем извлекать значения полей формы PDF на C#.

  • Загрузите файл PDF с помощью класса Parser.
  • Разобрать форму PDF с помощью метода ParseForm.
  • Просмотрите проанализированную коллекцию, чтобы извлечь значения полей формы.

В следующем примере кода C# показано извлечение значений полей из заполненных форм PDF в приложениях .NET.

// Разберите заполненную PDF-форму, чтобы извлечь значения полей в C#
using (Parser parser = new Parser("filePath/PDFForm.pdf"))
{
    // Извлечь данные из формы PDF
    DocumentData data = parser.ParseForm();
    // Итерация по извлеченным данным полей формы PDF
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Вывод

Я уверен, что теперь вы будете чувствовать себя комфортно при разработке собственного приложения на основе .NET, которое может быстро и точно анализировать PDF-файлы и извлекать значения из заполняемых полей формы PDF. Чтобы добавить дополнительные функции, вы можете узнать больше об API из статей documentation и примеров C# на GitHub.

По вопросам и быстрому ответу обращайтесь на форум.

Смотрите также