В этой статье мы узнаем, как читать и анализировать PDF-документы, а затем программно извлекать значения полей формы PDF на C#. Ранее мы видели как извлекать значения из форм PDF в Java. После прочтения этих статей, если вы заполнили формы обратной связи, вы можете извлечь значения из своих приложений .NET и Java для анализа или сохранить их в базе данных.
.NET API для анализа и извлечения значений из форм PDF
GroupDocs.Parser for .NET — это простой в использовании и мощный API для синтаксического анализа и извлечения данных для приложений .NET. Он поддерживает извлечение текста, метаданных и изображений из текстовых и PDF-документов, электронных таблиц, презентаций, электронных писем, пометок, электронных книг, архивов и многого другого. Одной из важных функций, которая также будет показана ниже, является синтаксический анализ заполняемых форм PDF для извлечения значений полей формы с использованием небольшого фрагмента кода C#.
Чтобы протестировать приведенные ниже и другие примеры API, вы можете загрузить и установить API из NuGet или напрямую скачать из загрузок GroupDocs.
PM> Install-Package GroupDocs.Parser
Извлечь данные из поля формы PDF с помощью С#
Следующие простые шаги показывают, как анализировать PDF, а затем извлекать значения полей формы PDF на C#.
- Загрузите файл PDF с помощью класса Parser.
- Разобрать форму PDF с помощью метода ParseForm.
- Просмотрите проанализированную коллекцию, чтобы извлечь значения полей формы.
В следующем примере кода C# показано извлечение значений полей из заполненных форм PDF в приложениях .NET.
// Разберите заполненную PDF-форму, чтобы извлечь значения полей в C#
using (Parser parser = new Parser("filePath/PDFForm.pdf"))
{
// Извлечь данные из формы PDF
DocumentData data = parser.ParseForm();
// Итерация по извлеченным данным полей формы PDF
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
PageTextArea area = data[i].PageArea as PageTextArea;
Console.WriteLine(area == null ? "Not a template field" : area.Text);
}
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
Вывод
Я уверен, что теперь вы будете чувствовать себя комфортно при разработке собственного приложения на основе .NET, которое может быстро и точно анализировать PDF-файлы и извлекать значения из заполняемых полей формы PDF. Чтобы добавить дополнительные функции, вы можете узнать больше об API из статей documentation и примеров C# на GitHub.
По вопросам и быстрому ответу обращайтесь на форум.