C#/VB.NET:从 PDF 文档中提取所有表格
2022/8/2 1:22:50
本文主要是介绍C#/VB.NET:从 PDF 文档中提取所有表格,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
C#/VB.NET:从 PDF 文档中提取所有表格
有时,我们可能需要从 PDF 文档中提取表格数据,例如,当PDF发票的表格中存储了一些有用的信息,需要提取数据以进行进一步分析时。在这篇文章中,我将介绍如何使用Spire.PDF for .NET 从 PDF 文档中提取所有表格数据。
安装 Spire.PDF for .NET
首先,我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .NET 项目中的引用。可以从此链接下载 DLL 文件,也可以通过 NuGet 安装 DLL 文件。
PM> Install-Package Spire.PDF
从PDF文档中提取表格
Spire.PDF提供了PdfTableExtractor.ExtractTable()方法,用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。
l 创建一个Document类的对象,并加载源 PDF 文件。
l 遍历文档中的页面,并使用 ExtractTable()方法从特定页面获取表格列表。
l 遍历特定表格中的单元格,并通过 PdfTable.GetText()方法获取单元格值。
l 将所提取的数据写入 TXT 文件。
[C#]
using Spire.Pdf; using Spire.Pdf.Utilities; using System.IO; using System.Text; namespace ExtractTable { class Program { static void Main(string[] args) { //实例化PdfDocument类的对象 PdfDocument pdf = new PdfDocument(); //加载PDF文档 pdf.LoadFromFile("sample.pdf"); //创建StringBuilder类的对象 StringBuilder builder = new StringBuilder(); //实例化PdfTableExtractor类的对象 PdfTableExtractor extractor = new PdfTableExtractor(pdf); //声明一个PdfTable类的表格数组 PdfTable[] tableLists; //遍历PDF页面 for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++) { //从页面提取表格 tableLists = extractor.ExtractTable(pageIndex); //判断表格列表是否为空 if (tableLists != null && tableLists.Length > 0) { //遍历表格 foreach (PdfTable table in tableLists) { //获取表格中的行和列数 int row = table.GetRowCount(); int column = table.GetColumnCount(); //遍历表格行和列 for (int i = 0; i < row; i++) { for (int j = 0; j < column; j++) { //获取行和列中的文本 string text = table.GetText(i, j); //写入文本到StringBuilder容器 builder.Append(text + " "); } builder.Append("\r\n"); } } } } //保存提取的表格内容为.txt文档 File.WriteAllText("ExtractedTable.txt", builder.ToString()); } } }
[VB.NET]
Imports Spire.Pdf Imports Spire.Pdf.Utilities Imports System.IO Imports System.Text Namespace ExtractTable Class Program Private Shared Sub Main(args As String()) '实例化PdfDocument类的对象 Dim pdf As New PdfDocument() '加载PDF文档 pdf.LoadFromFile("sample.pdf") '创建StringBuilder类的对象 Dim builder As New StringBuilder() '实例化PdfTableExtractor类的对象 Dim extractor As New PdfTableExtractor(pdf) '声明一个PdfTable类的表格数组 Dim tableLists As PdfTable() '遍历PDF页面 For pageIndex As Integer = 0 To pdf.Pages.Count - 1 '从页面提取表格 tableLists = extractor.ExtractTable(pageIndex) '判断表格列表是否为空 If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then '遍历表格 For Each table As PdfTable In tableLists '获取表格中的行和列数 Dim row As Integer = table.GetRowCount() Dim column As Integer = table.GetColumnCount() '遍历表格行和列 For i As Integer = 0 To row - 1 For j As Integer = 0 To column - 1 '获取行和列中的文本 Dim text As String = table.GetText(i, j) '写入文本到StringBuilder容器 builder.Append(text & Convert.ToString(" ")) Next builder.Append(vbCr & vbLf) Next Next End If Next '保存提取的表格内容为.txt文档 File.WriteAllText("ExtractedTable.txt", builder.ToString()) End Sub End Class End Namespace
这篇关于C#/VB.NET:从 PDF 文档中提取所有表格的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2022-03-01沐雪多租宝商城源码从.NetCore3.1升级到.Net6的步骤
- 2024-12-06使用Microsoft.Extensions.AI在.NET中生成嵌入向量
- 2024-11-18微软研究:RAG系统的四个层次提升理解与回答能力
- 2024-11-15C#中怎么从PEM格式的证书中提取公钥?-icode9专业技术文章分享
- 2024-11-14云架构设计——如何用diagrams.net绘制专业的AWS架构图?
- 2024-05-08首个适配Visual Studio平台的国产智能编程助手CodeGeeX正式上线!C#程序员必备效率神器!
- 2024-03-30C#设计模式之十六迭代器模式(Iterator Pattern)【行为型】
- 2024-03-29c# datetime tryparse
- 2024-02-21list find index c#
- 2024-01-24convert toint32 c#