当前位置: 首页 > news >正文

C#使用OpenXml读取Word、PPT、Excel文档内容

DocumentFormat.OpenXml是微软官方推出的一个操作Excel、Word、PPT文件的开源组件,因此它是免费的。以下是一些关于DocumentFormat.OpenXml的详细信息:

  1. 开源性质:DocumentFormat.OpenXml是一个开源项目,这意味着其源代码是公开的,并且允许开发者自由地使用、修改和分发。
  2. 功能:DocumentFormat.OpenXml提供了对Excel、Word、PPT等Office文档的底层操作能力,允许开发者以编程的方式对这些文档进行创建、编辑和修改。
  3. 版本:DocumentFormat.OpenXml有多个版本,其中最新的稳定版本是3.0.2。
  4. 性能与特点:虽然DocumentFormat.OpenXml提供了底层的操作能力,但使用它可能会比较复杂,因为它涉及到更多的底层细节和顺序限制。此外,由于其底层操作的特性,它并不总是能提供最高的性能。然而,对于那些需要精确控制文档结构和格式的开发者来说,DocumentFormat.OpenXml可能是一个不错的选择。

下面只做简单的对这几种格式的文件读取显示

使用NuGet搜索添加引用

DocumentFormat.OpenXml

运行调试代码(ppt或者word改下类名)

List<string> list = MyExcelByOpenXml.Read(@"E:\资料\文档\xxx.xlsx");
if (list != null)
{for (int i = 0; i < list.Count; i++)Console.WriteLine(list[i]);
}

读取Excel

using System;
using System.Collections.Generic;
using System.Linq;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Spreadsheet;public class MyExcelByOpenXml
{public static List<string> Read(string filePath){List<string> list = new List<string>();using (SpreadsheetDocument spreadsheetDocument = SpreadsheetDocument.Open(filePath, false)){// 获取工作表集合WorkbookPart workbookPart = spreadsheetDocument.WorkbookPart;Sheets sheets = workbookPart.Workbook.Descendants<Sheets>().FirstOrDefault();foreach (Sheet sheet in sheets.Elements<Sheet>()){// 获取工作表内容WorksheetPart worksheetPart = (WorksheetPart)workbookPart.GetPartById(sheet.Id);// 获取工作表中的单元格var cells = worksheetPart.Worksheet.Descendants<Cell>();foreach (var cell in cells){// 获取单元格的值string cellValue = GetCellValue(cell, workbookPart);if (cellValue != null && cellValue != "")list.Add(cellValue);Console.WriteLine(cellValue);}}}return list;}private static string GetCellValue(Cell cell, WorkbookPart workbookPart){string value = string.Empty;if (cell.DataType != null && cell.DataType.Value == CellValues.SharedString){int sharedStringIndex = int.Parse(cell.InnerText);value = workbookPart.SharedStringTablePart.SharedStringTable.ChildElements[sharedStringIndex].InnerText;}else if (cell.CellValue != null){value = cell.CellValue.Text;}return value;}
}

读取Word

using System;
using System.Collections.Generic;
using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Wordprocessing;class MyWord
{// 读取所有内容,以段落分割public static List<string> Read(string fileName){try{List<string> list = new List<string>();// 打开现有的Word文档using (WordprocessingDocument doc = WordprocessingDocument.Open(fileName, false)){// 获取文档的主体部分Body body = doc.MainDocumentPart.Document.Body;// 遍历所有段落并输出文本foreach (Paragraph para in body.Elements<Paragraph>()){if (para.InnerText != null || para.InnerText != ""){list.Add(para.InnerText);Console.WriteLine(para.InnerText);}}}return list;}catch (Exception ex){Console.WriteLine("读取Word失败:" + ex.Message);return null;}}
}

读取PPT

using System;
using System.Collections.Generic;
using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Presentation;class MyPPT
{// 读取所有内容,以段落分割public static List<string> Read(string fileName){try{List<string> list = new List<string>();// 打开现有的ppt文档using (PresentationDocument ppt = PresentationDocument.Open(fileName, false)){// 获取文档的主体部分foreach (SlideId slideId in ppt.PresentationPart.Presentation.SlideIdList.Elements<SlideId>()){// 获取幻灯片内容SlidePart slidePart = (SlidePart)ppt.PresentationPart.GetPartById(slideId.RelationshipId);// 获取幻灯片中的文本框var textBoxes = slidePart.Slide.Descendants<DocumentFormat.OpenXml.Drawing.Text>();foreach (var textBox in textBoxes){Console.WriteLine(textBox.Text);list.Add(textBox.Text);}}}return list;}catch (Exception ex){Console.WriteLine("读取Word失败:" + ex.Message);return null;}}
}

相关文章:

  • linux pip 离线安装
  • 2024-6-10-zero shot,few shot以及无监督学习之间的关系是什么
  • NettyのBufferChannelSelector用法
  • 2024年春季学期《算法分析与设计》练习13
  • opencv中的图像操作
  • 端口占用多:UE4/UE5像素流送云推流时如何优化端口使用?
  • mac无法读取windows分区怎么办 苹果硬盘怎么读取
  • Android SDK版本号与API Level 的对应关系
  • ctfshow-web入门-命令执行(web53-web55)
  • 数据结构:手撕代码——顺序表
  • 【Java】解决Java报错:IllegalArgumentException
  • 【QT】记录一次QT程序发布exe过程
  • 硬盘几个关键指标你一定要知道!
  • 程序固化——FPGA学习笔记6
  • vscode插件开发之 - menu配置
  • 【402天】跃迁之路——程序员高效学习方法论探索系列(实验阶段159-2018.03.14)...
  • 【翻译】babel对TC39装饰器草案的实现
  • gcc介绍及安装
  • Java多态
  • java中具有继承关系的类及其对象初始化顺序
  • PHP的类修饰符与访问修饰符
  • React Native移动开发实战-3-实现页面间的数据传递
  • 阿里云前端周刊 - 第 26 期
  • 阿里中间件开源组件:Sentinel 0.2.0正式发布
  • 飞驰在Mesos的涡轮引擎上
  • 分布式熔断降级平台aegis
  • 解决iview多表头动态更改列元素发生的错误
  • 前端学习笔记之观察者模式
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • # AI产品经理的自我修养:既懂用户,更懂技术!
  • ## 1.3.Git命令
  • #我与Java虚拟机的故事#连载18:JAVA成长之路
  • (26)4.7 字符函数和字符串函数
  • (4)(4.6) Triducer
  • (delphi11最新学习资料) Object Pascal 学习笔记---第5章第5节(delphi中的指针)
  • (Redis使用系列) Springboot 实现Redis消息的订阅与分布 四
  • (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  • (转) ns2/nam与nam实现相关的文件
  • .htaccess配置重写url引擎
  • .NET Core 中的路径问题
  • .NET/C# 判断某个类是否是泛型类型或泛型接口的子类型
  • .NET/C# 使用反射调用含 ref 或 out 参数的方法
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)
  • .Net6支持的操作系统版本(.net8已来,你还在用.netframework4.5吗)
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • .NET中的十进制浮点类型,徐汇区网站设计
  • [ C++ ] STL_stack(栈)queue(队列)使用及其重要接口模拟实现
  • [2021 蓝帽杯] One Pointer PHP
  • [2024] 十大免费电脑数据恢复软件——轻松恢复电脑上已删除文件
  • [acm算法学习] 后缀数组SA
  • [Android]竖直滑动选择器WheelView的实现
  • [AutoSar]BSW_Com07 CAN报文接收流程的函数调用
  • [bzoj1324]Exca王者之剑_最小割
  • [C#]OpenCvSharp结合yolov8-face实现L2CS-Net眼睛注视方向估计或者人脸朝向估计
  • [CentOs7]图形界面