当前位置: 首页 > news >正文

如何在程序中解析获取word文档(docx格式)的文本内容

原理

docx格式的word文档其实是一个压缩包,文本内容、格式、图片等是分别存储在不同的文件中的,office通过这些文件还原出我们所看到的word文档。下面以一个简单的示例来说明docx格式。

示例

  1. 首先我们新建一个word文档,在里边写上“文档测试”,然后插入一张图片。
    在这里插入图片描述
  2. 然后我们把该文档的后缀改为“.zip”,使用压缩软件打开,可以看到里边的目录结构。
    在这里插入图片描述
  3. word文件夹中存储的是文档内容,如下图:
    在这里插入图片描述
    media文件夹的内容如下,正是我们插入的图片:
    在这里插入图片描述
    document.xml的格式如下,可以看到我们的文本内容是包裹在<w:t></w:t>标签中的。
    在这里插入图片描述

总结

用程序来提取文本内容,先要解压缩,然后再解析document.xml文件,提取出<w:t></w:t>标签中的 内容。


相关文章:

  • QFormLayout布局该什么时候使用
  • Qt判断文件类型 QMimeType
  • 在qmake中定义子项目的编译顺序(依赖关系)
  • lua面向对象-----继承的实现
  • 使用Qt实现阿里云API签名
  • 我的艰难生活
  • 在 Motorola 手机中,播放声音的注意点
  • 关于 Motorola E680 手机切出时如何关闭音乐的一些说明
  • 手机键盘键值表
  • 即将毕业的计算机专业学生,你要工作吗?
  • 如何正确的使用Timer的schedule()方法?
  • 一些小的经验积累
  • Struts入门经验
  • 学好英语的途径
  • 由 setMeidatime() 想到的
  • 《深入 React 技术栈》
  • 【Redis学习笔记】2018-06-28 redis命令源码学习1
  • go append函数以及写入
  • iOS 颜色设置看我就够了
  • js中的正则表达式入门
  • Linux编程学习笔记 | Linux多线程学习[2] - 线程的同步
  • node-glob通配符
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 从输入URL到页面加载发生了什么
  • 分享一个自己写的基于canvas的原生js图片爆炸插件
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 简单数学运算程序(不定期更新)
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 我是如何设计 Upload 上传组件的
  • 携程小程序初体验
  • 移动端 h5开发相关内容总结(三)
  • 责任链模式的两种实现
  • 阿里云服务器购买完整流程
  • 仓管云——企业云erp功能有哪些?
  • #FPGA(基础知识)
  • #gStore-weekly | gStore最新版本1.0之三角形计数函数的使用
  • #Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (01)ORB-SLAM2源码无死角解析-(56) 闭环线程→计算Sim3:理论推导(1)求解s,t
  • (2021|NIPS,扩散,无条件分数估计,条件分数估计)无分类器引导扩散
  • (MATLAB)第五章-矩阵运算
  • (读书笔记)Javascript高级程序设计---ECMAScript基础
  • (一)基于IDEA的JAVA基础10
  • (已解决)什么是vue导航守卫
  • (原创) cocos2dx使用Curl连接网络(客户端)
  • (转)LINQ之路
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • .NET CORE 第一节 创建基本的 asp.net core
  • .net core 6 集成和使用 mongodb
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .net MVC中使用angularJs刷新页面数据列表
  • .net php 通信,flash与asp/php/asp.net通信的方法
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .NET6使用MiniExcel根据数据源横向导出头部标题及数据
  • .net和php怎么连接,php和apache之间如何连接