如何在程序中解析获取word文档(docx格式)的文本内容
原理
docx格式的word文档其实是一个压缩包,文本内容、格式、图片等是分别存储在不同的文件中的,office通过这些文件还原出我们所看到的word文档。下面以一个简单的示例来说明docx格式。
示例
- 首先我们新建一个word文档,在里边写上“文档测试”,然后插入一张图片。
- 然后我们把该文档的后缀改为“.zip”,使用压缩软件打开,可以看到里边的目录结构。
- word文件夹中存储的是文档内容,如下图:
media文件夹的内容如下,正是我们插入的图片:
document.xml的格式如下,可以看到我们的文本内容是包裹在<w:t></w:t>标签中的。
总结
用程序来提取文本内容,先要解压缩,然后再解析document.xml文件,提取出<w:t></w:t>标签中的 内容。