Microsoft Word 文档(尤其是 .docx 格式)本质上是一个压缩包,内部包含多个 XML 文件,这些文件共同构成了文档的内容、样式、元数据等。本文将介绍如何查看 Word 文档的“源代码”。
.docx 文件基于 Office Open XML(OOXML)标准,实际是一个 ZIP 压缩包。解压后可以看到如下主要目录:
word/document.xml:主文档内容word/styles.xml:样式定义word/media/:图片等媒体资源[Content_Types].xml:文件类型声明.docx 文件重命名为 .zip(例如:report.docx → report.zip)word/document.xml 即可看到文档的原始 XML 内容直接修改 XML 文件可能导致文档损坏。若需程序化处理 Word 文档,建议使用专业库(如 Python 的 python-docx 或 JavaScript 的 mammoth.js)。