我最近了解了.docx文件(这是一个特殊结构的zip压缩包)的基本结构。 然而,DOCX没有格式化像一个文档。
如何做一个doc文件的工作? 什么是文件格式,结构等?
我最近了解了.docx文件(这是一个特殊结构的zip压缩包)的基本结构。 然而,DOCX没有格式化像一个文档。
如何做一个doc文件的工作? 什么是文件格式,结构等?
二进制.doc文件的完整格式的文档阅读本产品从( 对.DOC维基百科的文章 )
这不是一个直接回答你的问题,但我强烈建议您阅读乔尔斯波斯基的文章, 为什么微软Office文件格式的这么复杂? (和一些解决方法) 。 它会给你一些深入了解复杂的.doc格式真的是 - 为什么。 乔尔也给出了什么样的.doc格式由一个非常基本的概述:
你看时,Excel 97-2003文件是OLE复合文档,这是本质上,一个单一的文件中的文件系统。 这些是足够复杂,你必须阅读另9页规格明白这一点。 而这些“规范”看起来更像比我们传统上认为的规格C数据结构。 这是一个完全分级文件系统。
(该帖是指Excel文件,但它适用于Word文档以及)。 丰富的文章,并了解为什么.DOCX和ODF文件这么多逻辑结构和设计从外部的角度被检查时有所帮助。
在MS Word文档格式后面的基本思想是一个OLE复方文档,其中,作为基比已经写,基本上是一个存储器转储。 这是存储文件一个非常复杂和令人费解的方式,但如果你曾经真的挖成应用程序Word中,你就会知道如何疯狂的许多功能,它有,如果你已经在商业中使用它设置你将有一个很好的感觉它是如何在Office系列的其它程序集成。
在一般情况下,OLE复方文档,可以让你的东西各类数据成一个文件,甚至你没有安装的应用程序一定程度上处理数据很强的可扩展结构。 例如,如果插入一个等式对象(从MS公式编辑器)到一个文档它被存储为一个子对象,它是象文件内的文件,但该对象不只是包含用于公式编辑器所需要的数据编辑和渲染它,它也有一个通用的位图(或元,也许)表示存储,因此它可以显示,但不能编辑,一台机器上没有安装公式编辑器。
这是为什么 ,对于如何你必须读其他人联系到规范了;)
如果你想讨巧处理这些文件的工作,虽然,请确保您的软件安装在Windows计算机与Word上运行,则使用COM / OLE自动化来打开和操作文件。 你将不必担心文件格式,然后。
文件是Word文档的二进制格式-这里的Microsoft Office Word中97-2007二进制文件格式规范[* .DOC]文件。
.doc格式是相当复杂的。 最喜欢的微软格式,它反映版本和旧版支持之间变化的悠久历史。 他们不久前公布的,所以如果你想查看它(和其他Office预2007格式), 敲你自己在这里 。
还有微软Word的.doc和再有就是纯文本的.doc。 这听起来像你想知道关于微软专有格式。
从维基百科 :
该DOC格式的Microsoft Office的Word格式各不相同。 Word版本多达97使用97年至2003年间从Microsoft Word版本不同的格式。
但直到Word 2007中,其中的.docx ,虽然打包的文件,也未必就是一个.zip档案。 这是一个结构化的XML文档。