我想一个字输入功能添加到我们的CMS,我能唯一的问题似乎不找到读取DOCX文件好的库(Word 2007中)。
不要任何人有一些建议,图书馆应该能够提取文档和基本造型像斜体,粗体,上标内容?
谢谢你的帮助
我想一个字输入功能添加到我们的CMS,我能唯一的问题似乎不找到读取DOCX文件好的库(Word 2007中)。
不要任何人有一些建议,图书馆应该能够提取文档和基本造型像斜体,粗体,上标内容?
谢谢你的帮助
或者,因为你申请一个图书馆,你可能想看看像Docvert 。 我只是随便看看根据你的问题,这是我最喜欢迄今PHP。 您输入Word文件的位置,将其转换成简单的东西与属性和所有的好东西。
docx
文件实际上是对文档的XML只是容器。 你应该能够解压缩的docx文件,然后转到字文件夹内,然后到document.xml中。 这样做的实际文本。 但事情像字体和样式都在DOCX容器等的XML文件,所以你可能会想了一下周围很乱,弄清楚什么是什么,以及如何匹配起来(通过使用命名空间开始,我打赌)。
但是啊,解压缩文件,然后使用SimpleXML来将其转换成东西,你可以实际上陷入混乱。
PHPDocX PRO包括TransformDoc类,可以读取.DOCX(ZIP)文件,并从其生成XHTML(或PDF):
...
require_once 'phpdocx_pro/classes/TransformDoc.inc';
$doc = new TransformDoc();
$doc->setStrFile($file->filepath);
$doc->generateXHTML();
$html = $doc->getStrXHTML();
有一个图书馆这样做,但它与Zend框架的工作可能是它会帮助你它被称为phpLiveDocx: http://www.phplivedocx.org/downloads/该库下的新BCD许可
我刚才发现有读取和写入支持检查它在CodePlex上锻造出库http://openxmlapi.codeplex.com ,它是GPL第二版授权。
转换DOCX文档使用ODT 的OpenOffice 。 然后,使用的eZ组件做解析和导入。 他们实际使用的进口在其CMZ eZ Publish的 。
下面是我发现了一个简单可行的解决方案
http://webcheatsheet.com/php/reading_the_clean_text_from_docx_odt.php