PDF恢复LaTeX的[关闭](Recover PDF to LaTeX [closed])

2019-09-01 02:08发布

我知道该怎么做,从乳胶中的PDF。 有没有一种方法来提取我前面创建的PDF LaTeX的代码? 怎么样,如果有人给我发送PDF和我喜欢的格式。 我可以从中提取LaTeX的?

Answer 1:

乳胶没有一个一对一的转换为PDF。 至于第一个问题,我相信这样的转换可能是技术上是可行的,但我不相信一个应用程序这样做还不存在。 的方式汇编类似,通过反编译回高级语言,有可能是一个办法做到这一点。 然而 - 一个PDF是允许包含各种数据的所有事情 - AutoCAD图纸,JPEG图形,字体文件,表格,数字签名等乳胶不知道这些东西是什么。 所以,在回答第二个问题是否定的 - 有没有办法从任何PDF文档中提取相当于胶乳。



Answer 2:

有读取PDF档案就像一个OCR并试图重建乳胶码的工具。 这是近乎完美的,并呼吁“Infty读者” ! 由于乳胶是很容易扩展,我不认为它得到的所有的整齐格式正确。



Answer 3:

如果您嵌入文档的源成PDF文件,这是唯一可能的。 见attachfile包这样做。



Answer 4:

短版:第

龙版本:这是一个很像反编译:你能技术,但它会涉及大量的猜测和试探的。

我不熟悉的PDF内脏,但它可能会直接设置字体/大小/位置,而不是定义的格式,以及为LaTeX把它应用到标题和这样的,等等。



Answer 5:

有可能你的PDF到HTML和你的HTML转换为使用pdftohtml和gnuhtml2latex到德克萨斯州

实际上,你在做2步中的PDF转换乳胶。 结果仍是一样“做牛了汉堡包”,但与一些清理脚本组合的结果可能是相当不错的。

该博客文章“ 基本的PDF在Linux LaTeX的转换 ”上GlobalBlindSpot具有将一个.pdf为.tex文件和一个.pdf文件又一个例子bash脚本。



Answer 6:

查看相关的问题我的答案( 如何将一个DVI到TEX? )

为了放大 - 没有用于字符是在读取顺序没有要求(我发现PDF文件,其中sdrawkcab sdaer txet的一部分(并依赖于坐标)这是非常困难的重建,因为它可以依靠字体指标可以。用惨不忍睹ASCII86协议。



Answer 7:

从PDF文件中的数据挖掘(由于其复杂的格式),最好的办法是用Adobe Illustrator中打开它们。 然后转换PDF文件到SVG文件并使用SVG解析库对自己写的一些棘手的代码。

一个高效的SVG解析器LIB是蜡染

(对于Linux是相当用于转换PDF到SVG位络合物:calcmaster.net/personal_projects/pdf2svg/)

PS我一直以来很多试图找到一个解决您的问题的第二部分,但我在书这样的“可视化数据,本弗莱,O'Reilly的”是PDF特别的Adobe PDF是复杂的解析想通了,所以改为使用SVG解析器库。



Answer 8:

Inkscape的可以导入PDF文件,然后保存为“乳胶PSTricks宏”基本上通过嵌入的PostScript到胶乳源工作。 它比它的价值更多的麻烦,产生的乳胶源必须进行预处理,它可以作为一个PDF再次输出之前。

无论如何,即使有一些假设PDF到LaTeX的编译器,充其量你会得到一些地方的大小和每个字符或单词的位置分别指定 - 你想的正好相反,我猜是一个分母是分数的一半,而不是水平线以下一些号码。



Answer 9:

这可能与工作texmacs ,其中包括PDF文件导入。



文章来源: Recover PDF to LaTeX [closed]