我使用MAPI工具(其微软lib和.NET中),然后阿帕奇TIKA库来处理和提取交换服务器,这是不可扩展的PST。
我怎样才能使用MR的方式来处理/提取物PST ...是否有任何工具,库在Java中,我可以在我的MR作业使用可用。 任何帮助将是巨大的,充满。
Jpst库在内部使用: PstFile pstFile = new PstFile(java.io.File)
而问题是Hadoop的API的,我们没有任何接近java.io.File
。
下列选项是永远存在的,但效率不高:
File tempFile = File.createTempFile("myfile", ".tmp");
fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
PstFile pstFile = new PstFile(tempFile);