当前位置:   article > 正文

Apache tika -- 解析多种类型(word、pdf、txt 等)文件!

tika 识别 word

apache 是个伟大的组织。

lucene 检索 如火如荼时, apache不忘继续努力,近期提供了对各种格式文件进行解析的解决方案 -- apache旗下的tika. 虽然还没有1.0版  , 但已经很好用:

  1. /**
  2. * 解析各种类型文件
  3. * @param 文件路径
  4. * @return 文件内容字符串
  5. */
  6. public static String parse(String path) {
  7. String result = "";
  8. TikaConfig tikaConfig = TikaConfig.getDefaultConfig();
  9. try {
  10. result = ParseUtils.getStringContent(new File(path), tikaConfig);
  11. }catch (Exception e) {
  12. log.debug("[by ninja.hzw]" + e);
  13. }
  14. return result;
  15. }

 

很简单,可以解析各种文件,返回文档内容字符串, word2003/2007 、 pdf  、 txt 都经过测试,均能解析且无乱码问题。  

 

oh, Great Apach

 

Tika 的下载和打包:

下载不用多说,google 一下“apache tika” 找到其官网下载即可。

  1. To build Tika from sources you first need to either download a source release or checkout the latest sources from version control.
  2. Once you
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/665325
推荐阅读
相关标签
  

闽ICP备14008679号