赞
踩
Apache tika是Apache开源的一个文档解析工具,曾经是Apache Lucene的一个子项目,现已成为Apache顶级项目。Apache Tika可以解析和提取一千多种不同的文件类型(如PPT、XLS和PDF)的内容和格式,并且提供了多种使用方式,既可以使用图形化操作页面(tika-app),又可以独立部署(tika-server)通过接口调用,还可以引入到项目中使用。
docker search tika-server
docker pull lexpredict/tika-server
docker run -itd --name tika -p 9998:9998 --restart always lexpredict/tika-server
curl -X PUT -H "Content-Type: application/octet-stream" --data-binary @/usr/software/log/test.dat http://127.0.0.1:9998/tika
/usr/software/log/test.dat 修改成你要解析文件的位置
https://archive.apache.org/dist/tika/tika-server-1.9.jar
新开一个cmd窗口调用tika服务
curl -X PUT -H "Content-Type: application/octet-stream" --data-binary @C:\Users\admin\Desktop\111.pdf http://127.0.0.1:9998/tika
1.如果系统上的9998端口已开放,部署完成后,其他系统也可以通过接口调用进行文档解析
2.tika有线程死锁的问题,可能导致服务器CPU资源耗尽,建议在容器(如docker)里运行
本文只是简单的测试使用,后续有机会深入学习的话再进行补充...
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。