当前位置:   article > 正文

【Apache Tika】在各环境独立部署tika-server通过接口调用实现文档解析_apache pdfbox、apache tika

apache pdfbox、apache tika

Apache tika是Apache开源的一个文档解析工具,曾经是Apache Lucene的一个子项目,现已成为Apache顶级项目。Apache Tika可以解析和提取一千多种不同的文件类型(如PPT、XLS和PDF)的内容和格式,并且提供了多种使用方式,既可以使用图形化操作页面(tika-app),又可以独立部署(tika-server)通过接口调用,还可以引入到项目中使用。

Linux

使用docker部署tika-server

1.搜索tika-server的镜像
docker search tika-server 
2.拉取镜像
docker pull lexpredict/tika-server
3.运行
docker run -itd --name tika -p 9998:9998 --restart always lexpredict/tika-server 
4.测试文档解析
curl -X PUT -H "Content-Type: application/octet-stream" --data-binary @/usr/software/log/test.dat http://127.0.0.1:9998/tika

/usr/software/log/test.dat  修改成你要解析文件的位置

Windows

使用jar包部署tika-server

1.下载jar包

https://archive.apache.org/dist/tika/tika-server-1.9.jar 

2.运行jar包
3.测试文档解析

新开一个cmd窗口调用tika服务

curl -X PUT -H "Content-Type: application/octet-stream" --data-binary @C:\Users\admin\Desktop\111.pdf http://127.0.0.1:9998/tika

小结

1.如果系统上的9998端口已开放,部署完成后,其他系统也可以通过接口调用进行文档解析

2.tika有线程死锁的问题,可能导致服务器CPU资源耗尽,建议在容器(如docker)里运行

本文只是简单的测试使用,后续有机会深入学习的话再进行补充...

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/444625
推荐阅读
相关标签
  

闽ICP备14008679号