赞
踩
复现顶会论文autophrase
我在这里使用的是docker环境,根据作者的readme文件,首先使用命令
docker run -v /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/data -v /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/models -it -e RAW_TRAIN=data/input.txt -e ENABLE_POS_TAGGING=1 -e MIN_SUP=30 -e THREAD=10 -e MODEL=models/MyModel -e TEXT_TO_SEG=data/input.txt remenberl/autophrase
静静等待下载,他是下载好几个文件,完成之后整个环境和程序就搭建好了,可以直接使用
我们使用命令docker images
查看当前的镜像,结果如下图。
我们使用remenberl/autophrase镜像启动一个容器,并命名为AP,参数为以命令行模式进入该容器。在这里我希望docker的服务是在后台运行的,这时可以通过-d
指定容器的运行模式。在这里使用的命令是docker run -itd --name AP remenberl/autophrase /bin/bash
使用docker ps
命令即可看到当前正在运行的容器。使用docker attach CONTAINER ID
,这里具体是使用docker attach 7
就可以进入该容器
直接使用命令./auto_phrase.sh
,他会首先从作者的数据挖掘小组的服务器上下载英语词组,然后会使用autophrase程序生成三个短语列表,同时也会生成两个细分模型。这些文件都在/default_models/DBLP
这个文件夹下,具体包括
AutoPhrase.txt
: the unified ranked list for both single-word phrases and multi-word phrases.AutoPhrase_multi-words.txt
: the sub-ranked list for multi-word phrases only.AutoPhrase_single-word.txt
: the sub-ranked list for single-word phrases only.segmentation.model
: AutoPhrase’s segmentation model (saved for later use).token_mapping.txt
: the token mapping file for the tokenizer (saved for later use).如果需要将自己的一个文件进行短语挖掘也很方便,将/autophrase/default_data/EN/DBLP.5k.txt
替换成自己的文件,或者将自己的文件命名成input.txt
,之后再运行命令./auto_phrase.sh
,稍等片刻,结果就展现在/default_models/DBLP
这个文件夹下。
作者在这里面提供了一个工具,可以将文本中的高质量短语使用 高质量短语展示出来,只需要我们使用命令./phrasal_segmentation.sh
,结果同样展现在/default_models/DBLP
这个文件夹下。这里面作者设置的默认值是单词>0.5,词组>0.8。当然我们可以打开phrasal_segmentation.sh
这个文件里面进行修改阈值,来达到我们想要的展示效果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。