当前位置:   article > 正文

使用docker复现顶会论文Autophrase_docker复现论文流程

docker复现论文流程

复现顶会论文autophrase

使用docker搭建开发环境

我在这里使用的是docker环境,根据作者的readme文件,首先使用命令

docker run -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/data -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/models -it -e RAW_TRAIN=data/input.txt -e ENABLE_POS_TAGGING=1  -e MIN_SUP=30 -e THREAD=10  -e MODEL=models/MyModel -e TEXT_TO_SEG=data/input.txt  remenberl/autophrase
  • 1

静静等待下载,他是下载好几个文件,完成之后整个环境和程序就搭建好了,可以直接使用

在这里插入图片描述

创建一个容器(AP)

我们使用命令docker images查看当前的镜像,结果如下图。
在这里插入图片描述

我们使用remenberl/autophrase镜像启动一个容器,并命名为AP,参数为以命令行模式进入该容器。在这里我希望docker的服务是在后台运行的,这时可以通过-d指定容器的运行模式。在这里使用的命令是docker run -itd --name AP remenberl/autophrase /bin/bash

使用docker ps命令即可看到当前正在运行的容器。使用docker attach CONTAINER ID,这里具体是使用docker attach 7就可以进入该容器在这里插入图片描述

测试默认的数据集

直接使用命令./auto_phrase.sh,他会首先从作者的数据挖掘小组的服务器上下载英语词组,然后会使用autophrase程序生成三个短语列表,同时也会生成两个细分模型。这些文件都在/default_models/DBLP这个文件夹下,具体包括

  • AutoPhrase.txt: the unified ranked list for both single-word phrases and multi-word phrases.
  • AutoPhrase_multi-words.txt: the sub-ranked list for multi-word phrases only.
  • AutoPhrase_single-word.txt: the sub-ranked list for single-word phrases only.
  • segmentation.model: AutoPhrase’s segmentation model (saved for later use).
  • token_mapping.txt: the token mapping file for the tokenizer (saved for later use).
    在这里插入图片描述

如果需要将自己的一个文件进行短语挖掘也很方便,将/autophrase/default_data/EN/DBLP.5k.txt替换成自己的文件,或者将自己的文件命名成input.txt,之后再运行命令./auto_phrase.sh,稍等片刻,结果就展现在/default_models/DBLP这个文件夹下。

短语突出显示

作者在这里面提供了一个工具,可以将文本中的高质量短语使用 高质量短语展示出来,只需要我们使用命令./phrasal_segmentation.sh,结果同样展现在/default_models/DBLP这个文件夹下。这里面作者设置的默认值是单词>0.5,词组>0.8。当然我们可以打开phrasal_segmentation.sh这个文件里面进行修改阈值,来达到我们想要的展示效果

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/866189
推荐阅读
相关标签
  

闽ICP备14008679号