当前位置:   article > 正文

python文本分析与挖掘(一)-构建语料库_python怎么构建自己的语料库

python怎么构建自己的语料库

实现功能:

python文本分析与挖掘(一)-构建语料库

实现代码:

import os
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)
import os.path
import codecs
import pandas

#==========词料库构建=================
def Create_corpus(file):
    filePaths = []
    fileContents=[]
    for root, dirs, files in os.walk(file):
        print(root)
        print(dirs)
        print(files)
        # os.path.join()方法拼接文件名返回所有文件的路径,并储存在变量filePaths中
        for name in files:
            filePath=os.path.join(root, name)
            filePaths.append(filePath)
            print(filePaths)
            f = codecs.open(filePath, 'r', 'utf-8')
            print(f)
            fileContent = f.read()
            print(fileContent)
            f.close()
            fileContents.append(fileContent)
    #codecs.open()方法打开每个文件,用文件的read()方法依次读取其中的文本,将所有文本内容依次储存到变量fileContenst中,然后close()方法关闭文件。
    #创建数据框corpos,添加filePaths和fileContents两个变量作为数组
    corpos = pandas.DataFrame({'filePath': filePaths,'fileContent': fileContents})
    print(corpos)

Create_corpus("F:\医学大数据课题\AI_SLE\AI_SLE_TWO\TEST_DATA")

实现效果:

 

喜欢记得点赞,在看,收藏,

关注V订阅号:数据杂坛,获取数据集,完整代码和效果,将持续更新!

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/962963
推荐阅读
相关标签
  

闽ICP备14008679号