赞
踩
今天任务要把之前获取到的中文例句全部转换成拼音。最开始打算通过爬虫从那些在线转换的网站上面爬取下来。但是所有的网站的都如下图的网站一样,通过页面中js动态加载的。直接从url入手行不通。按我现阶段多掌握的方法,只能通过selenium库进行自动化加载页面,输入文本再通过xpath定位文本爬取。但是selenium库进行爬取太慢了。我两万多条数据得到明天才行了。
突然老大一语惊醒梦中人。老大说Java有一个jar包可以实现中文文本直接转拼音。但我比较懒,java第三方jar包下载导入太麻烦了。就想看看python当中有没有类似的库。一搜,嘿嘿嘿
python可以进行汉字转拼音的库有两个一个是xpinyin,一个是pinyin。后者的功能更强大一点。
食用方法如下:
1、打开冰箱拿出吃的
万能pip安装pinyin库
pip install pinyin
2、起锅烧油开始炒菜
基本调用:
pinyin.get("天地君亲师!")
3、其他佐料
如果想要两个拼音之间有分隔符分开,可以使用delimitrer参数。比如可以设置空格:
pinyin.get('天地君亲师', delimiter=" ")
很多时候, ǐǎ 这样的符号并不适合计算机来读取。 format 参数可以设置输出拼音的方式,比如我们设置为 strip 参数去掉注音,或者使用 numerical 将注音以数字的方式放在最后:
pinyin.get('天地君亲师', format='strip', delimiter=" ")
输出:tian di jun qin shi
pinyin.get('天地君亲师', format='numerical', delimiter=" ")
输出:tian1 di4 jun1 qin1 shi1
我运行后是存为一个json文件,运行整体效果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。