赞
踩
GitHub: https://github.com/mozillazg/python-pinyin
文档: https://pypinyin.readthedocs.io/zh_CN/master/
PyPi: https://pypi.org/project/pypinyin/
pip install pypinyin
装完成之后导入一下这个库,如果不报错,那就说明安装成功了
import pypinyin
基本用法
from pypinyin import pinyin
print(pinyin('中心'))
# 输出: [['zhōng'], ['xīn']]
多音字
from pypinyin import pinyin
print(pinyin('朝阳', heteronym=True))
# 输出: [['zhāo', 'cháo'], ['yáng']]
不带拼音的输出
import pypinyin
str1 = '你好在哪来'
print(pypinyin.lazy_pinyin(str1))
# 输出: ['ni', 'hao', 'zai', 'na', 'lai']
风格转换
可以对结果进行一些风格转换,比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等,比如想要声调放在拼音后面,可以这么来实现:
from pypinyin import lazy_pinyin, Style
style = Style.TONE3
print(lazy_pinyin('聪明的小兔子', style=style))
输出: ['cong1', 'ming2', 'de', 'xiao3', 'tu4', 'zi']
可以看到运行结果每个拼音后面就多了一个声调,这就是其中的一个风格,叫做 TONE3,其实还有很多风格,下面是我从源码里面找出来的定义:
#: 普通风格,不带声调。如: 中国 -> ``zhong guo`` NORMAL = 0 #: 标准声调风格,拼音声调在韵母第一个字母上(默认风格)。如: 中国 -> ``zhōng guó`` TONE = 1 #: 声调风格2,即拼音声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``zho1ng guo2`` TONE2 = 2 #: 声调风格3,即拼音声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``zhong1 guo2`` TONE3 = 8 #: 声母风格,只返回各个拼音的声母部分(注:有的拼音没有声母,详见 `#27`_)。如: 中国 -> ``zh g`` INITIALS = 3 #: 首字母风格,只返回拼音的首字母部分。如: 中国 -> ``z g`` FIRST_LETTER = 4 #: 韵母风格,只返回各个拼音的韵母部分,不带声调。如: 中国 -> ``ong uo`` FINALS = 5 #: 标准韵母风格,带声调,声调在韵母第一个字母上。如:中国 -> ``ōng uó`` FINALS_TONE = 6 #: 韵母风格2,带声调,声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``o1ng uo2`` FINALS_TONE2 = 7 #: 韵母风格3,带声调,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``ong1 uo2`` FINALS_TONE3 = 9 #: 注音风格,带声调,阴平(第一声)不标。如: 中国 -> ``ㄓㄨㄥ ㄍㄨㄛˊ`` BOPOMOFO = 10 #: 注音风格,仅首字母。如: 中国 -> ``ㄓ ㄍ`` BOPOMOFO_FIRST = 11 #: 汉语拼音与俄语字母对照风格,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``чжун1 го2`` CYRILLIC = 12 #: 汉语拼音与俄语字母对照风格,仅首字母。如: 中国 -> ``ч г`` CYRILLIC_FIRST = 13
lazy_pinyin与pinyin源码解析
为什么 pinyin 的方法默认带声调,而 lazy_pinyin 方法不带声调,答案就是:它们二者使用的默认风格不同,我们看下它的函数定义就知道了:
pinyin 方法的定义如下:
def pinyin(hans, style=Style.TONE, heteronym=False, errors='default', strict=True)
lazy_pinyin 方法的定义如下:
def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True)
pinyin 方法默认使用了 TONE 的风格,而 lazy_pinyin 方法默认使用了 NORMAL 的风格,所以就导致二者返回风格不同了。
特殊符号处理
默认不处理特殊符号,例如:
from pypinyin import lazy_pinyin
print(lazy_pinyin('你好♥,我是xxx'))
输出: ['ni', 'hao', '♥,', 'wo', 'shi', 'xxx']
以看到结果中星号和英文字符都作为一个整体并原模原样返回了
error源码如下
def _handle_nopinyin_char(chars, errors='default'):
"""处理没有拼音的字符"""
if callable_check(errors):
return errors(chars)
if errors == 'default':
return chars
elif errors == 'ignore':
return None
elif errors == 'replace':
if len(chars) > 1:
return ''.join(text_type('%x' % ord(x)) for x in chars)
else:
return text_type('%x' % ord(chars))
比如我们想将不能转拼音的字符去掉,则可以这么设置:
from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆,我是xxx', errors='ignore'))
输出: ['ni', 'hao', 'wo', 'shi']
自定义处理,比如把 ☆ 转化为 ※ ,则可以这么设置:
from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆,我是xxx', errors=lambda item: ''.join(['※' if c == '☆' else c for c in item])))
# 输出: ['ni', 'hao', '※※,', 'wo', 'shi', 'xxx']
严格模式
strict 参数,这个参数用于控制处理声母和韵母时是否严格遵循 《汉语拼音方案》标准。
官文:
当 strict 为 False 时就是不遵守上面的规则来处理声母和韵母, 比如: y , w 会被当做声母,yu(迂) 的韵母就是一般认为的 u 等
自定义拼音
如果对库返回的结果不满意,我们还可以自定义自己的拼音库,这里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。
比如上文看到 “朝阳” 两个字的发音默认返回的是 zhao yang,我们想默认返回 chao yang,那可以这么做
from pypinyin import lazy_pinyin, load_phrases_dict
print(lazy_pinyin('朝阳'))
personalized_dict = {
'朝阳': [['cháo'], ['yáng']]
}
load_phrases_dict(personalized_dict)
print(lazy_pinyin('朝阳'))
# 输出:
['zhao', 'yang']
['chao', 'yang']
自定义样式
可以注册样式实现自定义,比如将某个拼音前面加上 Emoji 表情,样例:
from pypinyin.style import register
from pypinyin import lazy_pinyin
@register('kiss')
def kiss(pinyin, **kwargs):
if pinyin == 'me':
return f':kissing_heart:{pinyin}'
return pinyin
print(lazy_pinyin('么么哒', style='kiss'))
# 输出: [':kissing_heart:me', ':kissing_heart:me', 'dá']
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。