赞
踩
1.问题描述
在文本数据处理时,经常回出现文本中各种语言的混杂情况,包括:英文、日语、俄语、法语等,需要将不同语种的语言批量翻译成中文进行处理。可以通过Python直接调用百度提供的翻译API进行批量的翻译。
百度翻译API详细文档见:百度翻译API文档
2.问题解决
开发环境:Linux
将文本中的中文和非中文进行分离,对非中文的部分进行翻译。
Python的代码如下:translate.py
#!/usr/bin/python
#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf8")
import json #导入json模块
import urllib #导入urllib模块
from urllib2 import Request, urlopen, URLError, HTTPError #导入urllib2模块
def translate(inputFile, outputFile):
fin = open(inputFile, 'r') #以读的方式打开输入文件
fout = open(outputFile, 'w') #以写的方式代开输出文件
for eachLine in fin: #按行读入文件
line = eachLine.strip() #去除每行首尾可能的空格等
quoteStr = urllib.quote(line) #将读入的每行内容转换成特定的格式进行翻译
url = 'http://openap
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。