赞
踩
MSSqlserver批量数据数据导入时会出现乱码情况,经分析utf-8格式的中文,在导入过程中即使选择utf-8编码,中文识别错误;而gb2312格式的字符导入正常。
因此,需将大文本文件使用linux的iconv工具进行格式转换,转换为gb2312,MSSqlserver导入时用ascii格式,则导入正确。
另外,部分csv文件的列分隔可能出现歧义情况,导致列之间错位,可在导入前将各字段长度设置得长一些,如500,1000,以规避导入中因字符异常截断造成的导入停止。
附:iconv转换命令
通过iconv -l 命令查看,其支持的编码格式还不少,之间可以互相转换
转换gbk编码文件为utf-8编码文件
简洁命令:iconv -f gbk -t utf-8 index.html > aautf8.html
其中-f指的是原始文件编码,-t是输出编码 index.html 是原始文件 aautf8.html是输出结果文件
详细命令:iconv -c --verbose -f gbk -t utf-8 index.html -o index_utf8.html
-c 指的是从输出中忽略无效的字符, --verbose指的是打印进度信息 -o是输出文件
详细命令:iconv -c --verbose -f utf-8 -t gb2312 index_utf8.html -o index_gb2312.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。