当前位置:   article > 正文

通过区位码,获得汉字的拼音的首字母_chsnlk

chsnlk

GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个。

分区表示 
GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
1)01-09区为特殊符号
2)16-55区为一级汉字,按拼音排序。 
3)56-87区为二级汉字,按部首/笔画排序。
4)10-15区及88-94区则未有编码。

比如,“啊”字是GB2312之中的第一个汉字,它的区位码就是1601。

也就是说1601-1694,1701-1794...一直到5501-5594位一级汉字,5601-5694,6601-6694,...一直到8701-8794位二级汉字,也就可以通过这些编码范围判断是否为汉字字符




通过这些我们如何来获得一个汉字的拼音首字母呢?

此时,一级汉字和二级汉字分别需要用不同的方式来获得:

1、对于一级汉字,拼音首字母从A到Z是一个连续的分布区间,如下代码所示:


  1. //汉字区位码
  2. int li_SecPosValue[] = {1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594,
  3. 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858,
  4. 4027, 4086, 4390, 4558, 4684, 4925, 5249, 5590};
  5. //存放国标一级汉字不同读音的起始区位码对应读音
  6. char lc_FirstLetter[] = {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J',
  7. 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S',
  8. 'T', 'W', 'X', 'Y', 'Z'};

其中,1601-1637直接的汉字,拼音首字母即为A,以此范围,即可判断出一级汉字的拼音首字母出来。


2、对于二级汉字,其拼音首字母不再是这样的顺序分布,它需要通过一个偏移量来进行计算,代码如下:

偏移量 = (区码 - 56) * 94 + 位码 - 1;

通过此便宜量计算得到二级汉字的拼音首字母。



一个完整工具类代码:


  1. package com.test;
  2. import java.io.UnsupportedEncodingException;
  3. public class test {
  4. private final static int[] li_SecPosValue = { 1601, 1637, 1833, 2078, 2274,
  5. 2302, 2433, 2594, 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858,
  6. 4027, 4086, 4390, 4558, 4684, 4925, 5249, 5590 };
  7. // 存放国标一级汉字不同读音的起始区位码对应读音
  8. private final static String[] lc_FirstLetter = { "a", "b", "c", "d", "e",
  9. "f", "g", "h", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s",
  10. "t", "w", "x", "y", "z" };
  11. // 存放所有国标二级汉字读音
  12. static java.lang.String ls_SecondSecTable = "cjwgnspgcgne[z[btzzzdxzkzgt[jnnjqmbsgzsczjszz"
  13. + "[pgkbzgz[zwjkgkljzwkpjqhz[w[dzlsgmrzpzwwcckznkzzgttnjjnzkkzztcjnmczlqlzpzqfqrpzslwbtgkjfzxjwzltbncxjjjjtxdttsqzzcdxxhgck"
  14. + "[phffss[zbgxlppbzll[hlxs[zm[jhsojnghdzqzklgjhsgqzhxqgkezzwzscscjxzezxadzpmdssmzjzqjzzc[j"
  15. + "[wqjbzzpxgznzcpwhkxhqkmwfbpbzdtjzzkqhzlzgxfptzjzzzpszlfchmqshgmxxsxj["
  16. + "[dcsbbqbefsjzhxwgzkpzlqbgldlcctnmazddkssngzcsgxlzzazbnptsdkdzlhgzmzlcxpz"
  17. + "[jndqjwxqxfzzfjlejpzrxccqwqqsbnkzmgplbmjrqcflnzmzqmsqzrbcjthztqfrxqhxmjjcjlxqgjmshzkbswzemzltxfszdswlzcjqxsjnqbsctzhbftdczzdjwz"
  18. + "ghqfrxwckqkxebptlpxjzsrmebwhjlbjslzzsmdxlclqkxlhxjrzjmfqhxhwzwsbhtrxxglhqhfnm[zkldzxzpzlgg[mtcfpajjzzljtzanjgbjplqgdzzqz"
  19. + "axbkzsecjsznslzzhsxlzcghpxzhznztdsbcjkdlzazfmzdlebbgqzzkxgldndnzskjshdlzxbcghxzpkdjmmzngmmclgwzszxzjfznmlzzthcszdbdllscdd"
  20. + "nlkjzkjszcjlkwhqasdknhcsganhdaashtcplcpqzbsdmpjlpzjoqlcdhjjzsprchn[nnlhlzzqzhwzptczgwwmzffjqqqqzxaclbhkdjxdgmmzdjxzllszgx"
  21. + "gkjrzwzwzclzmssjzldbzd[fcxzhlxchzzjq[[qagmnzxpfrkssbjlzxzszglnscmhzwwmnzjjlxxhchsz[[ttxrzczxbzhcsmxjsznpwgpxxtazbgajcxlz"
  22. + "[dccwzocwkccsbnhcpdzznfczztzckxkzbsqkkztqqxfcwchczkelzqbsqzjqcclmthszwhmktlkjlzcxwheqqhtqh[pq"
  23. + "[qscfzmndmgbwhwlgsllzsdlmlxpthmjhwljzzhzjxhtxjlhxrswlwzjcbxmhzqxsdzpmgfcsglsxzmjshxpjxwmzqksmzplrthbxftpmhzxlchlhlzz"
  24. + "lxgsssstclsldclrpbhzhxzzfhb[gdmzcnqqwlqhjj[zwjzzejjdhpblqxtqkwhlchqxagtlxljxmsl[htzkzjecxjcjnmfbz[sfzwzbjzgnzsdzsqzrslj"
  25. + "pclpwxsdwejbjcbcnaztwgmpapclzqpclzxsbnmsggfnzjjbzsfzzndxhplqkzczwalsbccjx[zzgwkzpsgxfzfcdkhjgxdlqfsgdslqwzkxtmhsbgzmjzrglzj"
  26. + "bpmlmsxlzjqqhzzjczzdjwbmzklddpmjegxzhzlxhlqzqhkzcwcjmzzxnatjhzccxzpcqlbzwwztwbqcmlpmzrjcccxfpznzzljplxxzztzlgdldcklzrzzgqtg"
  27. + "jhhgjljaxfgfjzslcfdqzlclgjdjcsnzlljpjqdcclcjxmzzftsxgcgsbrzxjqqctzhgzqtjqqlzxjzlzlbczamcstzlpdjbzregklzzzhlzszqlznwczcllwjq"
  28. + "jjjkdgjzolbbzppglghtgzxzghzmzcnqszczhbhgxkamtxzxnbskzzzgjzlqjdfcjxdzgjqjjpmgwgjjjpkqsbgbmmcjssclpqpdxcdzzkz[cjddzzgzwrhjrtgz"
  29. + "nzqldkljszzgzqzjgdzkshpzmtlcpwnjafzzdjcnmwesczglbtzcgmssllzxqsxsbsjsbbsgghfjlzpmzjnlzzwdqshzxtzzwhmzzhzwdbxbtlmszzzfsxjc[dxx"
  30. + "lhjhf[sxzqhfzmzcztqcxzxrttdjhnnzzqqmnqdmmg[zdxmjgdhcdzzbffallztdltfxmxqzdngwqdbdczjdxbzgsqqddjcmbkzffxmkdmdszzszcmljdsznsbrs"
  31. + "kmkmpcklgdbqtfzswtfgglzplljzhgj[gzpzltcsmcnbtjbqfkthbzzgkpbbzmtdssxtbnpdklezcjnzddzkzddhqhsdzsctarlltkzlgecllkjlqjaqnbdkkghp"
  32. + "jtzqksecshalqfmmgjnlzjbbtmlzzxdcjpldlpcqdhzzcbzsczbzmsljflkrzjsnfrgjhxpdhzjzbzgdlqcsezgxlblgzxtwmabchecmwzjzzlljjzhlg[djlslz"
  33. + "gkdzpzxjzzzlwcxszfgwzzdlzhcljscmbjhblzzlzcblzdpdqzsxqzbztdkzxjz[cnrjmpdjgklcljbctbjddbblblczqrppxjcjlzcshltoljnmdddlngkaqhqh"
  34. + "jgzkheznmshrp[qqjchgmfprxhjgdzchghlzrzqlczqjnzsqtkqjzmszswlcfqqqxzfggzptqwlmcrnfkkfszzlqbmqammmzxctpshcptxxzzsmphpshmclmldqf"
  35. + "zqxszzzdzjzzhqpdszglstjbckbxzqzjsgpsxqzqzrqtbdkzxzkhhgflbcsmdldgdzdblzzzcxnncszbzbfglzzxswmsccmqnjqsbdqsjtxxmbltxzclzshzcxrq"
  36. + "jgjzlxzfjphzmzqqzdfqjjlzznzjcdgzzgctxmzzsctlkphtxhtlbjxjlxscdqxcbbtjfqzfsltjbtkqbxxjjljchczdbzjdczjdcprnpqcjpfczlclzxzdmxmph"
  37. + "jsgzgszzqlzlwtjpfszasmcjbtzkzcwmztcsjjljcqlwzmalbxzfbpnlsfhtgjwejjxxglljstgshjqlzfkcgnnnszfdeqfhbsaqtgzlbxmmzgszldzdqmjjrgbj"
  38. + "tkgdhgkblqkbdmbzlxwcxzttzbkmrtjzxqjbhlmhmjjzmqasldczxzqdlqcafzwzxqhz";
  39. /**
  40. * 取得给定汉字串的首字母串,即声母串
  41. *
  42. * @param str
  43. * 给定汉字串
  44. * @return 声母串
  45. */
  46. public static String getAllFirstLetter(String str) {
  47. if (str == null || str.trim().length() == 0) {
  48. return "";
  49. }
  50. String _str = "";
  51. for (int i = 0; i < str.length(); i++) {
  52. _str = _str + getFirstLetter(str.substring(i, i + 1));
  53. }
  54. return _str;
  55. }
  56. /**
  57. * 取得给定汉字的首字母,即声母
  58. *
  59. * @param chinese
  60. * 给定的汉字
  61. * @return 给定汉字的声母
  62. */
  63. public static String getFirstLetter(String chinese) {
  64. if (chinese == null || chinese.trim().length() == 0) {
  65. return "";
  66. }
  67. // 二级字库偏移量
  68. int ioffset = 0;
  69. chinese = conversionStr(chinese, "GB2312", "ISO8859-1");
  70. if (chinese.length() > 1) // 判断是不是汉字
  71. {
  72. int li_SectorCode = (int) chinese.charAt(0); // 汉字区码
  73. int li_PositionCode = (int) chinese.charAt(1); // 汉字位码
  74. li_SectorCode = li_SectorCode - 160;
  75. li_PositionCode = li_PositionCode - 160;
  76. int li_SecPosCode = li_SectorCode * 100 + li_PositionCode; // 汉字区位码
  77. // 汉字编码范围在1601-1694,1701-1794,....一直到8701-8794范围以内
  78. if (li_SecPosCode > 1600 && li_SecPosCode < 5590
  79. && li_SecPosCode % 100 < 95) {
  80. for (int i = 0; i < 23; i++) {
  81. if (li_SecPosCode >= li_SecPosValue[i]
  82. && li_SecPosCode < li_SecPosValue[i + 1]) {
  83. chinese = lc_FirstLetter[i];
  84. break;
  85. }
  86. }
  87. } else if (li_SecPosCode > 5590 && li_SecPosCode < 8795
  88. && li_SecPosCode % 100 < 95) {
  89. ioffset = (li_SectorCode - 56) * 94 + li_PositionCode - 1;
  90. if (ioffset >= 0 && ioffset <= 3007) {
  91. chinese = ls_SecondSecTable.substring(ioffset, ioffset + 1);
  92. }
  93. } else {
  94. chinese = conversionStr(chinese, "ISO8859-1", "GB2312");
  95. chinese = chinese.substring(0, 1);
  96. }
  97. }
  98. return chinese;
  99. }
  100. /**
  101. * 字符串编码转换
  102. *
  103. * @param str
  104. * 要转换编码的字符串
  105. * @param charsetName
  106. * 原来的编码
  107. * @param toCharsetName
  108. * 转换后的编码
  109. * @return 经过编码转换后的字符串
  110. */
  111. private static String conversionStr(String str, String charsetName,
  112. String toCharsetName) {
  113. try {
  114. str = new String(str.getBytes(charsetName), toCharsetName);
  115. } catch (UnsupportedEncodingException ex) {
  116. ex.printStackTrace();
  117. }
  118. return str;
  119. }
  120. public static void main(String[] args) {
  121. System.out.println(getAllFirstLetter("陈冠希"));
  122. }
  123. }

运行结果就能得到:cgx


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/186595
推荐阅读
相关标签
  

闽ICP备14008679号