当前位置:   article > 正文

分词使用 jieba 、IKAnalyzer_jieba java

jieba java

场景:表中因早起原因分别创建两套部门表。概述登录人为A/B不同类型,可选的部门范围不同。

但是后来发现B类人员可选A类中部门,故对于B来说 部门取并集

问题:相同名称或类似名称部门怎么办?1.重复2.类似的都要保留一个。然后修改原先数据

思路:1.先分词         2.然后比较看相似度/匹配度

直接代码:
注意:最后计算相似度的会报错,因为借用其他算法。后面可看 参数类型不同,不想改了,测试可自己改下

0.pom引用+settings配置[maven可直接下载]

  1. <!-- https://mvnrepository.com/artifact/com.huaban/jieba-analysis -->
  2. <dependency>
  3. <groupId>com.huaban</groupId>
  4. <artifactId>jieba-analysis</artifactId>
  5. <version>1.0.2</version>
  6. </dependency>
  7. <!-- https://mvnrepository.com/artifact/com.janeluo/ikanalyzer -->
  8. <dependency>
  9. <groupId>com.janeluo</groupId>
  10. <artifactId>ikanalyzer</artifactId>
  11. <version>2012_u6</version>
  12. </dependency>
  1. <mirror>
  2. <id>aliyunmaven</id>
  3. <mirrorOf>*</mirrorOf>
  4. <name>阿里云公共仓库</name>
  5. <url>https://maven.aliyun.com/repository/public</url>
  6. </mirror>

1.jieba 

  1. public class JieBaUtils {
  2. private static JiebaSegmenter segmenter = new JiebaSegmenter();
  3. /**
  4. * 单词 参考的他人例子
  5. **/
  6. public static List<String> getSignaleWord(String words) {
  7. //segmenter.process(text, JiebaSegmenter.SegMode.SEARCH) 两者效果一致
  8. List<String> resultList = segmenter.sentenceProcess(words);
  9. return resultList;
  10. }
  11. /**
  12. * 结巴分词 process(str,SegMode.INDEX)
  13. * @param text
  14. * @return
  15. */
  16. public static Vector<String> participleJieBa(String text) {
  17. List<SegToken> process = segmenter.process(text, JiebaSegmenter.SegMode.INDEX);
  18. List<String> collect = process.stream().map(item -> item.word).collect(Collectors.toList());
  19. return new Vector<>(collect);
  20. }
  21. public static void main(String[] args) {
  22. System.out.println(getSignaleWord("数学形态学的表面原子熔融相的STM图像识别算法"));
  23. System.out.println(participleJieBa("数学形态学的表面原子熔融相的STM图像识别算法"));
  24. //先分词为集合,然后集合中字段比较
  25. System.out.println(IKUtils.getSimilarity( participleJieBa("数学形态学的表面原子熔融相的STM图像识别算法") , getSignaleWord("数学形态学的表面原子熔融相的STM图像识别算法") ));
  26. }
  27. }

 2.IKAnalyzer

计算匹配度的代码

  1. public class IKUtils {
  2. public static double YUZHI = 0.2;
  3. /**
  4. * 返回百分比
  5. *
  6. * @param T1
  7. * @param T2
  8. * @return
  9. * @author: Administrator
  10. * @Date: 2015年1月22日
  11. */
  12. public static double getSimilarity(Vector<String> T1, Vector<String> T2) throws Exception {
  13. int size = 0, size2 = 0;
  14. if (T1 != null && (size = T1.size()) > 0 && T2 != null && (size2 = T2.size()) > 0) {
  15. Map<String, double[]> T = new HashMap<String, double[]>();
  16. //T1和T2的并集T
  17. String index = null;
  18. for (int i = 0; i < size; i++) {
  19. index = T1.get(i);
  20. if (index != null) {
  21. double[] c = T.get(index);
  22. c = new double[2];
  23. c[0] = 1; //T1的语义分数Ci
  24. c[1] = YUZHI;//T2的语义分数Ci
  25. T.put(index, c);
  26. }
  27. }
  28. for (int i = 0; i < size2; i++) {
  29. index = T2.get(i);
  30. if (index != null) {
  31. double[] c = T.get(index);
  32. if (c != null && c.length == 2) {
  33. c[1] = 1; //T2中也存在,T2的语义分数=1
  34. } else {
  35. c = new double[2];
  36. c[0] = YUZHI; //T1的语义分数Ci
  37. c[1] = 1; //T2的语义分数Ci
  38. T.put(index, c);
  39. }
  40. }
  41. }
  42. //开始计算,百分比
  43. Iterator<String> it = T.keySet().iterator();
  44. double s1 = 0, s2 = 0, Ssum = 0; //S1、S2
  45. while (it.hasNext()) {
  46. double[] c = T.get(it.next());
  47. Ssum += c[0] * c[1];
  48. s1 += c[0] * c[0];
  49. s2 += c[1] * c[1];
  50. }
  51. //百分比
  52. return Ssum / Math.sqrt(s1 * s2);
  53. } else {
  54. throw new Exception("传入参数有问题!");
  55. }
  56. }
  57. }

2.分词并测试

  1. package com.controller.util;
  2. import org.wltea.analyzer.core.IKSegmenter;
  3. import org.wltea.analyzer.core.Lexeme;
  4. import java.io.IOException;
  5. import java.io.StringReader;
  6. import java.util.Vector;
  7. public class CheckTheSame {
  8. //大同小异 分词
  9. public static Vector<String> participle(String str) {
  10. Vector<String> str1 = new Vector<String>();//对输入进行分词
  11. try {
  12. StringReader reader = new StringReader(str);
  13. IKSegmenter ik = new IKSegmenter(reader, false);//当为true时,分词器进行智能切分
  14. Lexeme lexeme = null;
  15. while ((lexeme = ik.next()) != null) {
  16. str1.add(lexeme.getLexemeText());
  17. }
  18. if (str1.size() == 0) {
  19. return null;
  20. }
  21. //分词后
  22. // System.out.println( "str分词后:" + str1 );
  23. } catch (IOException e1) {
  24. //System.out.println();
  25. }
  26. return str1;
  27. }
  28. /**
  29. * 返回比较的两个字符串的相似度
  30. *
  31. * @param strone
  32. * @param strtwo
  33. * @return
  34. */
  35. public String getSemblance(String strone, String strtwo) {
  36. String semblanceString = "0.0000";
  37. //分词
  38. Vector<String> strs1 = participle(strone);
  39. Vector<String> strs2 = participle(strtwo);
  40. //根据分词返回相似度
  41. double same = 0;
  42. try {
  43. same = IKUtils.getSimilarity(strs1, strs2);
  44. } catch (Exception e) {
  45. //System.out.println( e.getMessage() );
  46. }
  47. semblanceString = String.valueOf(same);
  48. //System.out.println( "相似度:" + same );
  49. return semblanceString;
  50. }
  51. public static void main(String[] args) {
  52. //分词
  53. Vector<String> strs1 = participle("蚂蚁金服");
  54. Vector<String> strs2 = participle("蚂蚁");
  55. //根据分词返回相似度
  56. double same = 0;
  57. try {
  58. same = IKUtils.getSimilarity(strs1, strs2);
  59. } catch (Exception e) {
  60. System.out.println(e.getMessage());
  61. }
  62. System.out.println("相似度:" + same);
  63. }
  64. }

感谢大家分享

参考如下:java分词器_11大Java开源中文分词器的使用方法和分词效果对比_好奇博士的博客-CSDN博客

 https://www.cnblogs.com/Demcia/p/5453906.html

结巴(jieba)分词 java 实现_可爱组长的博客-CSDN博客  

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/281545
推荐阅读
相关标签
  

闽ICP备14008679号