当前位置:   article > 正文

IM敏感词算法原理和实现_im 系统如何做敏感消息过滤

im 系统如何做敏感消息过滤

IM敏感词算法原理和实现

很早之前就打算做这一块,刚好最近有时间研究一下。网上一般都能找到很多资料,这里简单说一下我的理解吧。

PS:手机号匹配使用正则表达式,不属于敏感词范畴,请注意。

为了屏蔽一些黄牛推销广告,类似QQ、微信、手机号、……等等,我们希望都能替换为*号。这里为了简单起见,以微信举例(并不是歧视),我们会遇到以下几种情况:

  • 中文
    • 简体字:微信
    • 繁体字:微信
    • 火星文(变形或者谐音):嶶信、威信
  • 中间带特殊符号
    • 半角特殊符号(ASCII以内) :*&! #@(){}[] 等等,如微 信,微&&信,微_信
    • 全角(ASCII以外):中文的标点符号,一些emotion表情等,如微——信,微
      声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/153871
推荐阅读
相关标签