知新_RL

这个屌丝很懒，什么也没留下！

热门标签

机器学习 && 内容安全 && 海外风控公司_文本内容安全风险识别算法

作者：知新_RL | 2024-04-27 13:37:26

踩

文本内容安全风险识别算法

机器学习算法的使用

特征工程

特征工程本质上是从原始数据中选择特征供算法和模型使用的一项工程活动。
在这里插入图片描述

如何选择合适的特征？

在这里插入图片描述

什么是机器学习算法中的维度？
在机器学习中’描述单条数据采用的特征数量称为维度

当数据样本维度很多时，就需要对其进行降维。降维的方法就有很多了~

如何降维？

传统意义的降维方法主要有 经验直觉法和统计分析法。

常见的降维算法有 PCA系列、LDA 系列、LLE、拉普拉斯特征映射、MDS 等。

模型选择

在这里插入图片描述

决策树 && 随机森林 && K-Means模型 && 神经网络（CNN+RNN）

图计算

在这里插入图片描述

互联网反欺诈实战

注册登录场景

垃圾注册风险

登录场景风险

可以分为两类:正常用户的账号安全问题和黑产养号问题

第—类的风险为正常用户注册账号之后，某些互联网平台被黑产拖库、撞库或暴力破解导致账号密码泄露，以至于账号密码可以被黑产获得并登录平台，此时的异常登录行为又被称为“盗号”。
第二类养号问题则是黑产“做号—养号—卖号”的产业链中的关键环节。而登录行为就是养号过程中比较普遍，也是开始的—个步骤。登录后需要模拟正常用户进行一系列的操作，持续一周以上时间°账号养好后出售给下游产业链，这样的黑产就是所谓的“账号商人”。
以微信为例’微信号分为白号(新注册账号)、外国号(国外手机号注册)、站街号(能正常使用“附近的人”和“摇一摇”功能的账号)`瓶子号(能使用“漂流瓶’’的账号)、成品号(有2000个以上好友的账号)等，每种账号的价格不同。 为了将账号卖出—个理想的价格，黑产会通过工具模拟正常用户在平台上的各种行为，形成看似真实用户所使用的路径’以便于后续作案时不会轻易被封号。

在这里插入图片描述
看完这些，感觉我像是个假人~

在这里插入图片描述

“薅羊毛”风险识别

黑产团伙在平台购物的路径相对于正常人会更加简单直接，用户正常在电商平台上购物’路径多为“搜索入口/推荐入口-查看商品详情-重复以上路径对比多个商品-收藏/加购/直接购买,，而黑产团伙则在登录后即直接对优惠较大的商品下单。因此，我们可以观察到如下行为维度：

购买某个特惠商品的账户群体缺少交易外的其他平台活跃动作。
购买某个特惠商品的账户群体具有一定的黑产团伙特征。
购买某个特惠商品的账户群体在历史注册、登录数据上具有—定的黑产团伙特征。

其次就是收货地址的问题。主要表现为以下几种形式:

虚假相似收货地址。
与区域快递合作’地址中包含暗号。
地址中包含实际下单收货号码。

裂变拉新作弊风险识别

在这里插入图片描述

内容安全与台规

UGC 互联网术语，全称为User Generated Content，也就是用户生成内容，即用户原创内容。
PGC（全称：Professionally Generated Content），互联网术语。指专业生产内容（视频网站）、专业生产内容（微博）。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。

在这里插入图片描述

文本内容安全

文本内容安全主要涉及敏感词识别、情绪识别、语义识别等。为了达到文本审核的效果_般采用敏感词识别和基于NLP(NaturalLanguageProcessing’自然语言处理)的 AI模型(简称NLPAI模型)等多个子系统组合使用的方式。

敏感词

想想之前遇见过的一些规则就知道了。

必须面临的问题：

海量词库必须得要求快速匹配:—个生产系统可用的敏感词库，都不是一个简单的词表，—般包含广告、涉黄、谩骂、政治等多个大类’每个大类又包含多个行业小类’整体词库数量规模达数百万量级。（解决：使用 双数组前缀树DAT(Double-ArmyTTie)算法进行匹配）
变形词的匹配识别（解决：只能维护变形词表）
误杀控制（解决：（1）结合分词技术，控制误杀。（2）应当建立场景化敏感词库。同洋的词在不同的行业表示的含义各有不同,因此’不同行业对敏感词防控的尺度也就各有不同。）

大都有什么类型的词库？
高危通杀词库、中低危通杀词库、特殊时期词库、行业词库、客户定制词库和场景词库等

如何运营词库呐?

业务人员反馈
与法律法规和主管部门文件同步
新词发现系统
合作伙伴提供

NLP AI 模型

通过对大量标注资料进行学习，对文本进行精确分类，在垃圾邮件识别、文本正负面情绪识别、文本相似度识别等诸多领域均取得了较好的成果。同理，把NLP技术用在文本内容安全中’对灌水、广告、谩骂
等违规进行识别，也可以取得较好的效果。NLPAI模型的迭代更新需要经过收集样本\标注、训练、部署等多个流程有_定的时间周期，无法快速即时生效，在防控中有—定的滞后性。

图像内容安全

图像内容安全的问题可以归结为以下几大类：

图像分类：图像分类主要解决涉黄、暴恐、涉政等场景识别问题。尺度把握是图像分类最关键、最核心的环节。。例如，性器官裸露明显的色情识别并不难，但是对小尺度性感、大尺度性感、色情之间的细微区分标准就非常难以把握。同样，暴乱、合法游行和普通人群正常聚集的区分也存在非常难以区分的情况。
敏感人物识别：人脸识别即可
图像文字识别：STR(SceneTextRecognition)
特殊标识识别:特殊标识识别主要针对LOGO等，如某些反动团体的LOGO，某些恐怖组织的LOGO等。
其他细分类识别：其他细分类识别可能包括地图残缺识别、二堆码识别、条形码识别等特殊类型。

落地的内容安全系统架构

海外风控公司

Arkose Labs
Sift
Forter
ShapeSecurity
Okta

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/497000

机器学习 && 内容安全 && 海外风控公司_文本内容安全风险识别算法

文章目录

机器学习算法的使用

特征工程

如何选择合适的特征？

如何降维？

模型选择

决策树 && 随机森林 && K-Means模型 && 神经网络（CNN+RNN）

图计算

互联网反欺诈实战

注册登录场景

登录场景风险

“薅羊毛”风险识别

裂变拉新作弊风险识别

内容安全与台规

文本内容安全

敏感词

必须面临的问题：

NLP AI 模型

图像内容安全

海外风控公司