赞
踩
特征工程本质上是从原始数据中选择特征供算法和模型使用的一项工程活动。
什么是机器学习算法中的维度 ?
在机器学习中’描述单条数据采用的特征数量称为维度
当数据样本维度很多时,就需要对其进行降维。降维的方法就有很多了~
传统意义的降维方法主要有 经验直觉法和统计分析法。
可以分为两类:
正常用户的账号安全问题
和黑产养号问题
第—类的风险为正常用户注册账号之后,某些互联网平台被黑产拖库、撞库或暴力破解导致账号密码泄露,以至于账号密码可以被黑产获得并登录平台,此时的异常登录行为又被称为“盗号”。
第二类养号问题则是黑产“做号—养号—卖号”的产业链中的关键环节。而登录行 为就是养号过程中比较普遍,也是开始的—个步骤。登录后需要模拟正常用户进行一系 列的操作,持续一周以上时间°账号养好后出售给下游产业链,这样的黑产就是所谓的“账号商人”。
以微信为例’微信号分为白号(新注册账号)、外国号(国外手机号注 册)、站街号(能正常使用“附近的人”和“摇一摇”功能的账号)`瓶子号(能使用“漂流瓶’’的账号)、成品号(有2000个以上好友的账号)等,每种账号的价格不同。 为了将账号卖出—个理想的价格,黑产会通过工具模拟正常用户在平台上的各种行为,形成看似真实用户所使用的路径’以便于后续作案时不会轻易被封号。
看完这些,感觉我像是个假人~
黑产团伙在平台购物的路径相对于正常人会更加简单直接,用户正常在电商平台上购物’路径多为“搜索入口/推荐入口-查看商品详情-重复以上路径对比多个商品-收藏/加购/直接购买,,而黑产团伙则在登录后即直接对优惠较大的商品下单。因此,我们可以观察到如下行为维度:
其次就是收货地址的问题。主要表现为以下几种形式:
文本内容安全主要涉及敏感词识别、情绪识别、语义识别等。为了达到文本审核的 效果_般采用敏感词识别和基于NLP(NaturalLanguageProcessing’自然语言处理)的 AI模型(简称NLPAI模型)等多个子系统组合使用的方式。
想想之前遇见过的一些规则就知道了。
大都有什么类型的词库?
高危通杀词库、中低危通杀词库、特殊时期词库、行业词库、客户定制词库和场景词库等
如何运营词库呐?
通过对大量标注资料进行学习,对文本进行精确分类,在垃圾邮件识别、文本正负面情绪识别、文本相似度识别等诸多领域均取得 了较好的成果。同理,把NLP技术用在文本内容安全中’对灌水、广告、谩骂
等违规进行识别,也可以取得较好的效果。NLPAI模型的迭代更新需要经过收集样本\标注、训练、部署等多个流程有_定的时间周期,无法快速即时生 效,在防控中有—定的滞后性。
图像内容安全的问题可以归结为以下几大类:
落地的内容安全系统架构
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。