当前位置:   article > 正文

科研学习 论文解读——面向电商内容安全风险管控的协同过滤推荐算法研究(1)_协同过滤推荐算法-1和1

协同过滤推荐算法-1和1

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上网络安全知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注网络安全)
img

正文

0引言

在人工智能时代,算法推荐正在成为人们获取信息的重要方式,是传统依赖搜索引擎获取信息方式的重要补充,引起了越来越多情报学者的关注,其中所蕴含的安全风险和信息伦理问题是情报学科关注的重要问题。在电商平台中,随着商品种类和数量不断增加,用户借助浏览或检索方式找到符合自身喜好商品的难度越来越大,算法推荐模式应运而生[1-3]。其中,协同过滤推荐算法(Collaborative filtering recommendation,CFR)因具有易于工程实现和推荐结果新颖度高等优势,在商品推荐中得到了广泛应用[4-6],亚马逊(Amazon)、易贝(eBay)、淘宝(Alibaba)、京东(JD)等电商平台相继运用CFR算法来提升产品销量[7]。

CFR算法包括基于模型的算法和基于近邻的算法。基于近邻的算法又可分为基于相似商品的推荐和基于相似用户的推荐两种。基于相似用户的CFR算法可通过分析目标用户的历史消费数据,构建个人兴趣偏好,并基于相似用户的历史消费商品向目标用户推荐可能符合其喜好的商品[8],能够减轻用户的选购负担,但同时也因为可以发现用户的潜在喜好而带来信息伦理风险。

随着推荐算法的运算对象由商品转向用户,其内在的价值属性逐渐显现。强调严守非歧视性、用户非物质性和个人选择不可剥夺性等原则的伦理审查成为推荐领域研究的热点[8-13]。不同于传统优化研究强调推荐算法性能(如Precision精度、Recall召回率等),伦理审查研究更关注算法优化中用户的知情权、选择权和注销权等权利,旨在杜绝算法优化中可能存在的伦理问题。然而,随着电商规模的扩大,平台对商家入驻的要求和对产品上线的审核流程大幅简化,使新增商品中混杂了一些具有安全风险的商品,如违禁物品、国家珍稀保护动物等。由算法推荐具有内容安全风险的商品,不但会给社会风气和平台形象造成恶劣影响,不利于营造安全放心的在线消费环境,而且进一步加剧了用户—商品评分矩阵的稀疏性,影响CFR算法的性能。与用户隐私泄露[14]、算法歧视[15]和过滤气泡[16]等算法伦理问题相比,目前针对内容安全风险管控的CFR算法优化研究存在的主要问题是:①相关研究仍处于起步阶段,多聚焦法律法规或相关政策制定,缺少切实可行的操作方案;②未对内容安全风险商品进行统一可靠的界定,表现形式、特点和分类等尚不清晰;③未建立内容安全风险商品识别的多模态特征库,无法有效发现违法和不良商品并采取相应处置。为此,本文拟针对商品内容安全风险管控前提下推荐算法的优化问题展开研究。[马1]

1 研究现状

面对日益攀升的算法伦理审查压力,2018年,美国纽约市政府颁布《算法问责法》[17],明确要求算法在向消费者提供与关键决策相关的信息时(如向消费者推荐商品等),应最大限度地降低提供此类信息可能带来的商业风险。时隔一年,加拿大政府颁布《自动化决策指令》[18],构建了一套涵盖公平性、透明性和合法性的系统评估框架,为评价包括推荐在内的自动化决策系统对民众或政府机关可能产生的风险提供了重要依据。此外,2020年欧盟颁布的《人工智能白皮书》[19]强调,除了算法(推荐算法等)本身的设计缺陷,数据可用性和质量问题同样是引发各类算法安全风险的重要原因。在我国,推荐算法的内容安全风险管控已被提升到一个全新的高度。如2022年3月1日起实行的《互联网信息服务算法推荐管理规定》[20]明确要求算法推荐服务提供者应当坚持主流价值导向,不得利用算法推荐服务传播法律、行政法规禁止的信息,并应当采取切实措施防范和抵制传播不良信息。值得注意的是,各大电商平台也在积极响应社会各界对于内容安全风险商品的管控要求。2012年,淘宝制定《禁售商品及信息名录》,明确禁止平台商家销售防狼喷雾、吹镖和狩猎弓等高杀伤性管制器具[21]。2017年,亚马逊(Amazon)德国站应德国民众要求,在其电商平台中全面禁售与纳粹有关的一切产品(带有纳粹标志的连帽衫、T恤等)[22]。2018年,淘宝发布《关于虚拟货币类商品规则解读变更公示通知》,明确虚拟货币的生成定义范围,加强对基于区块链技术生成的数字化产品衍生服务(比特币、莱特币等)的管控[23]。2019年,为进一步保护未成年人身心健康,京东将电子烟列入平台禁售商品,并通过先屏蔽再下架的方式陆续加强了平台对电子烟类商品(烟弹、电子烟油等)的管控力度[24]。2021年,易贝制定网站管理的长期政策,组建了一支遍布多个国家或地区的全球专家团队,以加强对平台内容安全风险商品的管控[25]。

面对日益迫切的推荐算法内容安全风险管控需要,研究人员也进行了一些探索性研究。代表性研究有: [马2] Shrestha等[26]指出商品推荐列表中可能含有许多意想不到或错误的结果,推荐服务提供者应基于具有潜在错误结果的代表性案例对推荐进行人工干预,以尽量减少其给平台声誉造成的损害或带来其他风险。李静辉[27]以算法推荐的意识型态风险治理为视角,强调电商平台应强化自身的伦理自律,时刻把好信息关,运用人工审核等方式加大内容安全审核力度,积极传播社会主流价值。梅帅[28]从智能算法推荐的技术特质入手,分析算法可能引发的社会风险,并提出了一套智能算法推荐风险法律规制的路径策略。此外,Abul-Fottouh等[29][z3] [马4] 还指出,算法在推荐有害内容时可能存在一种同质性效应(有害内容越多,其越可能被算法推荐),而对有害内容的“妖魔化”或对推荐算法的其他改变可能有利于降低其可见性。目前,相关研究多聚焦于理论探讨与政策研究,尚未见专门针对基于相似用户的CFR算法内容安全风险管控的实验研究;关于内容安全风险商品的表现形式、特点和分类的界定尚不清晰;尚未建立用于识别内容安全风险的多模态数据特征库,因而难以准确识别违法和不良商品。为此,设计一种可用的优化算法,用于降低基于相似用户的CFR算法内容安全风险。

2 研究方法

2.1 问题陈述

基于相似用户的CFR算法主要包括4个步骤(见图1):①基于历史消费数据构建用户—商品评分矩阵,行代表用户,列代表商品;②分别计算目标用户A与用户B、C和D之间的评分相似度,确定目标用户A的相似用户群(用户C和D);③构建目标用户A的相似度矩阵,并结合相似用户C和D的历史评分对A行缺失评分(如A行中的商品1和商品4)进行预测;④根据A行各商品评分值高低(降序排列),从n个商品中为用户生成长度为ll<<n)的商品推荐列表B(u)。当目标用户A再次打开该电商平台时在“猜你喜欢”模块将B(u)推荐给用户。

图****1 商品推荐中基于相似用户的CFR算法运算过程[l5] [马6]

Fig.1 The process of CFR algorithm based on similar users in product recommendation

如图1所示,用户—商品评分矩阵是CFR算法的数据基础,但是却蕴含着向用户推荐违反伦理审查规范商品的风险。为降低算法推荐内容安全风险,保证优化算法的效用和可操作性,需要考虑3个问题:①

用户—商品评分矩阵的构建方式无法判断哪些商品具有内容安全风险。如研究人员通常仅利用商品ID、用户ID和评分构建矩阵[13],但此种方式并不涉及商品内容(商品标题、商品展示图等);②用户—商品评分矩阵的处理方式无法避免内容安全风险商品参与CFR算法的运算。如研究人员通常采用奇异值分解[30]等算法降低评分矩阵维度,虽然能够较为有效地缓解数据稀疏对CFR算法的影响,但是,内容安全风险商品同其他商品一样参与整个降维过程,并不能降低其在整个评分矩阵中的占比;③从理论上讲,越早发现风险商品越有利于降低CFR算法的内容安全风险。如工业场景中一般在产品上线后(评分矩阵构建前),通过前端人工排查的方式对内容安全风险商品进行管控。但是,此种方法不仅应用难度较大(人力成本高和效率低),而且排查人员的管控尺度也存在一定差异[31]。

2.2研究步骤[马7]

本文以算法构建和实验检验为主,综合利用实地调研、政策文本内容分析等混合方法开展研究[32]。首先,利用实地调研 (3个月)、半结构化访谈 (4名电商平台在职员工)、网站调查 (7个主流电商平台) 和主题分析等方法,对电商平台中内容安全风险商品的定义、外在表现形式和特点进行界定;然后,构建用于识别内容安全风险商品的多模态特征库,并借助深度学习和多模态融合技术,提出一种面向内容安全风险管控的协同过滤推荐算法;最后,通过实验检验了本文优化思路和所提算法的有效性。

6 研究结论与讨论

6.1 研究结论

为了在商品推荐算法中有效管控电商内容安全风险,本文利用深度学习(VGGNet16, HTCBOW)和多模态后期融合技术,将内容安全风险问题纳入用户协同过滤推荐算法的优化过程,提出融合多模态特征的CSCFR算法,实验结果表明CSCFR算法在过滤内容安全风险商品方面的性能优于多个传统算法。鉴于该领域相关研究较少,本文首先通过实地调研、网站调查、访谈和实验等混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定;将内容安全风险商品划分为7个大类(色情低俗、暴恐、军警、政治反动、毒品、民族宗教和违法违规)和22个小类,并依据其风险水平进一步划分为8个严重风险子类和14个一般风险子类。在此基础上,利用图像增强和特征词提取等技术方法构建了一个可用于识别内容安全风险商品的特征库,用于训练面向电商内容安全风险管控的CSCFR算法。最后,通过设计和实施严格的对照实验,证明了CSCFR算法的有效性。

6.2 研究意义

1)理论价值。算法伦理是情报学研究领域的前沿问题,相关文献从信息质量、信息茧房、算法优化、信息安全等视角展开较多研究,但是现有与协同过滤推荐算法CFR优化有关的研究缺少对于内容安全风险管控这一重要信息伦理问题的考察。本文主要贡献:①通过定性与定量相结合的混合研究方法,对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了系统界定,为后续识别和处理内容安全风险商品划定了边界。②借助图像增强和特征提取等技术初步构建了一个用于识别内容安全风险商品的多模态特征库。研究人员可在此基础上结合具体应用场景进一步对其进行扩展和复用,为后续识别和处理内容安全风险商品奠定了基础。③提出一种侧重于应对内容安全风险的CSCFR算法,在降低算法内容安全风险的同时,也在一定程度上提升了算法性能,可为以后CFR算法优化研究提供参考。

2)现实意义。本文的成果可为希望改善CFR算法内容安全风险问题的政策制定者和电商推荐服务提供者提供参考,并具有向文献信息推荐、网络信息治理等其他领域迁移的潜力。推荐服务提供者在进行CFR算法的设计与应用时,应结合具体场景,平衡好算法内容安全风险、算法性能和数据稀疏性之间的关系,而不应一味追求算法性能,因为这可能导致更高的内容安全风险。为此,可以根据本研究给出的内容安全风险商品的定义、外在表现形式、特征和分类等,运用CSCFR算法,依次对评分矩阵进行内容安全风险商品的识别与剔除、用户聚类和商品推荐。

3)局限性和未来研究方向。①本文实验数据为定向爬虫在某知名电商平台采集的真实数据,虽然从中随机生成了3个实验数据集并进行3次重复实验,但考虑到电商平台的商品经营类目和目标用户群体等存在差异,本文的主要成果可能在其他电商平台上的实用性有限。因此,未来的研究可能会采集多个电商平台的真实数据,以验证成果的科学性和实用性。②本文用于识别内容安全风险商品的相关算法模型(VGGNet16, HTCBOW等)能够帮助服务推荐商在CFR算法内容安全风险问题上采取切实可行的应对措施,但仍存在优化空间。因此,未来的研究可能会将现有算法替换为性能更优的算法,如将VGGNet16替换为ResNet50,HTCBOW替换为Bert等,以进一步提升内容安全风险商品的识别效果。同时,本文所构建的多模态特征库可在实际使用过程中进行丰富与完善。如增加分类数、扩大数据量等,并可基于线上问卷或线下用户实验方式[45]不定期对算法推荐结果进行评价,及时对特征库和推荐算法进行调整。

参考文献

[1]    Esteban A, Zafra A, Romero C.Helping university students to choose elective courses by using a hybrid multi-criteria recommendation system with genetic optimization[J].Knowledge-Based Systems,2019,194:105385.

[2]    Huang Xiken, Lu Ruqian.An evolving network model with information filtering and mixed attachment mechanisms[J].Physica A: Statistical Mechanics and its Applications,2019,545:123421.

[3]    Tian  Yonghong, Zheng Bing, Wang Yanfang, Zhang Yue, Wu Qi.College library personalized recommendation system based on hybrid recommendation algorithm[J].Procedia CIRP,2019,83:490-494.

[4]    Li Jianjiang, Zhang Kai, Yang Xiaolei, Wei Peng, Wang Jie, Mitra K, Ranjian R.Category preferred canopy–K-means based collaborative filtering algorithm[J].Future Generation Computer Systems,2019,93:1046-1054.

[5]    Jakomin M, Bosnic Z, Curk T.Simultaneous incremental matrix factorization for streaming recommender systems[J].Expert Systems with Applications,2020,160:113685.

[6]    Billsus D, Pazzani M J. Learning collaborative information filters[A]. Proceedings of the Icml[C]. Wisconsin: AAAI-98, 1998:46-54.

[7]    Afoudi Y, Lazaar M, Al Achhab M. Hybrid recommendation system combined content-based filtering and collaborative prediction using artificial neural network[J].Simulation Modelling Practice and Theory,2021,113:102375.

[8]    王红霞, 陈健, 程艳芬.采用评论挖掘修正用户评分的改进协同过滤算法[J].浙江大学学报(工学版),2019,53(3):522-532.

[9]    Hammou B, Lahcen A, Mouline S. An effective distributed predictive model with Matrix factorization and random forest for Big Data recommendation systems[J].Expert Systems with Applications,2019,137:253-265.

[10] Li Kangkang, Zhou Xiuze, Lin Fan, Zeng Wenhua, Wang Beizhan, Alterovitz G.Sparse online collaborative filtering with dynamic regularization[J].Information Sciences,2019,505:535-548.

[11]  Zhao Yaodong, Cai Shimin, Tang Ming, Shang Minsheng.Coarse cluster enhancing collaborative recommendation for social network systems[J].Physica A: Statistical Mechanics and its Applications,2017,483:209-218.

[12] Feng Yong, Han Xiaolong, Fu Chenping, Wang Rongbing, Xu Hongyan.Commodity recommendation method integrating user trust and brand recognition[J].Journal of Computer Applications,2018,38(10):2886-2891.

[13] Zhang Xiaofeng, Liu Huijie, Chen Xiaoyun, Zhong Jingbin, Wang Di.A novel hybrid deep recommendation system to differentiate user’s preference and item’s attractiveness[J].Information Sciences,2020,519:306-316.

[14] Badsha S, Yi X, Khalil I, et al. Privacy preserving user-based recommender system[A]. Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS)[C]. IEEE, 2017:10174-1083.

[15]        Melchiorre A B, Rekabsaz N, Parada-Cabaleiro E, et al. Investigating gender fairness of recommendation algorithms in the music domain[J].Information Processing & Management,2021,58(5):102666.

[16] Symeonidis P, Coba L, Zanker M.Counteracting the filter bubble in recommender systems: novelty-aware matrix factorization[J].Intelligenza Artificiale,2019,13(1):37-47.

[17] Sattes S O T U.Algorithmic Accountability Act[EB/OL]. [2022-03-03].https://www.wyden.senate.gov/.

一、网安学习成长路线图

网安所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

二、网安视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

三、精品网安学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述

四、网络安全源码合集+工具包

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

五、网络安全面试题

最后就是大家最关心的网络安全面试题板块
在这里插入图片描述在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注网络安全)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注网络安全)
[外链图片转存中…(img-3kM0vbYz-1713260190272)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/481651
推荐阅读
相关标签
  

闽ICP备14008679号