赞
踩
1. 文本分类,机器翻译
这项工作是比较繁重、重复性的工作,用机器来代替人做这项工作,对提升生产力是非常有帮助的。
比较困难的是 样本的准备(来源、准备、洗涤等)。
在未来五到十年,会有更多更好的NLP的落地项目会产生,前端的一些技术也会继续向前发展,在很多的领域都会有应用。
入坑建议:不仅是把论文读完就可以了,还可以对它进行复现,以及在各种各样的系统上,比如说单片机、linux系统把它实现。然后进行完整的工程化应用,把它变成产品。
2. 中文文本纠错方向
手写输入或者是键盘输入有一些文本的错误,中文文本纠错可以提升文本和材料的准确度,以及它的可信度。
比较困难的是 模型的通用性及其可转移性这方面。比如应用落地的时候,还是有一些不够成熟,比如说训练出来的算法或者模型,它在某一个比较狭窄的领域或者行业,它会有比较好的效果,但是只要文本有一个非常小的变化时,对它的纠错效果有一个比较大的影响。
针对算法,针对基础、模型、理论,这方面的研究的发展,这些方面的提升可能会整体的提升NLP领域的表现效果。它是带有很多行业属性、场景属性的,如果你的具体项目应用中的行业和场景,整个范围变狭窄了以后,NLP它能够发挥的效用是越来越大的。
入坑建议:要去找一些巨人的肩膀,然后在巨人的肩膀上再进一步,这样的方式会比较省力。
3. 商品卖点挖掘、找到一个商品最能打动用户的卖点是什么
吸引用户消费,促进国民经济发展,为国家GDP做贡献。
比较困难的是 机器学习的可解释性差和相关工作比较少。商品卖点的挖掘,实际上对应的是机器学习的可解释性问题,并且它通常也不是单个模型能够解决的,可供借鉴的经验比较少,又增加了它的难度。
奔着最终的人工智能迈进,最近的暴力美学,GPT3这样的模型,虽然没有媒体吹捧的这么厉害,但是似乎已经能够让我们感受到一丝丝希望。
入坑建议:不是对单个模型的理解,也不是多么会用github,一定要有业务导向,要更多的主动去思考,我的模型和方法能够为当前这个业务带来什么样的实际价值。多去关注业内的动态,尤其是从整体宏观上去把握变化中不变的东西。
4. 任务型对话系统
提高人们工作的效率,比如中国移动和联通的克服机器人和商场中的导购机器人。
比较困难的是由于隐私等原因,真实场景下的人人对话记录非常难获取,如何在数据比较少的情况下,训练一个比较好的学习模型,这个比较困难。
它会朝着强人工智能方向发展,做到真正的理解文本语义,而不是简单地字符串匹配。
入坑建议:打好基础,学好数学,多编程,及早的加入到项目中来。
5. 对弹幕文本进行语义分析,在此基础上,完成一些比较有意思的工作
希望通过这项工作让视频网站的用户有更好的交流体验,在剪视频、制作表情包等创作活动时能够快速从海量的视频素材中,找到自己想要的片段。
比较困难的是弹幕文本中出现了大量的网络俚语,在这种情况下,普通的语言模型对它的识别和理解都出现了比较大的偏差。
在市场上能看到的NLP应用比较少,但是在一些前沿的研究领域,它的潜力还是非常巨大的,比如说文章续写,多轮对话等等。这些研究可能在未来会让机器成为一个非常优秀的作家,贴心的伙伴。
入坑建议:瞄准一个比较具体的小问题,动手做起来,在这个过程中,我们可以把成熟的模型像搭积木一样,一点一点的组装成自己想要的方案,在实践中学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。