赞
踩
自然语言处理技术近几年发展非常快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中。
今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多,经常会被面试官揪着细节一步一步让你解释:“为什么这么做?效果如何?你如何调整模型,你思考的逻辑是什么?”
“说说自己在项目中具体负责的模块中用到的技术细节,遇到了什么问题?你使用的模型的损失函数、如何优化、怎么训练模型的、用的什么数据集?优化算法的选择做过哪些?为啥这么做?”
我们罗列了一些常见的大厂NLP项目深度考察问题:
BERT模型太大了,而且效果发现不那么好比如next sentence prediction, 怎么办?
文本生成评估指标,BLUE的缺点
loss设计 triplet loss和交叉熵loss各自的优缺点,怎么选择
attention机制
ernie模型
介绍一下flat及对于嵌套式语料的融合方式
为什么使用lightGBM,比起xgboost的优点是什么
样本不均衡问题的解决办法有哪些?具体项目中怎么做的?
长文本的处理
引入词向量的相似性对于结果有什么不好的影响
如何引入知识图谱
词向量中很稀疏和出现未登录词,如何处理
kmeans的k怎么选择
新词发现怎么做
模型选取、数据增强
从数据标注的制定标准,到选取模型,再到改进模型、错误分析
NER数据中没有实体标注的句子过多解决方式
同一句话两个一样字符串如何消岐
模型好坏的评估,如何衡量模型的性能
方面级情感分析的模型结构
模型学习中,正负样本的训练方式不同有什么影响
减轻特征工程的手段
你如果是一位面试候选人,上述问题你会“倒”在哪一关?
“实践出真知”,只有动手实践具体的项目,以解决问题为导向,在项目中理解技术本身,才能得到更深层次的理解。
你也许会在网络中找到很多资源和论文、但我们面临的问题并不是缺资源,而是找准资源并高效学习。很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。
为了给初学者创造项目实践的需求,我们向你推荐业界口碑俱佳的“NLP工程师培养计划”的《自然语言处理项目集训营》第22期。
实践项目介绍
本课程以实⽤为原则,通过10个产业级应用项目,知识覆盖了预训练、词法分析、信息抽取等基础知识,情感分析、知识图谱与智能问答、机器翻译、对话、文本自动生成等NLP应⽤技术和系统,掌握产业实践中的模型部署等。
本课程将带你全面掌握自然语言处理技术,以期更好地帮助各位同学学以致用。通过完成一系列项目课题任务,也有可能成为一个创业项目或者帮助你完成一次重要的技术转型。
项目学习目标:
以语种识别为任务,掌握NLP模型搭建的标准化流程与常用方法,结合机器学习模型完成对文本数据的识别与搭建任务,常应用于机器翻译,智能对话等场景中
项目学习重点:
Part1:特征工程
l 数据清洗、分词、数据降噪
Part2:文本向量化
l 机器学习:TF-IDF/CounterVector
l 深度学习:Word2vec、Word Embedding、ELMo
Part3:语种识别器建模
l 机器学习:朴素贝叶斯/SVM
l 深度学习:TextCNN/TextRNN
Part4:语种识别器部署:使用Flask部署应用
项目学习目标:
使用机器学习和深度学习的多种模型实现文本分类;文本分类被广泛应用于新闻分类、文本审核、电商评论分析、舆情监控以及智能客服等场景中。
项目学习重点:
Part1:NLP机器学习模型
l Jieba中文分词处理
l 词频统计Wordcloud构建词云
l TF-IDF/TextRank关键词提取
l LDA主题模型建模
l 中文分类机器学习模型
BOW/N-gram/TF-IDF/Word2vec文本表示
Word Embedding/ELMo文本表示
NB/LR/SVM等机器学习分类模型
Part2:海量数据的中文分类方法:
l Spark:使用pyspark解决分类问题
Part3:NLP的深度学习模型方法:
l TextRNN、TextCNN、FastText
l TextBiRNN、TextRCNN、TextAttBiLSTM
l 深度学习文本分类HAN实战
l Tensorflow深度学习文本分类模型部署
可求职岗位:
NLP算法工程师、文本挖掘工程师
《自然语言处理项目集训营》第22期
☑ 智能客服 ☑ 知识图谱 ☑ 文本生成
☑ 文本分类 ☑ 情感分析 ☑ 金融法律
10大项目,助你成长为优秀的NLP工程师
对课程感兴趣的同学
请扫描二维码咨询
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。