当前位置:   article > 正文

强烈推荐十大NLP主流经典项目:预训练BERT、知识图谱、智能问答、机器翻译、文本自动生成等...

自然语言处理有哪些经典项目

自然语言处理技术近几年发展非常快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中。

今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多,经常会被面试官揪着细节一步一步让你解释:“为什么这么做?效果如何?你如何调整模型,你思考的逻辑是什么?”

“说说自己在项目中具体负责的模块中用到的技术细节,遇到了什么问题?你使用的模型的损失函数、如何优化、怎么训练模型的、用的什么数据集?优化算法的选择做过哪些?为啥这么做?”

我们罗列了一些常见的大厂NLP项目深度考察问题:

  • BERT模型太大了,而且效果发现不那么好比如next sentence prediction, 怎么办?

  • 文本生成评估指标,BLUE的缺点

  • loss设计 triplet loss和交叉熵loss各自的优缺点,怎么选择

  • attention机制

  • ernie模型

  • 介绍一下flat及对于嵌套式语料的融合方式

  • 为什么使用lightGBM,比起xgboost的优点是什么

  • 样本不均衡问题的解决办法有哪些?具体项目中怎么做的?

  • 长文本的处理

  • 引入词向量的相似性对于结果有什么不好的影响

  • 如何引入知识图谱

  • 词向量中很稀疏和出现未登录词,如何处理

  • kmeans的k怎么选择

  • 新词发现怎么做

  • 模型选取、数据增强

  • 从数据标注的制定标准,到选取模型,再到改进模型、错误分析

  • NER数据中没有实体标注的句子过多解决方式

  • 同一句话两个一样字符串如何消岐

  • 模型好坏的评估,如何衡量模型的性能

  • 方面级情感分析的模型结构

  • 模型学习中,正负样本的训练方式不同有什么影响

  • 减轻特征工程的手段

你如果是一位面试候选人,上述问题你会“倒”在哪一关?

“实践出真知”,只有动手实践具体的项目,以解决问题为导向,在项目中理解技术本身,才能得到更深层次的理解。

你也许会在网络中找到很多资源和论文、但我们面临的问题并不是缺资源,而是找准资源并高效学习。很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。

为了给初学者创造项目实践的需求,我们向你推荐业界口碑俱佳的“NLP工程师培养计划”的《自然语言处理项目集训营》第22期

d93835c2a0c20cef69438dbfd259e5b9.png

实践项目介绍

8cef76570819ccb6ad596ad29ccf13ba.png

本课程以实⽤为原则,通过10个产业级应用项目,知识覆盖了预训练、词法分析、信息抽取等基础知识,情感分析、知识图谱与智能问答、机器翻译、对话、文本自动生成等NLP应⽤技术和系统,掌握产业实践中的模型部署等。

本课程将带你全面掌握自然语言处理技术,以期更好地帮助各位同学学以致用。通过完成一系列项目课题任务,也有可能成为一个创业项目或者帮助你完成一次重要的技术转型。

efae4e711f0a2602386417d617d9083b.png

0375004814388cf3e1c9aa4150379b4f.png

项目学习目标:

c77b2b1653914e1950915c8eac99171d.png

    以语种识别为任务,掌握NLP模型搭建的标准化流程与常用方法,结合机器学习模型完成对文本数据的识别与搭建任务,常应用于机器翻译,智能对话等场景中

64ab3f5e684cf0bd5e2e16e3d0bb9a90.png

项目学习重点:

2dc196b3d91e9684bfd5abf5d7f3d5c5.png

    Part1:特征工程

  • l  数据清洗、分词、数据降噪

    Part2:文本向量化

  • l  机器学习:TF-IDF/CounterVector

  • l  深度学习:Word2vec、Word Embedding、ELMo

    Part3:语种识别器建模

  • l  机器学习:朴素贝叶斯/SVM

  • l  深度学习:TextCNN/TextRNN

    Part4:语种识别器部署:使用Flask部署应用

fff1366e1bb48b8265065db404d95dd3.png

88e9f3a2351e68848712c66d5504667e.png

项目学习目标:

4ed97af74546c6f994e6e37c6a5a1b9f.png

使用机器学习和深度学习的多种模型实现文本分类;文本分类被广泛应用于新闻分类、文本审核、电商评论分析、舆情监控以及智能客服等场景中。

22a98e565bb6cd95d31ebf7188ef9eb1.png

项目学习重点:

f463a798a7fd2d65997d592cb75c2c15.png

Part1:NLP机器学习模型

  • l  Jieba中文分词处理

  • l  词频统计Wordcloud构建词云

  • l  TF-IDF/TextRank关键词提取

  • l  LDA主题模型建模

  • l  中文分类机器学习模型

    •  BOW/N-gram/TF-IDF/Word2vec文本表示

    •  Word Embedding/ELMo文本表示

    •  NB/LR/SVM等机器学习分类模型

Part2:海量数据的中文分类方法:

  • l  Spark:使用pyspark解决分类问题

Part3:NLP的深度学习模型方法:

  • l  TextRNN、TextCNN、FastText

  • l  TextBiRNN、TextRCNN、TextAttBiLSTM

  • l  深度学习文本分类HAN实战

  • l  Tensorflow深度学习文本分类模型部署

51058e2f17f6bcde023168c3a05f4509.png

可求职岗位:

a2f59a693902b1bd53a761aabb6a2687.png

NLP算法工程师、文本挖掘工程师

236faffa9530355eae083ee1d1b75301.png

《自然语言处理项目集训营》第22期

e6d6c9ba8bd42cffe2fa83dee3642475.png

 ☑ 智能客服  ☑ 知识图谱  ☑ 文本生成

 ☑ 文本分类  ☑ 情感分析  ☑ 金融法律

10大项目,助你成长为优秀的NLP工程师

对课程感兴趣的同学

请扫描二维码咨询

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/455582
推荐阅读
相关标签