搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
2023面试高手
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
随笔记录(面试题
2
armbian 安装libreoffice 转换word为PDF
3
Docker入门实践_docker入门到实践
4
基于Java Springboot-MySQL实现学生信息成绩管理系统(含源码+数据库+简易报告)_基于springboot的管理系统源码报告
5
Kafka最全讲解,通俗易懂
6
glsl算法绘图之形状(二)
7
java实现双向循环链表(循环双链表)_java双向循环链表
8
Do Not Go Gentle Into That Good Night
9
centos7下安装python-pip
10
Spark3 on Yarn分布式集群安装部署(YARN模式)_spark 3.3 安装-yarn模式
当前位置:
article
> 正文
UCAS - AI学院 - 自然语言处理专项课 - 第1讲 - 课程笔记_ucas-ai
作者:2023面试高手 | 2024-05-19 03:41:14
赞
踩
ucas-ai
UCAS-AI学院-自然语言处理专项课-第1讲-课程笔记
绪论
基本信息
问题的提出
基本概念
学科的产生与发展
研究内容
问题与挑战
基本方法与技术现状
绪论
基本信息
50学时,3学分
宗成庆、张家俊
作业:方法实践+技术报告(小组或单人)
问题的提出
人物、事件关系分析意义重大
大量复杂数据人工难以应对
让计算机自动或者半自动理解自然语言文本
自然语言处理
:让计算机实现海量语言文本的自动处理、挖掘河有效利用,满足不同用户的各种需求,实现个性化服务。
基本概念
语言学
(Linguistics):
对语言的科学研究
研究语言的本质、结构和发展规律的学科
语音
和
文字
是语言的两个
基本属性
计算语言学
(Computational Linguistics):
通过建立形式化的计算模型来分析、理解和生成自然语言的学科
交叉学科
比自然语言处理更侧重基础理论和方法的研究
考虑语言的建模、数学模型和方法的问题
区分
1/3:语言建模和计算
自然语言理解
(Natural Language Understanding):
研究模仿人类语言认知过程的自然语言处理方法和实现技术的学科
交叉学科(包含认知科学)
考虑语言的思维活动问题
“理解”的标准:判断计算机的智能?
表现(act)、反应(react)、相互作用(interact)
与有意识的个体(人)的比较如何?图灵实验
区分
2/3:语言认知
自然语言处理
(Natural Language Processing):
利用计算机技术对语言文本进行处理和加工的学科
对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成
区分
3/3:语言工程系统的实现
三者的统一理解:人类语言技术研究(Human Language Technology)
NLP -> CL -> NLU
语系:
屈折语
(fusional language):用词的形态变化表示语法关系(英语)
黏着语
(agglutinative language):词内有专门表示语法以以的附加成分,词根或词干与附加成分的结合不紧密(日语)
孤立语
(isolating language):形态变化少,语法关系靠次序和虚词表示(汉语)
中文信息处理
(Chinese Information Processing):针对中文的自然语言处理技术
学科的产生与发展
早期:理性主义,符号逻辑(规则、词典+算法)
中期:经验主义,统计学习(语料、特征+模型)
后期:连结主义,神经网络(语料+模型)
研究内容
机器翻译
实验一种语言到另一种语言的自动翻译
信息检索
情报检索,利用计算机系统从大量文档中找到符合用户需要的相关信息
自动文摘
将原文档主要内容或某方面的信息自动提取出来,形成摘要或缩写
问答系统
系统理解人提出䣌问题,利用自动推理,从知识资源中自动求解答案并作出相应的回答
可与语音技术结合,构成
人机对话系统
社区问答
信息过滤
自动识别和过滤那些满足特定条件的文档信息
信息抽取
从指定文档中或海量文本中抽取出用户感兴趣的信息
实体关系抽取
社会网络
文档分类
文档自动分类或信息分类
对大量文档按照一定分类标准(主题、内容)实现自动归类
情感分类
文字编辑和自动校对
对文字拼写、用词甚至语法、文档格式等继续宁自动检查、校对和编排
难度较大
语言教学
文字识别
语音识别
将输入语音信号自动转换成书面文字
文语转换,语音合成
将书面文本自动转换成对应的语音表征
说话人识别
根据部分言语烟棍确定或验证说话人的身份
问题与挑战
形态学
(Morphology)问题:词如何由有意义的基本单位——词素构成
屈折语的形态变化和单词的识别
汉语的分词问题
词素
(morpheme):词根、前缀、后缀、词尾
句法
(Syntax)问题:句子结构成分之间的相互关系和组成句子序列的规则
语义学
(Semantic)问题:如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义
语用学
(Pragmatic)问题:不同上下文中语句的应用以及上下文对语句理解产生的影响
语言结构中体现的语境
语义学未能涵盖的意义
大量歧义(ambiguity)困难:
词法
歧义:形态变化,汉语切分
词性
歧义
结构
歧义
语义
歧义
多音字
和
韵律
歧义:一字多音,韵律声调等变化
大量未知语言现象困难
新词、人名、地名、术语
新含义
新用法和新句型
挑战
普遍存在的不确定性
未知语言现象的不可预测性
始终面临的数据不充分性
知识表示的复杂性
机器翻译中映射单元的不对等性
人脑理解语言是一个复杂的思维过程
基本方法与技术现状
基本方法
理性主义方法:基于规则的方法
经验主义方法:数据驱动方法
链接主义方法:数据驱动,神经网络
理性主义
:通过对一些代表性语句或语言现象的研究得到对人的语言能力的认识,归纳语言使用的规律,以此分析、推断测试样本的预期效果
基于规则的分析方法建立符号处理系统
知识库+推理系统
理论基础:Chomsky的文法理论
规则方法
:对规范结构的内容效果好,但是对非规则内容难以处理
经验主义
:利用大量真实语言数据,结局人的帮助(标注和特征筛选),统计发现语言使用的规律及其可能性大小,以此为依据计算预测测试样本的可能结果
统计单元为离散事件
基于大规模真实数据建立计算模型
语料库+统计模型
理论技术:统计学、信息论、机器学习
贝叶斯公式
联结主义
:利用大规模真实语言数据构建模型,统计发现语言使用的规律及其可能性大小,以此为依据计算预测测试样本的可能结果
统计单元为连续的实数空间表示(向量)
基于大规模真实数据建立计算模型
语料库+神经网络+统计模型
理论基础:统计学、深度学习
向量化
表示,神经网络模型进行目标优化,RNN,注意力机制
数据驱动方法
:不需要深层次分析,甚至不需要基本知识,依赖于数据量;但是数据量也是一个很难的问题,对复杂句子、生僻词汇、指代和译文一致性等难以处理,处理过程缺乏解释性
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/2023面试高手/article/detail/591257
推荐阅读
article
安全
多方
计算基础_
安全
多方
计算
csdn
...
安全
多方
计算最早由图灵奖获得者姚期智提出。1982年,姚期智提出了著名的“百万富翁问题”,该问题实际上是
安全
多方
计算的一...
赞
踩
article
数仓采集项目【06电商系统
表
结构、
MySQL
安装、
Sqoop
安装及使用】_
mysql
商城
数据库
表
sk...
SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。S...
赞
踩
article
“
舱驾
融合
”技术
发展趋势
分析_
sa8795
...
智能汽车的产业链格局会随着整车架构的变化而变化,原先的产业格局属于垂直整合和横向分割,随着EE架构由分布式走向域集中式,...
赞
踩
article
什么
是
PMP
认证
?_
pmp
认证
是
什么
东西...
什么
是
PMP
认证
?
PMP
认证
是由美国项目管理学会(PMI)在全球范围内推出的针对项目经理的资格
认证
体系,通过该
认证
的...
赞
踩
article
组合
数
算法
的非
递归
实现
_
组合
不用
递归
...
问题描述前段时间有位新员工同事遇到了对象
组合
问题,使用
递归
的方式
实现
,在代码审阅的过程中发现,该方法在
实现
上存在业务逻辑...
赞
踩
article
Web
常见
漏洞
描述
及
修复
建议_
敏感
信息
明文传输
漏洞
修复
...
Web
常见
漏洞
描述
及
修复
建议(Description of common
Web
vulnerabilities and...
赞
踩
article
pyinstaller
打包
为.
exe
过程中的
问题
与解决方法_
python
文件
打包
成
exe
文件
运行报错...
pyinstaller
打包
为.
exe
过程的
问题
与解决方法_
python
文件
打包
成
exe
文件
运行报错
python
文件
打包
成...
赞
踩
article
EasyExcel3
list
<>
写入
excel
_easy
excel
不能
写入
list
?...
EasyExcel是一个基于Java的、快速、简洁、解决大文件内存溢出的Excel处理工具。它能让你在不用考虑性能、内存...
赞
踩
article
Java
使用
easyExcel
生成
excel
文件直接写入邮件附件并
发送
_easy
excel
生成分批成...
1.引入pom依赖
javax.mail[详细]
-->
赞
踩
article
AI
自然语言
处理
NLP
原理与
Python
实战:31.
NLP
中的
统计
学
习方法_nlp
统计
学
...
1.背景介绍
自然语言
处理
(
NLP
)是人工智能领域的一个重要分支,旨在让计算机理解、生成和
处理
人类语言。
统计
学
习方法是NL...
赞
踩
article
HTML
/
CSS
:
background
-
clip
与
background
-
origin
的
区别_b...
在
CSS
2中,背景图片定义
的
位置是相对于其包含元素
的
填充(padding)
的
外部界限
的
,所有
的
溢出都会扩展到边框之下。C...
赞
踩
article
两
年
前端
学习
感悟_
前端
面试
工作
这
2
年
你有什么收获和感受...
从今天开始,要开始维护我的个人博客,我是17
年
6月毕业的有了两
年
的
工作
经验积累了。是时候写点技术分享帖了。那么就先开始说...
赞
踩
article
GRASS
GIS7.6 配置FUTURES
模型
插件
r
.
futu
r
es
...
r
.
futu
r
es
是未来城市-区域环境模拟(FUTu
r
e city -
r
egional Envi
r
onment Si...
赞
踩
article
Bert
详解_
bert
训练
分
几步...
Bert
简介
Bert
:Pre-training of Deep Bidirectional Transformers f...
赞
踩
article
python
lxml
模块安装_
cssselect
does
not
seem
to be inst...
来源:http://www.cnblogs.com/zhuyp1015/archive/2012/07/17/25964...
赞
踩
article
android
系统
常用
解决问题
或学习
方法
...
工作中的日常总结
android
系统
常用
解决问题
或学习
方法
1 找到类似的功能,查找其路径,然...
赞
踩
article
流式计算之
kafka
Stream
...
一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据...
赞
踩
article
线性
回归
模型
分析学生
成绩
_
线性
回归
模型
预测数学
成绩
studentsperformance
...
数据,包含期中考试
成绩
为 80 分、小测
成绩
为 90 分的一位学生,并使用以上步骤训练出来的
模型
进行预测。方法将数据集划...
赞
踩
article
2024年全国
职业院校
技能大赛
中
职组大
数据
应用与服务赛项题库
参考答案
陆续更新
中
,
敬请期待
…_beha...
2024年全国
职业院校
技能大赛
中
职组大
数据
应用与服务赛项题库
参考答案
陆续更新
中
,
敬请期待
…武汉唯众智创科技有限公司202...
赞
踩
article
大
数据
Hadoop
之
——
Kafka
Streams
原理介绍与简单
应用
示例...
Kafka
Streams
是一套**客户端类库**,它建立在重要的**流处理**概念
之
上,它可以对存储在
Kafka
内的数...
赞
踩
相关标签
安全
网络安全
密码学
笔记
mysql
sqoop
数据库
芯片
大数据
dwr
编程语言
consul
项目管理
审查
教育
工作
算法
组合
BIM
递归
循环
python
深度学习
pytorch