搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
为什么Web3.0还处于初级阶段
2
C语言字符数组_c语言定义字符数组
3
2020年黑龙江计算机等级考试,2020年黑龙江计算机等级考试什么时候报名
4
OSI七层模型、数据封装与解封装过程、TCP三次握手、四次挥手
5
数据结构 -- 双向链表
6
springcloud 微服务 之 Eureka 配置_eureka配置3份yml怎么分别启动
7
git里commit的时候-m描述写错了,怎么修改描述_git里commit的时候-m描述写错了,想指定某个进行修改描述
8
flink运行原理_Flink架构和执行原理
9
用python写一个自动化部署工具
10
海量数据处理——布隆过滤器_布隆过滤器内存估算
当前位置:
article
> 正文
自然语言处理 NO.1_自然语言处理csdn
作者:我家小花儿 | 2024-05-19 03:18:15
赞
踩
自然语言处理csdn
第一章 绪论
1.1 自然语言处理的概念
自然语言处理主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的核心分支。
1.2 自然语言处理的难点
1.2.1 抽象性
符号—>具体事物
1.2.2 组合性
组成形式过多,总数庞大
1.2.3 歧义性
一词多义
句子形式不同,但语义相同
1.2.4 进化性
新词诞生(新冠)
旧词翻新
1.2.5 非规范性
错别字
简写
同音转换
1.2.6 主观性
标准不统一
1.2.7 知识性
背景(生活常识),推理
1.2.8 难移植性
领域众多,差异较大
1.3 任务体系
1.3.1 层级
1.3.2 任务类别
回归
文本—>连续数值(作文评分)
分类(文本分类)
匹配(文本关系)
文本相似度检测(查重)
解析
文本标注
生成
根据输入要求,输出自然语言
1.3.3 研究对象
1.4 发展历史
统计学习——>深度学习——>模型预训练
第二章 自然语言处理基础
2.1 文本的表示
2.1.1 独热表示(独热编码)
概念:用一个词表大小的向量表示一个词,将词表中第i个词表示为向量,其中,第i个词的第i个数为1,其他位为0
缺点:1.语义相似,但是经过数学计算后,结果完全不同。2.数据稀疏:同义词众多,数据不完全。3.基于第二点,数据挖掘费时费力。
2.1.2 分布式表示
2.1.2.1 分布式语义假设
根据上下文, 对词表示(计算词出现频次)
缺点:因为高频共现,将原本无关联的词产生关联;只能分析直接关系,无法反应高阶关系;数据稀疏问题仍在
2.1.2.2 点互信息(针对上述缺点之一的高频误判问题)
点互信息:对词和上下文进行整体计算,得出PMI值。
公式中,P(w,c)、P(w)、P(c)分别是w和c的共现频率,以及w和c分别出现的概率。
PMI并不一直处于稳定,常用PPMI的形式。PPMI(w,c) =max(PMI(w,c),0)。
最大似然估计(MLE),可以计算上述概率值。
2.1.2.3 奇异值分解(针对上述缺点之一的无法反映高阶关系问题)
截断奇异值分解(对矩阵M的低秩近似): 在∑中仅保留d个(d<c)最大的奇异值(U和V也只保留相应的维度)。
2.1.2.4 分布式缺点
共现矩阵规模大时,奇异值分解速度很慢。
如果想要增加语料库的内容,需要重新进行分解,代价很大。
分布式无法有效表示长句(可以使用词袋)。
分布式一旦完成,无法修改。
2.1.3 词嵌入表示
共同点:连续,低维,稠密(和词的分布式特点类似)
不同点:赋值方式(向量值自行调整,可修改)
潜在语义索引:将文本与文档进行相似度判断,也是使用截断奇异值分解进行降维。
潜在语义分析:通过截断奇异值分解所得到的矩阵U的每一行就是对应词的d维向量表示,该向量一般具有连续、低维和稠密的性质。
2.1.4 词袋表示
词袋:无顺序的词的集合,将词用向量表示。
缺点:忽略词的顺序,产生误差;无法融入上下文
2.2 自然语言处理任务
2.2.1 语言模型(N元语言模型和神经网络语言模型)
2.2.1.1 N元语言模型
语言模型基本任务:基于之前出现的词,预测下一个出现的词。结合基本任务,将基本任务放大,便可以预测一句话的出现。利用条件概率进行计算,但是为了防止下一个词的出现概率几乎为0时,提出假设。
马尔可夫假设:下一个词出现的概率只取决于它前面的n-1个词(不在选取前面所有词作为依据,降低概率为0的可能性)
N元文法(N元语法):满足马尔科夫假设。
2.2.1.2 平滑算法(折扣法)
加1平滑(拉普拉斯平滑):假设所有N元语法的频次比实际多一次。
加δ平滑(多δ次,0<=δ<=1):更自然,防止对低频词或零频次的事件过高估计。
2.2.1.3 语言模型性能评价
利用困惑度(PPL)来评价。
通过训练集和测试集计算PPL(若PPL越小,语言模型更有效)。
缺点:切分歧义问题(倾向于切分出长词);词定义不统一;词典无法收录全部词语。
2.2.2 基础任务
2.2.2.1 中文分词
词:最小的能独立使用的音义结合体,能够独立运用并能够表达语义或语用内容的最基本单位。
中文分词最简单的分词算法:正向最大匹配(FMM)分词算法。
sentence为待分词的句子;lexicon为词典(所有单词的集合);max_len为词典中最长单词长度。
将单词依次进行切分,对每一个单词都进行一次子词词表检索,当子词是单词的子串是,对单词进行切分,若单词还有子串没被切分,对这些子串进行标记(用<UNK>替换)。
2.2.2.2 子词切分(字节对编码算法,BPE)
针对问题:印欧语系(英语)切分困难,因其单词形式变化莫测,无法通过简单的规则进行切分,反倒会产生其他困难。
基本原理:使用尽量长且频次高的子词对单词进行切分。
BPE通过算法2.1构造子词词表。(为切分提供依据)
2.2.2.3 词性标注
对句子中的每一部分标注词性。
难点:根据上下文,同一个词的词性可能不同。
2.2.2.4 句法分析
分析句子成分,标注主谓宾定状补成分。
将词序列表示的句子转换成树状结构,助于理解含义,方便下游自然语言处理任务。
2.2.2.5 语义分析(通过离散的符号和结构表明语义)
词义消歧:根据词语出现的不同上下文,确定词语的具体含义。
语义角色标注:先识别谓语,为谓语确定所表达的意思,再识别其他语言成分,最后针对意思输出句子语义。
语义依存分析:利用图来对语义进行阐释。(语义依存图或概念语义图)
2.2.3 应用任务
2.2.3.1 信息抽取(从非结构化文本中提取结构化信息)
命名实体识别(搜索并提取文章中出现的被寻找词语,注明类型),实体链接(将文本实体与知识库中的具体实体相对应)
注:实体链接与词义消歧类似,但二者的最终目标和对象并不同。实体链接的对象是自然语言文本中表示实体的词语;词义消歧的对象是一个多义词在特定上下文中的正确意义。实体链接的目标是将词语实体与知识库链接,比如将词语和百度的解释相对应;词义消歧的目标是确定一个多义词在文本中的精确意思。
事件抽取(与语义角色标注任务类似):根据触发词提取关键信息,尤其是时间(时间表达式:提取的时间文本;时间表达归一化:将时间精确到特定时间)等信息。
2.2.3.2 情感分析
情感分类:对情感类型和程度进行识别。
情感信息抽取:抽取文本中有关表达情感的词汇、对象和对应关系。
2.2.3.3 问答系统
检索式问答系统(百度知道、Google);知识库问答系统(Wolfram Alpha、Freebase);常问问题集问答系统(企业客服、政府网站自动回复);阅读理解式问答系统(chatGPT)。
2.2.3.4 机器翻译
利用计算机,实现从源语言到目标语言的转变。
研究方法:(基于规则、语料库的方法)——>(基于深度学习,利用深度神经网络学习隐规则)
2.2.3.5 对话系统
自然语言为载体,用户与计算机进行交互,达到目的的智能系统。
开放域对话系统:社交为目的的系统。
任务型对话系统:具有明确任务,例如告知天气情况,车票查询。
自然语言理解:分析语义。
对话管理:对当前对话进行跟踪,判断用户现在的状态和预测即将想做的事情,并提前准备。
自然语言生成:语言生成,语音合成。
缺点:依据上述过程,发现对每一个单词进行切分时,都要重新检索子词词表,非常耗时。
2.3 基本问题
2.3.1 文本分类
过程:输入文本,输出文本所属的类别。
技术:利用文本表示技术,将文本转化为特征向量,再将特征向量与类别进行匹配,得出具体类别。
周边问题:文本匹配、复述、蕴含,都是先对文本进行分类处理,再进行匹配、相似性判断、包含关系判断等操作。
2.3.2 结构预测
2.3.2.1 序列标注
将输入文本序列中的每个词标注相应标签(与词性标注相同)
条件随机场模型,能够更好的利用上下文,计算每一个词属于某一标签的概率,并计算每一个标签之间的相互关系。
2.3.2.2 序列分割
将文本序列中的子序列切出,完成其他操作。
2.3.2.3 图结构生成
将图标代替自然语言,表达相同含义。
基于图的算法:通过赋值给图中两点之间的线段,来完成算法最后的结果。
基于转移的算法:将图结构的创建过程转化为一个状态转移序列(从旧转移到新)。
三种转移动作
移进,SH:将队列中的第一个元素移入栈顶,形成一个仅包含一个节点的依存子树。
左弧归约,RL:将栈顶的两颗依存子树采用一个左弧S1<—S0进行合并,然后S1下栈。
右弧归约,RR:将栈顶的两颗依存子树采用一个左弧S1—>S0进行合并,然后S0下栈。
2.3.3 序列到序列问题
序列到序列模型(编码器—解码器模型)
2.4 评价指标
准确率(文本分类)
准确率(序列标注)
F值评价指标(精确率和召回率的加权调和平均)
β是加权调和参数,P是精确率,R是召回率。
在命名实体识别中,P和R的定义。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/591164
推荐阅读
article
SHAP
-
机器
学习
模型
可解释性工具_
shap
csdn
...
SHAP
(SHapley Additive exPlanations)是一种用于解释预测结果的方法,它基于Shapley...
赞
踩
article
企业如何保护
终端
数据安全
?_
终端
安全措施
csdn
...
当员工因工作需要,要从业务系统导出数据做二次加工和报表统计时,一般业务系统中会留下下载、导出记录,或是审批记录,但是可能...
赞
踩
article
大
数据
毕业设计
PyFlink+Spark+
Hive
民宿
数据
分析
可视化
大屏
民宿
推荐系统
民宿
爬虫 民...
大
数据
毕业设计
PyFlink+Spark+
Hive
民宿
数据
分析
可视化
大屏
民宿
推荐系统
民宿
爬虫
民宿
大
数据
知识图谱 ...
赞
踩
article
python
读取.
nc
数据_
python
netcdf4
读取
nc
csdn
...
nc
格式的文件广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多领域。这种文件可以存储多维数字矩阵,同时又封装了...
赞
踩
article
ALBERT
实战
:基于
ALBERT
预
训练
模型
实现答案
预
测分类_
albert
提取字向量
实战
csdn
...
ALBERT
实战
:基于
ALBERT
预
训练
模型
实现答案
预
测分类_
albert
提取字向量
实战
csdn
albert
提取字向量...
赞
踩
article
爬虫
解决
网页
重定向
问题
_
爬虫
同样的请求
重定向
网址却不同
csdn
...
爬虫
解决
网页
重定向
问题
_
爬虫
同样的请求
重定向
网址却不同
csdn
爬虫
同样的请求
重定向
网址却不同
csdn
...
赞
踩
article
最新
IntelliJ
IDEA
下载安装以及
Java
环境搭建教程(含
Java
入门教程)_
java
id...
2023年最新
IntelliJ
IDEA
下载安装教程,内含JAVA环境搭建教程,一起来看看吧!_
java
ide
下载 c...
赞
踩
article
Android
天气
APP
(三)访问
天气
API
与
数据
请求_
goodweather
csdn
...
上一篇:
Android
天气
APP
(二)获取定位信息 本篇文章中需要获取
天气
数据
了,通过上一篇文章中得到地址去获取
天气
...
赞
踩
article
python
分支
切割法求解
VRPTW
整数规划
_
vrptw
csdn
...
其中引入了如下几个决策变量:其中,Q 为车容量,为第 i 个顾客的需求:目标函数是为了最小化所有车辆的总行驶成本(距离)...
赞
踩
article
2024-03-26
AIGC
-
大
模型
学习
路线_
aigc
大
模型
csdn
...
熟悉主流LLM(Llama, ChatGLM, Qwen)的技术架构和技术细节;有实际应用RAG、PEFT和SFT的项目...
赞
踩
article
【
日志
】
CSDN
-
AI
助手
升级
日志
...
关注回访(对方至少有一条博客的记录)评论回访私信检测到群发消息自动三连 OR 通过私信指令三连触发。【
日志
】
CSDN
-A...
赞
踩
article
在
Verilog
语言中,使用
门级
建模
设计
一个
由1位
全加器
组成的4位
全加器
_
verilog
全加器
门...
4位
全加器
的
门级
建模
Verilog
语言的层级在
Verilog
硬件描述语言中,我们可以分许多层次对电路进行描述,每一层都有...
赞
踩
article
idea
使用
技巧
总结
,
超实用(2年mac
idea
使用
经验)_
idea
技巧
csdn
...
本人于19年7月开始
,
几乎每天都在
使用
idea
,
2年期间总结了如下
使用
技巧
,
现分享给大家。篇幅较长
,
建议先收藏。需要的时...
赞
踩
article
深度学习(PyTorch)——循环
神经网络
(
RNN
)基础篇五_
rnn
pytorch
csdn
...
深度学习(PyTorch)——循环
神经网络
(
RNN
)基础篇五_
rnn
pytorch
csdn
rnn
pytorch
c...
赞
踩
article
陪诊
小
程序开发
,
陪护系统搭建
,
陪诊
APP都有什么功能?_
龙兵
陪诊
csdn
...
现在的科技越来越发达
,
医院也用各式各样的机器
,
取代了以前的人工
,
大大提高了患者的就诊效率。这个时候
,
应对大家的就诊难需求...
赞
踩
article
SSAO
_
ssao
csdn...
文章目录
SSAO
引入
SSAO
原理带有深度值的贴图确定遮蔽因子实现渲染需要的纹理统计遮蔽因子,生成
ssao
纹理定义半球采样...
赞
踩
article
AI
绘图
教程【全面】_
ai
p
ai
nting
csdn
...
为什么我说
AI
绘画会影响到每一个人?你必须了解的
AI
技术--
AI
绘画,本文带你从了解到入门,内含工具和宝藏学习库分享。_...
赞
踩
article
CSDN
APP
如何查看
积分
_手机如何查看
csdn
的
积分
...
发现很多伙伴在
APP
里找不到
积分
,我找了下是可以看到的,只需进入我的创作,然后再进入数据观星,即可看到自己的
积分
。_手机...
赞
踩
article
CSDN
查看
自己
的
积分
以及
下载
过的资源_
csdn
自己
的
积分
和
下载
的资源在那时查...
通过如下网址可以直接查看
自己
的
积分
以及
下载
过的资源download.
csdn
.net/my/score_
csdn
自己
的积...
赞
踩
article
csdn
如何
查看
自己博客的
积分
_
csdn
积分
入口...
一、将鼠标悬停到头像,点击下方出现的内容管理二、点击左侧菜单栏的数据管理三、然后就能
查看
积分
啦知道你们懒,特地附上超链接...
赞
踩
相关标签
机器学习
人工智能
网络
大数据
安全
课程设计
spark
hadoop
数据分析
hive
flink
python
开发语言
深度学习
自然语言处理
爬虫
intellij-idea
java
ide
天气APP
和风天气API
网络数据请求
AIGC
学习
大模型