搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
花生_TL007
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
记录Windows Server CVE-2016-2183/CVE-2015-2808/CVE-2013-2566原理扫描漏洞修复_windows cve-2015-2808
2
jvm性能监控工具(jps、jstat、jinfo、jmap、jhat、jstack、jvisualvm和jconsole)介绍及示例_jstat -gcutil
3
dali预处理-yolov5trt推理-pytorch后处理-nvidia-triton部署_triton构建pytorch推理
4
PostgreSQL系列- 5 - 配置文件详解_postgresql 配置文件
5
探索腾讯云物联网SDK:为嵌入式开发赋能
6
第12关 精通K8s下的Ingress-Nginx控制器:生产环境实战配置指南_生产环境ingress-nginx
7
选择有意义、有时间的工作,而不是被迫谋生_选择有意义有时间的工作而不是被迫谋生
8
动态规划-二维dp数组和滚动数组_滚动数组dp
9
《知识图谱:概念与技术》 读书笔记(上)_metic: multi-instance entity typing from corpus
10
Mask R-CNN训练自己的数据集_maskrcnn训练自己的数据集
当前位置:
article
> 正文
自然语言处理_自然语言处理csdn
作者:花生_TL007 | 2024-04-18 20:34:46
赞
踩
自然语言处理csdn
第一章 绪论
1.1 自然语言处理的概念
自然语言处理主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的核心分支。
1.2 自然语言处理的难点
1.2.1 抽象性
符号—>具体事物
1.2.2 组合性
组成形式过多,总数庞大
1.2.3 歧义性
一词多义
句子形式不同,但语义相同
1.2.4 进化性
新词诞生(新冠)
旧词翻新
1.2.5 非规范性
错别字
简写
同音转换
1.2.6 主观性
标准不统一
1.2.7 知识性
背景(生活常识),推理
1.2.8 难移植性
领域众多,差异较大
1.3 任务体系
1.3.1 层级
1.3.2 任务类别
回归
文本—>连续数值(作文评分)
分类(文本分类)
匹配(文本关系)
文本相似度检测(查重)
解析
文本标注
生成
根据输入要求,输出自然语言
1.3.3 研究对象
1.4 发展历史
统计学习——>深度学习——>模型预训练
第二章 自然语言处理基础
2.1 文本的表示
2.1.1 独热表示(独热编码)
概念:用一个词表大小的向量表示一个词,将词表中第i个词表示为向量,其中,第i个词的第i个数为1,其他位为0
缺点:1.语义相似,但是经过数学计算后,结果完全不同。2.数据稀疏:同义词众多,数据不完全。3.基于第二点,数据挖掘费时费力。
2.1.2 分布式表示
2.1.2.1 分布式语义假设
根据上下文, 对词表示(计算词出现频次)
缺点:因为高频共现,将原本无关联的词产生关联;只能分析直接关系,无法反应高阶关系;数据稀疏问题仍在
2.1.2.2 点互信息(针对上述缺点之一的高频误判问题)
点互信息:对词和上下文进行整体计算,得出PMI值。
公式中,P(w,c)、P(w)、P(c)分别是w和c的共现频率,以及w和c分别出现的概率。
PMI并不一直处于稳定,常用PPMI的形式。PPMI(w,c) =max(PMI(w,c),0)。
最大似然估计(MLE),可以计算上述概率值。
2.1.2.3 奇异值分解(针对上述缺点之一的无法反映高阶关系问题)
截断奇异值分解(对矩阵M的低秩近似): 在∑中仅保留d个(d<c)最大的奇异值(U和V也只保留相应的维度)。
2.1.2.4 分布式缺点
共现矩阵规模大时,奇异值分解速度很慢。
如果想要增加语料库的内容,需要重新进行分解,代价很大。
分布式无法有效表示长句(可以使用词袋)。
分布式一旦完成,无法修改。
2.1.3 词嵌入表示
共同点:连续,低维,稠密(和词的分布式特点类似)
不同点:赋值方式(向量值自行调整,可修改)
潜在语义索引:将文本与文档进行相似度判断,也是使用截断奇异值分解进行降维。
潜在语义分析:通过截断奇异值分解所得到的矩阵U的每一行就是对应词的d维向量表示,该向量一般具有连续、低维和稠密的性质。
2.1.4 词袋表示
词袋:无顺序的词的集合,将词用向量表示。
缺点:忽略词的顺序,产生误差;无法融入上下文
2.2 自然语言处理任务
2.2.1 语言模型(N元语言模型和神经网络语言模型)
2.2.1.1 N元语言模型
语言模型基本任务:基于之前出现的词,预测下一个出现的词。结合基本任务,将基本任务放大,便可以预测一句话的出现。利用条件概率进行计算,但是为了防止下一个词的出现概率几乎为0时,提出假设。
马尔可夫假设:下一个词出现的概率只取决于它前面的n-1个词(不在选取前面所有词作为依据,降低概率为0的可能性)
N元文法(N元语法):满足马尔科夫假设。
2.2.1.2 平滑算法(折扣法)
加1平滑(拉普拉斯平滑):假设所有N元语法的频次比实际多一次。
加δ平滑(多δ次,0<=δ<=1):更自然,防止对低频词或零频次的事件过高估计。
2.2.1.3 语言模型性能评价
利用困惑度(PPL)来评价。
通过训练集和测试集计算PPL(若PPL越小,语言模型更有效)。
缺点:切分歧义问题(倾向于切分出长词);词定义不统一;词典无法收录全部词语。
2.2.2 基础任务
2.2.2.1 中文分词
词:最小的能独立使用的音义结合体,能够独立运用并能够表达语义或语用内容的最基本单位。
中文分词最简单的分词算法:正向最大匹配(FMM)分词算法。
sentence为待分词的句子;lexicon为词典(所有单词的集合);max_len为词典中最长单词长度。
将单词依次进行切分,对每一个单词都进行一次子词词表检索,当子词是单词的子串是,对单词进行切分,若单词还有子串没被切分,对这些子串进行标记(用<UNK>替换)。
2.2.2.2 子词切分(字节对编码算法,BPE)
针对问题:印欧语系(英语)切分困难,因其单词形式变化莫测,无法通过简单的规则进行切分,反倒会产生其他困难。
基本原理:使用尽量长且频次高的子词对单词进行切分。
BPE通过算法2.1构造子词词表。(为切分提供依据)
2.2.2.3 词性标注
对句子中的每一部分标注词性。
难点:根据上下文,同一个词的词性可能不同。
2.2.2.4 句法分析
分析句子成分,标注主谓宾定状补成分。
将词序列表示的句子转换成树状结构,助于理解含义,方便下游自然语言处理任务。
2.2.2.5 语义分析(通过离散的符号和结构表明语义)
词义消歧:根据词语出现的不同上下文,确定词语的具体含义。
语义角色标注:先识别谓语,为谓语确定所表达的意思,再识别其他语言成分,最后针对意思输出句子语义。
语义依存分析:利用图来对语义进行阐释。(语义依存图或概念语义图)
2.2.3 应用任务
2.2.3.1 信息抽取(从非结构化文本中提取结构化信息)
命名实体识别(搜索并提取文章中出现的被寻找词语,注明类型),实体链接(将文本实体与知识库中的具体实体相对应)
注:实体链接与词义消歧类似,但二者的最终目标和对象并不同。实体链接的对象是自然语言文本中表示实体的词语;词义消歧的对象是一个多义词在特定上下文中的正确意义。实体链接的目标是将词语实体与知识库链接,比如将词语和百度的解释相对应;词义消歧的目标是确定一个多义词在文本中的精确意思。
事件抽取(与语义角色标注任务类似):根据触发词提取关键信息,尤其是时间(时间表达式:提取的时间文本;时间表达归一化:将时间精确到特定时间)等信息。
2.2.3.2 情感分析
情感分类:对情感类型和程度进行识别。
情感信息抽取:抽取文本中有关表达情感的词汇、对象和对应关系。
2.2.3.3 问答系统
检索式问答系统(百度知道、Google);知识库问答系统(Wolfram Alpha、Freebase);常问问题集问答系统(企业客服、政府网站自动回复);阅读理解式问答系统(chatGPT)。
2.2.3.4 机器翻译
利用计算机,实现从源语言到目标语言的转变。
研究方法:(基于规则、语料库的方法)——>(基于深度学习,利用深度神经网络学习隐规则)
2.2.3.5 对话系统
自然语言为载体,用户与计算机进行交互,达到目的的智能系统。
开放域对话系统:社交为目的的系统。
任务型对话系统:具有明确任务,例如告知天气情况,车票查询。
自然语言理解:分析语义。
对话管理:对当前对话进行跟踪,判断用户现在的状态和预测即将想做的事情,并提前准备。
自然语言生成:语言生成,语音合成。
缺点:依据上述过程,发现对每一个单词进行切分时,都要重新检索子词词表,非常耗时。
2.3 基本问题
2.3.1 文本分类
过程:输入文本,输出文本所属的类别。
技术:利用文本表示技术,将文本转化为特征向量,再将特征向量与类别进行匹配,得出具体类别。
周边问题:文本匹配、复述、蕴含,都是先对文本进行分类处理,再进行匹配、相似性判断、包含关系判断等操作。
2.3.2 结构预测
2.3.2.1 序列标注
将输入文本序列中的每个词标注相应标签(与词性标注相同)
条件随机场模型,能够更好的利用上下文,计算每一个词属于某一标签的概率,并计算每一个标签之间的相互关系。
2.3.2.2 序列分割
将文本序列中的子序列切出,完成其他操作。
2.3.2.3 图结构生成
将图标代替自然语言,表达相同含义。
基于图的算法:通过赋值给图中两点之间的线段,来完成算法最后的结果。
基于转移的算法:将图结构的创建过程转化为一个状态转移序列(从旧转移到新)。
三种转移动作
移进,SH:将队列中的第一个元素移入栈顶,形成一个仅包含一个节点的依存子树。
左弧归约,RL:将栈顶的两颗依存子树采用一个左弧S1<—S0进行合并,然后S1下栈。
右弧归约,RR:将栈顶的两颗依存子树采用一个左弧S1—>S0进行合并,然后S0下栈。
2.3.3 序列到序列问题
序列到序列模型(编码器—解码器模型)
2.4 评价指标
准确率(文本分类)
准确率(序列标注)
F值评价指标(精确率和召回率的加权调和平均)
β是加权调和参数,P是精确率,R是召回率。
在命名实体识别中,P和R的定义。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/花生_TL007/article/detail/448081
推荐阅读
article
解决
Github
打开后排版紊乱
问题
_
inurl
:
csdn
为什么
github
页面
进去后没有好看的
页面
...
然后就可以复制该资源的baseurl,打开https://www.ipaddress.com/,在输入框内搜索这个Bas...
赞
踩
article
RTSP
实时视频流地址_
rtsp
协议
的视频在哪里下载
site
:
blog
.
csdn
.net...
RTSP
(Real Time Streaming Protocol)实时流传输
协议
,是TCP/IP
协议
体系中的一个应用层...
赞
踩
article
Chrome
开发者
工具
调试
小技巧_
chrome
开发者
控制台
中几个常用的小技巧
csdn
...
⏹
Chrome
开发者
工具
调试
小技巧_
chrome
开发者
控制台
中几个常用的小技巧
csdn
chrome
开发者
控制台
中几个常...
赞
踩
article
羚通视频
智能
分析平台
自动
识别
反光
衣穿戴
反光
衣算法
识别
检测系统_
人工
智能
反光
背心检测
csdn
...
总之,羚通视频
智能
分析平台
自动
识别
反光
衣穿戴的检测系统是一种创新的安全监控工具,它利用先进的
人工
智能
技术,能够实时监测和...
赞
踩
article
顶级
OpenAI
工具
、示例
和
用例_
openai
csdn
...
OpenAI
的 Responsible AI 计划侧重于了解 AI 技术的影响,为负责任的 AI 开发制定指南
和
最佳实...
赞
踩
article
中国
大
学生
计算机
设计
大
赛与
大
数据
应用主题赛_2024年中国
大
学生
计算机
设计
大
赛
大
数据
主题赛
csdn
...
_2024年中国
大
学生
计算机
设计
大
赛
大
数据
主题赛
csdn
2024年中国
大
学生
计算机
设计
大
赛
大
数据
主题赛
csdn
...
赞
踩
article
【软件相关】基于
Alist
挂载
云盘到本地文件
资源管理
器_
alist
webdav
挂载
本地
csdn
...
因为最近在研究各种云盘存储影视资源的方法,无意间看到一个教程是利用软件将云盘
挂载
到本地的
资源管理
器,这样就能实现类似本地...
赞
踩
article
设计模式
简介_
设计模式
csdn
...
每一个模式描述了一个在我们周围不断重复发生的问题,以及该问题的解决方案的核心。这样,你就能一次又一次地使用该方案而不必做...
赞
踩
article
操作系统
常见面试题_
操作系统
常见面试题
csdn
...
进程:操作。具有独立性,动态性,并发性,异步性。线程:
操作系统
进行资源调度的最小单元。。联系:进程创建了多个线程,各个子...
赞
踩
article
个人
简历
模板
(精选
12
篇)_
简历
模板
csdn
...
9、建立客户关系网并整理客户档案,与客户建立长期的互利合作关系时间:20xx.1-20xx.4 公司名称:幻主
简历
公司 ...
赞
踩
article
【
Pyecharts
】|
风电
场
运维
可视化
系统 | 文末送书_
风电
可视化
csdn
...
随着风力能源的时代到来,智能化运营成为海上
风电
场
行业的解决痛点。本文针对海上
风电
场
运维
管理中存在的问题,设计并实现了一套...
赞
踩
article
Web前端
可视化
绘图
软件
编辑器
-汇总_web前端
可视化
绘图
软件
编辑器
-汇总_前端
可视化
编辑器
_it博...
前言: 随着物联网、大数据等技术高速发展,我们逐步向数字化、
可视化
的人工智能(AI)时代的方向不断迈进。智能时代是工业 ...
赞
踩
article
Win10
远程
桌面
连接怎么用?(
远程
桌面
连接教程)_
win10
如何开启
远程
服务
csdn
...
远程
桌面
连接怎么用?阅读本文,您可以了解到
远程
桌面
如何开启以及怎么使用它
远程
控制电脑。_
win10
如何开启
远程
服务 cs...
赞
踩
article
【参
赛
流程】
CSDN
& 龙蜥
社区
「
人人都
可以
参与
开源
」
学习
赛
_欢迎参加
「
人人都
可以
参与
开源
」
活动...
学习
赛
报名:2024年4月22日截止。参
赛
:请务必阅读下文
「
竞
赛
步骤
」
小节,了解
任务
与要求。评审:按照下文的步骤完成后,...
赞
踩
article
数独
C++_
数独
c++
site
:
blog
.
csdn
.net...
点击查看更多通信与专业知识华为2016研发工程师编程题
数独
是一个我们都非常熟悉的经典游戏,运用计算机我们可以很快地解开数...
赞
踩
article
MBD之
代码
生成
——
结构
体
数组
的
生成
_
zero
-
based
csdn
...
目录应用场景:模型实现:模型数据对象:模型配置:模型关联数据对象
生成
代码在开发应用层模型时,有时会使用一些
结构
体、
结构
体...
赞
踩
article
Nuitka
打包
python
代码教程_
nuitka
打包
python
代码教程
csdn
...
Nuitka1.9.5
打包
python
代码_
nuitka
打包
python
代码教程
csdn
nuitka
打包
python
...
赞
踩
article
详解
人工智能
(概念
、
发展
、
机遇与
挑战
)
_
人工智能
csdn
...
人工智能
的研究和应用涵盖了多个方面,如机器人
、
语言识别
、
图像识别
、
自然语言处理
、
专家系统
、
机器学习等。其目标是让计算机和...
赞
踩
article
php
+
mysql
酒店
预约
管理系统
-
计算机
毕业设计源码92767_
酒店
管理系统
数据库
csdn
...
(1)实现不同用户的登录功能。登录界面包含用户注册、登录以及常见的记住密码、修改密码等功能。本系统的登录用户分为三种:普...
赞
踩
article
IntelliJ
IDEA
安装
(
idea
2023.2.3
安装
+ 破解教程) 附
安装
包
_
idea
安...
idea
2023.2.3
安装
+ 破解教程 (附
安装
包
)_
idea
安装
包
csdn
idea
安装
包
csdn
...
赞
踩
相关标签
github
RTSP
android
rtsp视频流
安卓
实时流传输协议
chrome
人工智能
安防监控
算法
音视频
深度学习
机器学习
大数据
alist
raidrive
rclone
云盘挂载
本地挂载
设计模式
开发语言
windows
linux
求职招聘
运维