搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
酷酷是懒虫
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Gson与Kotlin的老生常谈的空安全问题_kotlin gson
2
STM32个人笔记-RS485通讯_stm32 max485
3
fastJson 之 JSONPath使用_fastjson getbypath
4
Ubuntu18.04 安装 Bugzilla_checking for dbd-oracle (v1.19) not found
5
【Docker】(七)使用docker-compose一键部署环境_docker一键部署
6
sqlserver 数据误删除恢复_sqlserver数据库删了怎么恢复
7
AI绘画大模型-StableDiffusion最强模型sd3(本地安装方法)
8
新黑马头条项目经验(黑马)_黑马头条项目亮点与难点
9
牛客多校一 D_闵可夫斯基和 多校
10
Python标准库:importlib【import_module()、reload()、machinery()、invalidate_caches()、find_loader()、util()】_importlib module资源回收
当前位置:
article
> 正文
斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_question-focused summarization
作者:酷酷是懒虫 | 2024-08-01 22:16:03
赞
踩
question-focused summarization
一、问答系统中的总结(summarization)
目标:产生一个摘要文本包含那些对用户重要和相关的信息
总结的应用领域:任何文档的摘要和大纲,邮件摘要等等
根据总结的内容,我们可以把总结分为两类:
单文档总结:给出一个单一文档的摘要、大纲、标题
多文档总结:给定一组文档,给出内容主旨;比如说同一个事件的新故事,关于一些话题和问题的网页
根据总结的目的,我们可以把总结分为两类:
泛总结:总结文档的内容
聚焦请求的总结:基于用户请求展现出的信息需求在总结文档;这是一种复杂的问答系统,通过总结含有某些信息的文档来构建回答
根据回答的特点,我们可以把总结分为两类:
提炼(extractive)总结:基于源文档的词组和句子来构建总结
抽象(abstractive)总结:用一部分的不同单词来表达源文档的观点
一个非常简单的方法:使用第一行的句子
二、生成片段(snippets)
总结的三个阶段:
内容选择:选择从文档中抽取的句子
信息排序:为这些句子选择顺序
句子实现:清理句子
1、无监督的句子选择
这个思想主要源于Luhn(1958):选择那些更重要和更有信息性的单词
两种定义重要单词的方法:
tf-idf:对每个在文档j中的单词wi进行tf-idf权重计算
话题署名:选择更小一部分的重要单词
互信息
对数似然比例(LLR)
选择更有信息性的单词
对数似然比例(LLR)
是否在请求中出现
句子重要性计算:句子中的单词的重要性的和
2、有监督句子选择
给定:对训练文档进行标注,标注出好总结
对应关系:文档中的句子和总结中的句子的对应关系
抽取特征:句子的位置(第一句话?),句子的长度,单词的信息等等
训练:进行一个二分类的训练,判断是否要把句子放到总结中
问题:很难得到标注的数据;找到对应关系很困难;效果并不比无监督算法
所以在实际中,无监督的内容选择是更普遍。
三、总结器的评估:ROUGE
这是对
基于BLEU(机器学习所使用的度量)
并不比人工评估好(即直接让人工判断这个回答是不是用户的问题)
但是会更方便
给定一个文档D和一个自动生成的总结X
有N个人工产生的可以参考的关于D的总结
运作总结器,给出自动生成的总结X
参考总结中二元组在X中出现的比例就是度量
一个例子:
四、更复杂的问题:总结多个文档
这部分现在还没有商业化,但是目前研究的议题。如何回答更长更困难的问题?比如
两种通过请求聚焦总结(query-focused summarization)进行困难问题的回答的方法
从下往上的片段方法:找到一系列相关的文档;从这些文档中利用tf-idf,MMR来进行信息性句子抽取;排序并调整句子形成答案
从上往下信息抽取方法:对不同的问题类型建立特定的回答格式
个人传记需要包含:生卒年月、教育、国籍等等
定义需要包含:属、上义关系
1、从下往上的片段方法
聚焦请求的多文档总结的流程
简化句子:最简单的方法是利用句法分析句子,根据一些人工规则来决定哪些修饰语可以被删除,现在越来越多开始使用机器学习的方法
从多文档中抽取内容的方法:最大边际关联(MMR)
一种贪婪的方法,迭代选择最好的句子插入到总结中。最好的句子是相关且含有新含义的句子
相关:和用户请求的最大相关,即与请求的cosine相似度高
新颖:和现在已经有的总结相比,相关度更低,即与请求的cosine相似度低
当满足想要的长度的时候就停止
LLR+MMR:选择有丰富含义同时新颖的句子
第一步,对每个句子基于LLR计算分数
第二步,把得分最高的句子放入总结中
第三步:迭代加入得分高且含有新含义的句子
信息排序
时间顺序:根据文档的时间顺序排序
连贯性:使得相邻的句子相似的顺序;使得相邻的句子讨论同一个实体
话题顺序:学习源文档的话题顺序
2、从上往下信息抽取方法
从上往下信息抽取方法:对不同的问题类型建立特定的回答格式,比如
个人传记需要包含:生卒年月、教育、国籍等等
定义需要包含:属、上义关系
一个例子
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/916158
推荐阅读
article
25.
openeuler
OECA
认证
模拟题
8_
ofca
-
openharmony
认证
模拟题
库...
A、nocreate与配置文件中的copytruncate是互斥的,不能同时配置,否则nocreate不生效。C、服务脚...
赞
踩
article
数据结构
之
队列
_
数据结构
队列
...
一、
队列
(1)
队列
的概念
队列
:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表,
队列
具有先进先出(FI...
赞
踩
article
Qt
Widget
Z-
Order
理解_
qt
zorder
...
Q
Widget
的视觉Z-
Order
可以通过stackUnder、lower、raise三个函数来修改初始化的Z-Orde...
赞
踩
article
盘点
慢
查询
原因
及
优化
方法...
在日常开发中,我们往往会给表加各种索引,来提高 MySQL 的检索效率。但我们有时会遇到明明给字段加了索引,并没有走索引...
赞
踩
article
java
工程师
面试
必须这些
知识点
_
面试
java
开发
工程师
需要会
什么
...
花了一下午撸了这份完整的
java
工程师
知识(
面试
)清单,很负责任的说,掌握了这些
知识点
秒杀一切
java
面试
,迎娶白富美走...
赞
踩
article
Python
游戏开发入门:
Button
状态
切换
_
pygame
按钮
...
本文介绍了如何在
Python
中使用Pygame库实现
按钮
的active和non-active
状态
切换
,通过创建一个可
切换
...
赞
踩
article
My
sql
慢
查询
Sql
优化
(超详细)_my
sql
慢
sql
...
一句话说明,索引是排好序的快速查找B+树数据结构理解方式一:索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一...
赞
踩
article
递归
(
Recursive
)_
递归
的
三要素
...
递归
笔记。_
递归
的
三要素
递归
的
三要素
递归
1.
递归
...
赞
踩
article
使用
JMeter
进行
接口
高并发
测试
的
实现...
一般
的
网络
接口
测试
,功能性
测试
postman较为好用,需要
测试
高并发
的
情况下,可以用Jmeter来进行
测试
,postma...
赞
踩
article
Torch
not
compiled
with
CUDA
enabled
最新解决办法 pytorc...
这个时候笔者就要问各位配置环境的小可爱们,要怎么选择
pytorch
的版本,有些可爱们直接可能就选cuda的12.4版本的...
赞
踩
article
栈
数据
结构
详解_
栈
存放
什么
数据
...
本文介绍了
栈
的基本概念,包括其定义、工作原理、数组和链表两种常见实现方式,以及
栈
在程序调用、递归、表达式转换和图形搜索中...
赞
踩
article
IntelliJ
IDEA
2016.2
激活
方法汇总_
idea2016
秘钥...
如不可用 见 http://blog.csdn.net/jiang314/article/details/5168007...
赞
踩
article
android
开发/
测试人员
常用
adb
命令
_
adb
连接
设备
后进入...
前一篇整理了如何删除预装app, 发现
android
开发人员和QA 有必要掌握一些常用
adb
使用方法1,
连接
某
设备
...
赞
踩
article
Envoy
功能
点
详解之
异常
点
检测
...
作者:罗广明审校:孙海洲原文链接:http://www.servicemesher.com/blog/envoy-fea...
赞
踩
article
递归
(
Recursion
)...
递归
(
Recursion
)
递归
:函数(方法)直接或间接调用自身。是一种常用的编程技巧生活中的案例:从前有座山,山里有座庙...
赞
踩
article
24
考研
西南
交通大学
840
专硕上岸
经验
贴(计算机
,
人工智能
,
软件工程
)_
西南
交通
的
840
和天津工业
的
...
大家好
,
先介绍下我自己
的
情况吧。我是今年388分上岸
西南
交大电子信息
人工智能
的
,
本科双非
,
科班出身
,
有竞赛有科研项目。备...
赞
踩
article
阿里
云盘
挂载
到
本地
硬盘(让你
的
电脑
容量
瞬间“变大“!)...
CloudDrive是一款个人开发者开发
的
网盘
挂载
工具,可以将
阿里
云盘
、115网盘、NebDAV、天翼
云盘
等国内网盘
挂载
...
赞
踩
article
深入理解
SLAM
技术
概述...
SLAM
(同步定位和地图绘制)是一种用于自动驾驶车辆的方法,可让您构建地图并同时在该地图中定位您的车辆。
SLAM
算法允...
赞
踩
article
安装
kubernetes
_如何在
Kubernetes
中
安装
和
使用
Linkerd
...
安装
kubernetes
The author selected the Tech Education Fund to r...
赞
踩
article
数据结构
:
顺序
表_
数据结构
顺序
表...
静态
顺序
表是指在程序运行前就确定了大小的
顺序
表,它的存储空间是静态分配的,一旦分配了大小,就不能动态改变。静态
顺序
表通常...
赞
踩
相关标签
Linux
openeuler
OECA认证
国产化操作系统
国产化
数据结构
c语言
qt
开发语言
c++
数据库
mysql
java
面试
java-ee
架构
python
pygame
高考
爬虫
学习
sql
算法
jmeter
软件测试