当前位置:   article > 正文

论文梳理_流形嵌入法,几何法

流形嵌入法,几何法
题目:基于GAN 网络的面部表情识别

搜索源:知网
论文关键词:表情识别;深度学习;生成对抗网络GAN
应用:面部表情识别

摘要

本文:姿态不变,端到端,模型(姿态不同和表情,扩充训练集),GAN(生成对抗网络)

0 1     引言

面部表情识别 应用:心理学,教育,数字 娱乐,驾驶员监控
两阶段:特征提取,表情识别
目前:正面面部
要 解决:任意姿态

2     GAN网络的 面部表情识别方法
2.1     面部表情识别

过程:特征提取,表情识别
传统特征提取(SIFT,LBP,Gabor,Geometry)
本文:CNN
表情分类方法:SVM,KNN,随机森林
本文:GAN网络变体,生成图像(不同姿态表情),分类器嵌入到GAN网络中训练,端到端

2.2     生成对抗网络GAN

GAN:生成,判别 模型

生成模型:接受随机噪声,噪声生成数据或图片
判别模型:两类输入(生成噪声数据,现实中数据)

4     总结

文本:端到端模型,面部图像合成



题目:非正面人脸表情识别方法综述

搜索源:知网
论文关键词:非正面人脸表情识别; 人脸关键点; 外貌特征; 姿态相关;

摘要

人脸检测,头部姿态估计,特征提取,分类方法
非正面人脸 表情特征提取 ,分类
非正面人脸表情识别:人脸关键点 ,外貌特征, 姿态 相关

0 1     引言

应用:疲劳驾驶, 微笑 检测,网络视频分析,移动 手机服务
情感机器人,车载辅助系统,智能移动终端,互联网即时通信
五大难题:头部偏转(干扰情感认知 ),光照变化, 配准误差,面部遮挡,身份差异
2017年 IEEE国际自动人脸与手势识别会议(IEEE FG)的第三届人脸表情识别与分析挑战赛主题:头部偏转的表情识别
PAMI期刊的人脸表情识别综述:
在这里插入图片描述
之前综述:

  1. 罗列方法,缺乏原理和特点分析
  2. 指出面临难题,没说难在何处
2     非正面图像获取

标准数据库,自己采集拍摄,图像预处理(光照均衡化,尺度归一化),检测(判断人脸区域,头部偏转情况),提取表情特征,特征分类
样本维度:二维数据库(北航,中科院),三维数据库(有待发展)
数据库标记:表情,动作

3     非正面人脸检测
3.1     非正面人脸检测 方法

头部转角:
'< 45度:人脸检测方法处理非正面人脸
'> 45度:头部姿态变,五官分布变,用三维模型

多角度人脸数据不足,解决:

  1. 局部特征 :跟踪人脸局部区域 ,标记点。估计-校正-微调

    全卷积网络FCN:估算标记点位置
    点分布模型:生成人脸 标记点起始形状
    均值漂移:确定人脸形状

  2. 整体特征:不同姿态,构建检验算子

  3. 深度特征: 不同姿态人脸调试的VGG-Face网络。肤色和背景颜色提取。卷积神经网络。

3.2     头部 姿态估计方法

姿态估计:水平转,头部垂直转,左右转
方法:外观模板法、检测阵列法、非线性回归法、流形嵌 入法、弹性模型法、几何法、跟踪法

对某姿态人脸建模(外观模板法,检测阵列法,弹性模型)
人脸特征提取(流形嵌入法,几何法)

4     非表情识别


题目:微表情识别方法综述

搜索源:知网
论文关键词:微表情识别; 特征提取; 微表情分类; 心理认知; 测谎; 计算机视觉; 计算机图像处理; 人脸识别; 主动表现模型; 人工智能; 局部约束模型; 视频监控;

摘要

应用:测谎,反恐,临床医学

0 1     引言

微表情持续时间:1 /25 ~ 1 /5 s,不由自主表情
微表情涉及:图像处理与分析、模式识 别 、计算机视觉 、计算机图像学 、人工智能 、生物学、心理学等方向

2     图像获取及预处理

预处理:人脸检测及配准、人脸 切割和图像归一化
前人:

ASM(主动形状模型):训练,搜索,优点(有序得到特征点,较高精确性和鲁棒性),缺点(局部最小)
AAM(主动表观模型,改进ASM):建立(形状,纹理,混合模型),缺点(侧脸,复杂场景差,局部最优,环境噪声缺乏鲁棒性)
CLM(局部约束模型):

人脸剪裁和切割:
剪裁:确定人脸矩形区域(面部特征,几何模型)
切割:特征点(联合级联法 检测27个面部特征)
灰度归一化, 光照归一化,尺度归一化(减少光照不均,尺寸不一致)

3     微表情检测,特征提取

特征提取方法 :梯度 ,运动,纹理,深度学习

梯度:方向梯度直方图:图像局部梯度方向构成特征
运动:鲁棒主成分分析与局部时空方向特征结合
纹理:反映本身属性,LBP(局部二值模式,描述图像局部纹理特征)

4     微表情分类

随机森林RF,极限学习机ELM,隐马尔可夫HMM,深度致信网络DBN

7     展望

不足:

  1. 微表情建库水平低
  2. 微表情表达特点 不明确
  3. 算法不成熟:特征融合、分类器结合,提出新特征分类,识别算法,提高性能
  4. 长视频 微表情实时检测 应用不足


题目:微表情识别综述

搜索源:知网
论文关键词:微表情;微表情识别

摘要
  1. 微表情好处:隐藏真实感受,真实表达,难以捕捉
  2. 应用:医疗,商业谈判,刑事审讯,人际交往,安检
  3. 现在热门:微表情检测与识别
  4. 难点:微表情强度弱,被环境影响,持续时间短,部位区域狭小不确定 ,传感器难 捕捉识别
0 1     微表情综述
  1. 微表情:时间短,不能控制隐藏的真实情感,防御机制
  2. 现状:表情识别成熟,迁移到微表情识别不好,要重新设计

    微表情模型:METT
    微表情数据库:CASME

2     微表情识别综述
  1. 微表情视频流检测
  2. 步骤:

    预处理:原始数据模糊,轮廓检测,裁剪,对齐
    特征值提取
    特征值分类,贴标签
    设计实验



题目:融合知识图谱和协同过滤的推荐模型

搜索源:知网
论文关键词:知识图谱;协同过滤;深度学习;混合推荐;知识表示学习

摘要

获取知识图谱推理路径,TransE算法(路径嵌入向量),获取路径推理语义(LSTM,soft attention机制),池化(区分不同路径推理),预测评分(全连接,sigmoid)。语义相似性,协同过滤算法

0     引言

推荐算法:协同过滤推荐,内容推荐,混合推荐

协同过滤推荐算法:人群意愿推荐,结果不直观
内容推荐:用内容信息对用户和物品 特征建模
混合推荐算法:效果好,将知识图谱推荐,深度学习,混合推荐



题目:基于深度神经网络的图像碎片化信息问答算法

搜索源:知网
本文应用:图像问答
论文关键词:人工智能;碎片化信息;神经网络;深度学习;视觉问答

摘要

样式信息:结构无序,内容片面,碎片信息
形式:文本,图像,视频,网页
视觉问答系统(VQA):碎片化信息提取,表达,理解

0     引言

概述:

  1. 现状:信息分散,知识碎片化。不同模态,高度分散在多个数据源。
  2. 新兴问题:对碎片化知识去粗取精,提取关键信息,构建完备知识体系,有助于学习效率
  3. 趋势:计算机视觉+NLP的不同模态碎片化信息融合
  4. 难点:涉及更多 知识,推理 技巧,多 领域知识融合

知识 相关:

  1. 碎片化的两面性:
    优点:快速了解相关知识
    缺点:片面性,对思考判断有影响。
  2. VQA:多模态碎片化 信息提取,表达,理解
  3. 输入:图片相关
    输出 :推理相应的 答案

本文:

  1. 进一步研究算法(变分推断方法,注意力 机制),实现框架(视觉问答系统)。
  2. 4个子流程:图像与问题的特征提取,多模态特征融合,答案推理
1     相关工作

前人:

基础视觉问答:CNN(图像特征)+ RNN(文本特征)–融合–
图像:
VGGNet模型:19层CNN,不同隐层神经元提取图像不同层次的特征
ResNet模型:解决梯度弥散
R-CNN模型:目标检测,多目标图像特征
文本:
词袋模型:单词间相互独立,无法提取上下文关联信息
RNN:提取上下文的文本特征(缺点:序列长,梯度弥散)
BNN变种模型:GRU模型,LSTM模型(参数更多,数据量大的视觉问答)
关键流程:
融合特征(以往把特征简单拼接,丢失图像和问题的关联性)
解决(引入注意力 机制,使答案关注强相关信息,避免相关性弱的干扰)
提出(图像和问题协同注意的分层架构),(使图像和问题文本产生注意力权重,对原始 特征加权)
答案推理:
数据集频率高的答案提取构造答案集合,分类,分类结果 是推理答案

2     基础知识与模型

完整的视觉问答任务分解4个步骤:
图像特征提取,文本特征提取,多模态特征融合,答案推理
本文:CNN,RNN,注意力机制,变分推断方法(多模态特征融合 答案推理)

2.1     卷积神经网络CNN

CNN多种网络结构:VGGNet,ResNet,Faster-R-CNN

2.2     循环神经网络RNN

解决传统RNN梯度弥散问题:GRU(门控循环单元),LSTM(长短期记忆网络)

2.3     注意力机制

注意力机制:对每个时刻特征加权(特征对时刻的重要程度),提取关键特征信息

2.4     变分推断
3     基于神经网络的视觉问答模型

LSTM(图像特征),RNN+CNN(文本特征)
注意力机制与变分推断(多模态特征融合),答案推理(分布距离 神经网络损失值)

3.1     LSTM图像特征提取

Faster-R-CNN 提取多目标图像特征
LSTM的多目标图像特征融合
权重调整:1)拓展时序     2)BiLSTM

3.2     RNN+CNN文本特征提取

提取词向量
RNN 提取初步文本特征
CNN 组合文本特征

3.3     多模态特征融合

注意力机制的图像特征加权
变分自编码器的特征融合

4     实验与结果分析

在这里插入图片描述



题目:基于标签语义注意力的多标签文本分类

搜索源:知网
本文应用:文本
论文关键词:多标签学习;文本分类;标签语义;注意力机制

摘要

分类应用:文本分类,图像识别,视频注释,多媒体信息检索
传统多标签文本分类:认为标签是没有语义的符号
现实中:标签分类有语义,标签语义 文档内容信息有关系
本文:标签语义注意力的多标签文本分类(LASA),文档和标签间共享单词。文档嵌入(双向长短时记忆,Bi-LSTM)

双向长短时记忆,Bi-LSTM:获取每个单词 隐表示,标签语义注意力机制获得文档单词权重,单词对标签中关系

0     引言

传统分类:单标记学习(每个样本 示例属于一个类别标记)
现实:对象同时多类别多标签,标记子集
多标签学习:标签 集合为 每个实例分配 类标签 子集
多标签文本分类:应用:主题识别 ,情感分析,问答系统

一个文档多个 标签,标签间相关性
长文档,语义复杂,隐藏在噪音或冗余内容
多数文档少数标签,尾标签

科研注意:

1.标签间相关性
2.文档中捕捉有效信息
3.文档中提取与对应标签相关信息

Bi-LSTM:注意力机制,单词远距离依赖,捕捉文档重要词
关键:用标签语义指导多标签文本分类
融合标签语义信息的标签注意力机制模型:标签语义信息
本文贡献:

1.标签语义的 注意力机制 ,捕捉标签关注的词,为标签学习文档
2.标签相关性,缓解多标签分类的尾标签
3.评估

1     相关工作

前期:问题转换算法,算法适应
问题转换算法:多标记学习任务,转化单标记学习任务,BR算法(单标记分类,缺乏标签间依赖性,预测性低),LP算法(样本不平衡),CC分类器链(BR法改进)
Rank-SVM算法(SVM到多标签),ML-DT(决策树多标签),ML-kNN(K近邻)



题目:基于卷积神经网络的灯具商品图像检索

搜索源:知网
搜索词:主题(多模态),关键词(深度学习)
本文应用:建材商品数字化,灯具
论文关键词:卷积神经网络; 商品图片搜索; YOLO算法; 多标签分类任务;

摘要

传统分类:未考虑主观特性,特征人工提取,细节特征丢失
本文:提出CNN 灯具图像分类。预处理,识别率提升。
本文:检索过程(卷积层,全连接层),标签分类(YOLO算法)

0     引言

目前 :CNN(分类检索,行为估计)
之前:人为图像分类,手贴标签
缺点:关键字 表示 图像特征 狭隘,有主观性,
CNN:图像识别有成就,高识别率检索少

1.1     卷积神经网络模型

AlexNet模型,图像处理

1.2     商品图像分类

CNN的商品分类:数据预处理,网络训练,调参

预处理对卷积核预训练:灰度处理 ,降维(PCA)
随机梯度下降:SGD(对卷积核中权值初始化,反向传播调参)

2     系统搭建
2.1     AlexNet卷积神经网络模型
2.2     构建样本库数据集
2.3     分类优化

图像有多语义属性

2.4     图像检索优化

YOLO



题目:多模态深度学习综述

搜索源:知网
搜索词:主题(多模态),关键词(深度学习)
本文应用:综述
论文关键词:多模态; 深度学习; 神经网络; 模态表示; 模态传译; 模态融合; 模态对齐;

摘要

多模态深度学习:四类:模态表示、模态传译、模态融合、模态对齐

0     引言在这里插入图片描述
1     模态表示

单模态:语句,视觉,声音
语句:单词独热,低维空间,序列的袋子表示,序列低维
视觉:图像,视频
声音:提取,高阶表示

2     模态传译

A模态信息,传译存储在B模态中
传译结果的可预测性:

  1. 有界传译:
  2. 开放性传译

图像识别、图像标注、图像问答、视觉对话:流行新领域,图像模态转换为语句模态, 用语句模态表示图像中所包含的信息。

3     模态融合

多模态预测

4     模态对齐

辨别多个模态 元素间关系



题目:基于深度学习的视频内容描述研究

进度 :未完成
搜索源:知网
搜索词:主题(多模态),关键词(深度学习)
本文应用:视频内容描述
论文关键词:视频内容描述; 多模态; 注意力机制; 语义属性; 深度学习;

摘要

人工智能:

  1. 感知智能:图片分类、自然语言翻译
  2. 认知智能:看图说话、视觉描述
    视频理解终极目标:视频和自然语言的连接
    粗粒度视觉理解:视频分类、物体检测


题目:基于深度学习的图像自动标注方法综述

搜索源:知网
搜索词:主题(多模态),关键词(深度学习)
本文应用:图像自动标注
论文关键词:图像自动标注; 多模态空间; 多区域; 编码-解码; 强化学习; 生成式对抗网络;

摘要

图像自动标注:计算机视觉 + NLP
五个分类:多模态空间、多区域、编码-解码、强化学习、生成式对抗网络
本文:

  1. 以上 五个分类标准介绍
  2. 数据集对比
  3. 不同方法优缺点
  4. 现状,提出3个关键问题,总结展望
0     引言

人可以看图描述,计算机不可以
前人:

李飞飞:自动生成图像的NLP

生成图像文本描述:

  1. 底层视觉特征 + 高层语义 间转换
  2. 检测图像的场景物体,理解动作,属性,关系
  3. 语言模型,生成句子

图像自动标注:图像高层语义理解,图像 + 文本交叉
应用:帮助视觉障碍者理解图像
最近图像优秀领域:图像分类,检测,机器翻译
图像分类 超过人类
应用:

图像检索:图像成倍传播
个性化文本描述

前人:

Fuk:引入外部数据库 ,未描述
Gao L:解码两阶段,提升准确性
Chen F:GroupCap方法,相同主题图像,相关性对图像多样化标注
彭宇新:视频标注,注意力层级对齐方法 AGHA,建立视频特征,文本特征

1     传统图像自动标注方法

图像自动标注:文本生成方式不同:基于检索,基于模板

1.1     基于检索图像自动标注

信息检索最佳匹配
数据集 = { 图像集,图像的文本描述 }
待标注图像 和 图像集中图像相似度,选出 相似子集={ 相似图像集,相似描述}
根据相似描述,选出待标注图像的文本描述
前人:

Farhadi:<物体,动作,场景>,空间,图像+文本 映射到此空间,计算图像和文本语义相似度确定最相似句子
Ordonez:数据库里图像内容检索,文本排序。样本数据:100万张人工标注

总结:从现有数据集检索得到,局限

1.2     基于模版

人工设置词槽(对象名称,属性,对象关系)
给待标注图像,提取信息和关系,结合算法,补充词槽,生成描述
前人:

Yang:四元组,图像检测算法+训练的语言模型,检测图像+预测连句的动词和介词,隐马尔可夫算法 ,补充四元组句子

四元组:<名词,动词,场景,介词>

Li:填充三元组,维基百科数据训练 得N-gram 语言模型

三元组:<形容词 1,名词 1>,介词,<形容词2,名词 2>

缺点:针对固定长度的词槽,受句子模版限制,不灵活

2     基于深度学习的图像自动标注方法

深度学习:

  1. 自动提取、无人工设计特征
  2. 非线性,底层转高层数据
  3. 解决文本描述单一,准确率低
  4. 研究热点
  5. 分类:强化学习,生成式对抗,多模态,多区域,编码-解码

本节:总结深度学习

2.1     多模态空间

多模态空间:

  1. 图像特征+文本信息,映射同一空间,成多模态表征信息
  2. 特征提取(文本,图像)- 多模态 - 文本生成 - 描述

    特征提取(文本):词向量,提取
    特征提取(图像):深度卷积神经网络
    多模态:图像+文本融合
    文本生成:多模态+文本描述

  3. 前人:

Kiros:MLBL-B 和 MLBL-F,图像+文本特征 联合学习
Karpathy :深度。图像+文本 双向检索,隐式对齐
Mao:m-RNN。

语言:词,稠密词,向量 ,上下文信息
视觉:
多模态网络:语言+视觉+单层神经网络,softmax分类器,预测

2.2     多区域

不同区域文本描述

物体检测算法:不同物体区域
CNN:视觉特征
语言模型:文本描述

前人:

Johnson:DenseCap:卷积神经网络;密集定位层; LSTM

缺点:区域重叠 ;歧义性

Yang:联合推理,上下文融合。目标区域特征+文本推理
李飞飞:Visual Genomes 数据集。

2.3     编码-解码

前人:

Cho:神经机器翻译,准确性和速度提升
Vinyals:最大似然估计NIC,CNN,LSTM
Jia:gLSTM
Mao:特殊物体和区域描述
Wang:深层双向 LSTM,一个CNN,两个LSTM

编码:深度神经网络-图像
解码:图像+文本—>描述(LSTM)
编码-解码分类:

  1. 注意力:问题:不根据信息改变,忽略图像空间区域

    xu:硬注意力,软注意力。
    Pedersoli :图像 文本、RNN隐藏层,映射
    Anderson:Faster R-CNN,物体检测
    Park:上下文序列记忆网络,融合上下文

  2. 语义概念:高层语义 > 底层视觉
    步骤:CNN 图像+语义,图像-解码,语义-解码 -隐藏层,解码-标注

    Karpathy:深度视觉 - 语义对齐,卷积神经网络-图像,双向循环-文本,多模态嵌入-映射
    You :语义+RNN隐藏,输出层
    Yao: LSTM -A

2.4     强化学习

问题:最大似然估计和反向传播,评价指标 损失函数不统一

Ren:决策框架:策略网络(局部)和价值网络(全局)
Rennie:SCST,序列模型,归一化
Zhang:有限马尔科夫决策过程,actor-critic,最大化累积奖励

2.5     生成式对抗

生成式对抗:GAN,无监督,生成器+判别器,无标签,
生成器:损失值学习
判别器

Dai:CGAN
Shetty:多重标注,Gumbel 采样器克服数据离散

5     关键问题,研究方向

深度学习:多层神经网络,自动提取特征,不依赖手工特征提取器
考虑多种数据特征融合

  1. 高层语义特征
  2. 图像和文本两种模态融合

解决:

  1. 质量 评价标准
  2. 语义鸿沟
  3. 模态融合


题目:基于深度学习的多模态融合网民情感识别研究

搜索源:知网
搜索词:主题(多模态),关键词(深度学习)
本文应用:网民情感识别
论文关键词:网民情感; 多模态融合; 情感识别; 双向长短期记忆模型; 微调卷积神经网络; 网络舆情; 舆情监测;

摘要

网民情感识别
以往缺点:单模态,缺乏结合 文本以及附带图片 识别情感
本文:

  1. 多模态
  2. 词向量对本文表示
  3. 提取的文本和图片情感特征,特征层融合,输入SVM中, 实现多模态融合识别

    建构BiLSTMs模型提取文本情感特征
    构建基于迁移学习的 微调CNNs提取图片特征

  4. 将 多模态融合(DNNs-SVM)与基线模型对比

    基线模型:word2vec+BiLSTMs、BERT+BiLSTMs、CNNs、微调 CNNs和 DNNs

  5. 结果:文本图片的多模态融合 优于 单模态,多模态融合(DNNs-SVM) 优于 基线模型
0 1     引言

背景:社交网络,网络舆情, 网民对某事件或话题表达主观看法和观点
形式:文本,图片,产生情感性的内容
网民情感是网络舆情的重要特征之一
现状:网民 情感识别基于文本,用情感词典
前人:

kim:情感词典 ,计算词汇情感判断文本
Pang:文本情感分类,用不同模型分析电影评论
Tai:改进树形长短期记忆网络(Tree-LSTM),分析电影评论,情感分类 ,良好效果

缺点:网民表达内容多种含义时,只文本难辨识情感,网民 爱配图表达,所以要综合文本和图片,解决表达 多义性
多模态情感融合:对不同模态特征提取,分类
前人:

Rosas:词袋模型表示文本特征,OpenEAR提取音频特征,Okao Vision提取面部表情特征,这仨拼接长向量,输入至SVM,识别多模态
Majumdar:分层,文本 音频 面部表情特征两两融合。再拼接,输入

综合:多模态 的视觉模态多是人脸表情为主
本文:

  1. 图片 和文字结合的舆情分析
  2. BiLSTMs 提取文本,CNNs图片的情感特征,拼接,输入 SVM,分类。

    BiLSTMs 文本情感分类:双向长短期记忆网络 BiLSTMs,做 RNN 变体,有效学习上下文信息,避免梯度爆炸和梯度消失(上下文拉长)
    CNNs图片的情感特征:卷积神经网络CNN 空间不变性

  3. 对比模型:文本的 BiLST- Ms 模型,BERT模型、图片微调 CNNs模型,CNNs模型,融合文本和图片 的端到端 DNNs 模型
2     相关研究
2.1     情感识别

舆情关键:网民情感
以往缺点:文本数据的情感标注 没有标准
前人:

吴鹏:心理模型OCC + CNNs,较好效果
何炎祥:微博文本 表情符号多 + 词向量 = 表情符号特征矩阵
突发事件中:情感词向量 + BiLSTMs
周清清:迁移学习 优于 非迁移学习。解决了情感识别,需要精准标注的语料
兰月新:建模和仿真,情感变化趋势,预测。

网民负面情绪:愤怒,伤心,害怕

2.2     图片情感识别

新领域

三类:

  1. 底层视觉特征:抽取与人类情感相关的底层视觉特征,颜色、线 条等手工特征,分类器分类
  2. 中层语义:中层语义特征 解决 底层特征语义鸿沟 ,形容词、名词对 ANPs
  3. 深度学习:深层次模型分类。重大突破

前人:

You:迁移学习,在mageNet预训练CNNs 模型,不同情感弱标注图片,三百多万张,微调 (fine-tune),CNNs模型 优于 机器学习
Campos:目的是看 微调 在图片情感识别中 的优越性。AlexNet 式模型,DeepSent数据集,微调。释放不同层或增加全连接层,学习图片情感特征,提升性能
Chen:CNNs的视觉情感 分类模型,ImageNet 数据集预训练,标注的ANPs微调,优于 SVM模型(手工特征训练)

2.3     多模态融合情感识别

不同模态特征,融合,输入至分类器,完成识别
融合方式:1)特征层融合(早融合)         2)决策层融合(晚融合)
前人:

Lin:提出新方法,不同模态通用的情感特征,层级建模解决情感语义鸿沟,深度学习文本和图片的低层级特征,用表情符号学习中层情感特征,最后识别
Williams:提出框架,识别社交视频情感,输入层拼接特征,音频 人脸表情 文本特征,主成分分析(PCA)降维,输入,识别
Poria:GAVAM 提取 人脸面部表情特征,OpenEAR提取 音频特征,概念抽取提取 文本特征,三特征拼接,输入至分类器,识别

通常:模态的选择多以文本、人 脸表情和音频为主。
实际:网民 面部表情 + 文本 表达 少,图片+文本 多
本文:文本+图片,模型(深度学习+ SVM)提取文本+图片情感特征,特征层融合,输入模型中,情感识别

3     模型设计

本文:模型( DNNs + SVM ),文本+图片,正负中性情感
深度神经网络:BiLSTMs + 迁移学习微调 CNNs

BiLSTMs:提取文本的情感特征
微调CNNs:提取图片的情感特征

特征层融合后输入SVM,情感识别

DNNs:不同模态的特征提取
SVM:对特征层融合后的特征进行情感识别

3.1     文本情感特征提取模型

大规模语料:Skip-gram 模型,训练词向量,量化文本,输入至 BiLSTMs,情感识别

Skip-gram 模型:属 词嵌入,本文用训练词向量表示文本,可以 预测上下文,无监督
RNNs:代表性,缺点:上下文间隔拉长,网络变深,出现梯度爆炸,梯度消失
LSTMs:RNNs变体,长短记忆,克服梯度问题,包含三个门,细胞状态

遗忘门:控制历史细胞状态保存信息
输入门:处理当前序列位置的输入,更新细胞状态信息
输出门:判断下个状态的输出结果

NLP通常表示文本:one-hot 和 分布式

one-hot:每个词是长向量,向量稀疏,维度灾难
分布式:词嵌入 使词映射到低维空间,语义词更近

3.2     图片

关键:识别图片中隐藏的情感
本文:VGG-16做图片情感特征提取 基准模型

3.3     多模态融合

关键:模态特征提取,融合,融合后分类
特征层融合:单模态 情感识别完成 前,融合隐层的情感特征
本文单模态网络: BiL- STMs模型和微调 CNNs模型
SVM:统计学习理论,结构风险最小化原理,较好泛化能力,解决小样本问题,解决向量从低维映射高维,核函数解决分类
本文:SVM 分类器。SVM 参数(核函数、惩罚参数 C)



题目:心理健康教育漫画多模态话语分析

搜索源:知网
搜索词:主题(多模态)

摘要

视觉语法,多模态话语框架,多模态图像分析软件(MMAI)对心理健康 漫画分析
探究再现意义,互动意义 ,构图意义
揭示模态间关系,给心理工作者启示

0     引言

心理教育漫画:文字,图形,色彩结合,符合多模态

3     心理健康漫画多模态话语分析

多模态软件MMAI,对图片标注分析
再现意义:图片 再现客观事实
互动意义:图像参与者,事物与看图人间互动
构图意义:信息值,显著性,取景

4     总结

借助多模态软件,对漫画进行多模态标注,分析他们的再现意义,互动意义,构图意义, 揭示各种模态实现意义



题目:多模态人体动作表示识别及其正骨康复训练应用综述

搜索源:知网
搜索词:主题(多模态)
本文核心:人体动作识别HAR

摘要

分为:

  1. 动作捕捉:基于视频,深度相机,惯性传感器
  2. 动作分类(深度学习):特征自动提取,多模态特征融合

应用:正骨康复训练:监督锻炼 和 模拟训练
讨论:HAR 的精准动作捕捉,多模态特征融合,正骨康复重点难点

0     引言

HAR:确定人体动作类别,获取人体行为信息 ,反应行为目的
医学中:衡量 脑卒,骨折患者 健康恢复度

其他应用
智慧医疗:记录康复动作,分析完成程度,调整康复方案,合理人力资源
体育训练:记录优秀运动员信息(标准),帮助其他运动员指定精准训练方案
视频监控:老人日常动作 监护 健康
公共场所:识别可疑动作,预防危机

困难:

  1. 动作有时间空间双重复杂性:

    时间:不同人体啥啥都不同
    空间:人体活动范围不固定,自由度变化,背景遮挡,自身遮挡。
    其他 :活动场景复杂,运动数据信噪比低,后续动作难识别

  2. 完整可变性

中医正骨:特定手法治疗骨关节损伤
HAR 和中医正骨结合:动作捕捉获取 康复训练信息,分类识别反馈给医生

1     动作捕捉

动作捕捉:HAR用人体的三维空间运动数据,追踪记录人体 过程
技术:机械式,声学式,电磁式,光学式
应用基于:视频,惯性传感器,深度相机

视频:难达到人体视觉感知准确度
深度相机:解决光照影响,深度图像,距离图像
惯性传感器

2     动作识别
2.1   多模态数据,手工特征提取

人体动作数据:时序动作数据,数据大,冗余
特征提取 -> 动作分类
传统视频特征提取:基于密集轨迹算法,提取定向 光流直方图,梯度方向直方图,轨迹特征
人体骨骼框架模型:人体形态特征的人体表现,用视频中关节点处理,或者 深度相机直接获得
运动骨架描述符,融合人体的相对几何速度,相对关节位置,关节角度 互补特征
惯性传感器的人体动作数据 :加速度,角速度,磁力数据。用滑动窗口在时序数据上获取各种值统计特征

2.2   深度学习,人体动作识别应用

多模态:模拟人脑分析数据,分析非线形关系
深度学习:自动提取特征,原始数据到分类识别的端到端处理,解决类内差异性和类间相似性
单模态:难以动作准确分类

3     总结

HAR在正骨康复的热点,难点:

  1. 精确动作捕捉:关键

深度相机:不受光线干扰 ,无法克服 人体活动空间受限
惯性传感器:动作数据因为传感器抖动有误差,人体舒适度差

  1. 多模态融合:用特征连接或决策融合实现,
    深度融合:特征融合的热点
    深度学习实现动作识别优势:自动提取,深度学习在HAR中应用 是新的研究方向
  2. HAR在中医正骨的应用

本文推荐 ,通过深度学习在 HAR 中的应用





下面是老早之前的,梳理中的鼻祖:


第一天论文 10.25

1.Portfolio Management via Two-stage Deep Learning with A Joint Cost
投资管理
2.A review: Deep learning for medical image segmentation using multi-modality fusion
fusion:融合


第二天论文 10.26

1.State-of-the-Art Deep Learning in Cardiovascular Image Analysis

心血管影像分析的深度学习(未购买全文)
期刊:JACC: Cardiovascular Imaging(未购买)

2.Nemesyst: A hybrid parallelism deep learning-based framework applied for internet of things enabled food retailing refrigeration system

标注:(好文)
期刊:Computers in Industry
1.deep learning frameworks exist, such as tensorflow, pytorch and keras
2.解决问题: 深度学习框架tensorflow, pytorch and keras,是单节点,
3.创新点:适应大规模的数据处理、版本控制和部署,同时保持不特定的任何单个节点框架。提出新框架:nemesyst

3.Identifying depression in the National Health and Nutrition Examination Survey data using a deep learning algorithm

期刊:Journal of Affective Disorders(未购买)
抑郁症

4.Forming a new small sample deep learning model to predict total organic carbon content by combining unsupervised learning with semisupervised learning
碳总量

期刊:Applied Soft Computing
综述:提出了新算法,它结合了非监督和半监督
应用于有机碳,不感兴趣

5.Privacy-enhanced multi-party deep learning

期刊:Neural Networks
现状:私有数据担心泄露隐私,不愿共享,可用数据很少,模型过拟合
解决:两种方法,1)没看懂。2)加密

6.An adaptive deep learning model to differentiate syndromes of infectious fever in smart medicine

期刊:Future Generation Computer Systems
智能医学中传染病热证候

7.Individualized prediction of depressive disorder in the elderly: A multitask deep learning approach

期刊:International Journal of Medical Informatics
老年抑郁混乱


第三天论文 10.29

1.Data mining-based damage identification of a slab-on-girder bridge using inverse analysis

期刊:Measurement
损伤检测方法,损伤识别,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/102844
推荐阅读
相关标签
  

闽ICP备14008679号