大创——论文筛选
本文对目前已收集到的论文进行筛选工作,并简单概述可取之处
视频监控中人体暴力行为检测系统设计与应用
非常非常好的一篇,跟我们要做的方向很贴合,每个人都要看一下,以下是我认为可以学习的地方:
绪论部分:课题研究的背景和意义;从智能视频监控技术和行为识别算法两个方面介绍了研究现状
同样选用了RWF-2000数据集,并给出了理由,同时介绍了三大常见数据集并进行了比较(HMDB-51,UCF101,Kinetics);在模型框架技术选型方面,简要介绍了 传统方法,然后对比了深度学习下的基于人体骨架的方法以及基于视频的方法。 之后详细介绍了三类基于视频的深度学习方法(双流法,3D卷积方法 和基于时序模型的方法)
本文文采用了双流模型 作为基础框架,我后续了解双流法与我们的 多模态方向是很贴合的
- 本文完成了人体暴力行为检测系统的设计与实现,包含离线分析和在线监测两种模式,这跟我们的设想很符合
基于注意力机制的暴力音视频检测方法研究
与上一篇同样是哈尔滨工业大学的硕士论文,侧重点也是多模态暴力检测,本文先提出分别基于视觉通道和基于听觉通道的暴力音频检测,再提出了基于视听觉通道的音视频特征融合的暴力音视频检测
本文开头的课题研究的背景和意义和研究现状同样值得参考
基于多模态的校园暴力检测
给我感觉一般,多模态的部分写的并不是很好,他还说的一个基于多模态的校园暴力检测,感觉什么都写到了什么都写的不是很精
但是他在相关理论基础详细地介绍了深度学习网络(RNN,LSTM,GRU)和人体动作识别(openpose),可以参考学习
基于对比学习的视频暴力行为检测算法及 TensorRT 平台实现
里面的对比学习和注意力机制不是很看得懂,但感觉写的挺好的,这篇还把识别系统做在TensorRT 平台实现轻量化,这个跟我们关系不大,只做了解
基于YOLO和ConvLSTM混合神经网络的暴力视频检测
有yolo相关知识,后续可做参考学习
国外论文
因为英文看的太费劲,对国外论文暂时只做初步筛选
Conv3D-Based Video Violence Detection Network Using Optical Flow and RGB Data:光流和RGB数据多模态
Multimodal vision-based human action recognition using deep learning: a review:关于多模态的综述论文,这一篇写的不错,有时间值得啃一下
A Real-Time 3-Dimensional Object Detection Based Human Action Recognition Model:3D卷积神经网络(3DCNN)、LSTM乘法递归网络和YOLOv6实时目标检测