大创——立项答辩
答辩稿
各位评委老师大家好,我是我们组的主持人张熙浚,我们组的研究方向是基于多模态特征融合的视频暴力行为识别方法的研究
接下来我会从四个方面介绍我们的项目
首先是背景与意义,暴力行为对社会危害极大,即使公共场所存在大量监控摄像头,但这些视频片段通常被用来在暴力犯罪发生后提供线索和证据,而很少被用来实时监控并阻止暴力行为。
由于监控人员不可能实时监控每一个摄像头产生的视频,所以部署暴力行为监测系统,能够节约人力资源,降低监控人员因疲劳而造成的风险,这十分关键
接下来,我将讲述当前暴力行为检测的研究现状。主流的人体动作识别把数据模态分为2类:视觉模态和非视觉模态。不同模态的数据有着各自的独特优势。
目前主流的单模态深度学习方法存在以下缺点。但真实的暴力事件场景往往存在以下特点。因此,我们提出了基于多模态的暴力事件检测,通过结合多种数据来源,从多个角度捕捉行为特征,尤其是在面对复杂环境、多人交互和遮挡等问题时,具有显著的优势。
接下来我会通过几篇论文中的方法介绍行为识别算法的研究现状
这一篇提出了数据集Rwf-2000,同时提出一种的双流网络架构,他们充分利用了RGB数据提供的外观信息和光流提供的运动信息,但缺点在于光流法计算量大、存储成本高,仅仅适用于光照条件良好、不拥挤的情况
这一篇是基于骨架的方法,通过提取人体骨骼关节,构成三维骨架阵列,通过骨架点卷积,实现分类。
优点是骨架可以很好的表示人体运动信息,但问题在于仅使用骨架数据,效果高度依赖于位姿估计的精度,无法有效应对存在遮挡的情况,同时因为仅使用骨架数据,其他信息存在缺失
这一篇是基于 2D CNN + RNN 的方法,2D CNN 提供强大的空间特征提取能力,RNN 提供强大的时间序列建模能力。将两者结合,能够更好地理解视频中的空间和时间信息。这一篇使用简单快速的预处理方法减少了冗余的背景信息,但其仅使用RGB模态,提取的特征不够全面
接下来我将介绍我们的研究内容与方法
我们的研究内容大致包含三个部分:1.提出一种基于多模态特征融合的视频暴力行为识别算法2.提出一种自适应的注意力算法用于多模态融合3.完成人体暴力行为检测系统的设计,接下来我将依次为大家介绍
第一部分,在特征提取阶段,为了区分暴力行为与非暴力行为,我们选择了三个要素进行提取:人体姿态、运动趋势和幅度、人物之间的位置关系,为了获取以上三个要素,研究工作包括下列内容:
a.RGB模态的去除冗余信息 为了避免原生RGB图像冗余信息影响模型判断,我们决定对于原生RGB图像进行冗余信息去除工作,首先计算一个视频中所有帧的均值,记为平均帧,用每一帧减去平均帧:去除不变的背景,保留运动的人体。
b.运动趋势与幅度特征的提取 目前主流反映物体运动趋势的方法是光流法,但我们考虑到光流图像在低像素复杂场景下效果不佳,且易受光照条件改变,并且计算量巨大,于是我们决定采取帧差法,通过对视频图像序列中相邻两帧作差分运算,来获得运动目标轮廓,以很好地适用于存在多个运动目标的情况。
c.深度模态的提取 在原始的RGB模态,复杂场景中难以分辨人物间的相对位置关系。因此,我们选取深度模态,其去除了颜色和纹理信息,并提供三维结构信息和人体轮廓,我们利用该论文提出的深度估计算法,对原始RGB视频进行深度估计,得到深度图,其清晰地反映了三维空间中人物间的相对位置关系。
算法框架方面,我们选择了CNN-LSTM的深度学习网络。LSTM擅长处理时序数据,而CNN能够从视频帧中提取空间特征。通过结合两者的优势,并以此构建了算法框架。
第二部分我们提出了一种自适应的注意力算法用于多模态融合,动态调整每个模态的权重,强调有用的信息特征,抑制不太有用的特征,从而应对不同场景。
池化,全连接层,归一化函数
第三部分,我们完成了人体暴力行为检测系统的设计,刻画了系统的边界及大小,人体暴力行为检测系统是一个自动检测暴力行为的智能视频监控系统。该系统采用了四层架构,即访问层,表示层、业务层以及数据层。 包含暴力检测模块,用户管理模块,视频源管理模块
我们已经初步构建了暴力行为的检测流程,系统包含离线分析和在线监测两种模式
为了提高检测速度和避免资源浪费,根据传入视频的总帧数进行判断,采取提示过短、一次预测或是多轮预测。
离线分析不依赖实时的监控视频,可对任意视频进行分析。它 的优点是它不依赖于视频监控系统,可以直接选择视频开始分析。
在线监测是暴力行为检测系统提供的另一种检测方式。它旨在利用监控视频资源,进行实时的暴力行为检测,达到即时分析并报警提示的功能。
最后是进度安排,我们已经完成算法大部分的编写,后续会继续完成系统的开发
谢谢各位老师观看,请各位老师批评指正
疑问与解惑
为什么暴力行为检测隶属于人体行为识别
人体行为识别(Human Activity Recognition, HAR)是一个广泛的领域,旨在通过传感器或视频数据来识别和分析人的各种动作或行为。暴力行为检测(Violent Behavior Detection, VBD)是这一领域的一个子任务,其核心目标是识别出具有暴力性质的特定行为,如打斗、推搡、殴打等。
暴力行为检测隶属于人体行为识别,主要原因是暴力行为本质上也是一种“人体行为”,通过分析人体的运动模式、姿态变化、动作轨迹等特征,能够有效识别出暴力事件。
对于暴力行为的定义是什么?
暴力行为通常指的是一种以伤害他人或具有威胁性、攻击性目的的行为。
之前的暴力行为检测方向是什么,现在侧重于人体动作本身有什么好处吗?
暴力行为的检测方法传统上主要依赖于视频监控中检测到的图像信息、声音信号以及动作的特征。早期的检测方法侧重于基于背景和环境的变化,声学信号分析
现代的暴力行为检测越来越注重人体动作本身的识别,这有几个显著的好处:
- 精确度提高:通过分析人体动作的细节,尤其是肢体的动态变化(如运动轨迹、速度、姿势变化),可以更准确地判断是否为暴力行为。
- 降低误报率:单纯依靠环境变化或者声学分析容易受其他因素干扰(如背景噪音、非暴力事件的运动),而人体动作本身可以提供更加直接、可靠的行为判定依据。
- 多模态融合:现代的暴力行为检测往往不仅仅依赖于单一的视觉信息,还结合了深度学习、动作识别等技术,可以从多个角度进行判断。通过分析人体动作特征和其他环境数据(如声音、位置等),可以更好地识别暴力事件。
- 实时监控:实时检测人体动作变化对于暴力行为的早期预警至关重要,尤其是在公共安全或视频监控系统中,动作识别可以即时检测到潜在的暴力行为并进行响应。
综上,侧重人体动作本身不仅可以提升检测的准确性,还能更好地从动态和连续的角度识别暴力行为,提高系统的实时性和鲁棒性。
单模态的人体动作识别的缺点有哪些
单模态人体动作识别(即仅使用一种数据模态,如视觉、声音、加速度等)存在以下主要缺点:
信息局限性:
单一模态只能捕获动作的部分信息,可能导致对动作的理解不够全面。例如,仅依赖视觉模态可能无法捕获细微的物理接触或动作的力度变化。
环境敏感性:
单模态方法对环境条件过于依赖。例如,视觉模态在光照不足或存在遮挡的情况下表现不佳,而非视觉模态(如加速度计)在传感器未正确佩戴或被干扰时表现不佳。
无法应对模糊或模态冲突:
单模态方法难以处理模糊的行为信号或区分相似动作。例如,在视觉模态中,某些动作(如挥手与投掷)可能在外观上十分相似。
鲁棒性差:
单模态在面对复杂场景(如多人交互、噪音、遮挡等)时,容易出现误判或漏判。例如,在仅依赖声音模态时,背景噪音可能干扰动作识别。
缺乏上下文信息:
单模态通常难以捕获行为发生的上下文。例如,仅通过视觉识别到一个人弯腰的动作,可能无法判断是捡拾物品还是摔倒
暴力行为场景有哪些特点,使用多模态对这些特点的优势有哪些
暴力行为场景通常具有以下几个显著特点,这些特点对检测系统提出了更高的要求:
动态性强:
暴力行为往往是迅速发生的,例如打斗、推搡、摔倒等动作可能在短时间内完成,导致动作的变化非常快。
多人交互:
暴力行为通常涉及两个或更多个体之间的互动,如互相推搡、打斗或攻击等。多个目标的运动和交互增加了识别的复杂度。
复杂的姿态变化:
暴力行为中的人物姿态变化通常非常剧烈,涉及肢体的快速摆动、抓握、推拉等动作,且可能伴随一定的身体接触。
不规则的空间布局:
在暴力行为场景中,人物可能会在空间内迅速移动,动作的方向和速度可能会发生剧烈变化。背景也可能因为人物的动态而发生显著变化。
潜在的遮挡:
在暴力行为中,人物之间的动作可能会出现遮挡(例如,两人打斗时,其中一个人可能被另一个人挡住)。这种情况给基于视觉的检测带来了挑战。
噪声与干扰因素:
背景中的其他活动、环境变化、背景噪声等都可能干扰暴力行为的识别。例如,打斗声可能被背景音乐、交通噪声等因素掩盖。
多模态(即结合多种数据来源或感知方式,如视觉、声音、传感器数据等)方法能够弥补单模态方法的不足,通过结合视觉、声音和传感器等多模态信息,可以更好地应对这些挑战,提升暴力行为检测的准确性、鲁棒性和实时性。多模态方法能够综合各类信息,从多个角度捕捉行为特征,尤其是在面对复杂环境、多人交互和遮挡等问题时,具有显著的优势。
2D CNN + RNN 的优点
2D CNN(卷积神经网络)与 RNN(递归神经网络)的结合是行为识别中的一种常见方法,尤其适用于视频行为识别任务。其主要优点包括:
- 空间特征与时间依赖性的有效结合:
- 2D CNN:能够从视频帧中提取空间特征,如人物的姿态、背景和动作细节。通过多层卷积,CNN能够识别局部和全局的空间信息。
- RNN(LSTM/GRU):RNN特别擅长处理时序数据,可以建模视频帧之间的时间依赖关系,捕捉动作的动态变化和时间长短的依赖,适应动作序列的连续性和长期依赖。
- 优点:2D CNN 提供强大的空间特征提取能力,RNN 提供强大的时间序列建模能力。将两者结合,能够更好地理解视频中的空间和时间信息,提升行为识别的准确性。
- 自动特征学习:
- 传统方法依赖手工特征提取(如HOG、光流等),需要依赖专家知识且难以适应多样的场景。而 2D CNN 能够自动学习空间特征,减少了人工设计特征的依赖,提高了对复杂场景的适应能力。
- RNN 则可以自动从数据中学习到行为模式的时间序列特征,不需要事先设定固定的时间模型或参数。
- 鲁棒性强,适应性好:
- 2D CNN 通过卷积层提取多层次的空间特征,具有较好的鲁棒性,能够应对不同背景和复杂场景中的视频数据。
- RNN 具有处理不规则、可变时间长度序列的能力,能够识别动态变化的动作和突发行为,提高了模型的适应性。
- 可扩展性强:
- 2D CNN 和 RNN 的组合能够很好地扩展到不同的视频数据规模、场景和复杂度上。随着数据集的增大,模型仍然能够通过更深的网络层次和更多的时序数据进行训练,进一步提升识别效果。
答辩稿——初版
各位评委老师大家好,我是我们组的主持人张熙浚,我们组的研究方式是基于多模态特征融合的视频暴力行为识别方法研究
接下来我会从五个方面介绍我们的项目
首先是背景与意义,暴力行为对社会危害极大,即使诸如学校、商场、银行、车站等公共场所存在大量监控摄像头,产生了大量的视频片段,但这些片段通常被用来在暴力犯罪发生后提供线索和证据,而很少被用来实时识别并停止暴力行为。
这便引出了我们项目的目的,我们希望利用计算机视觉技术,赋予机器暴力行为的判别能力,从而及时发现暴力行为并能有效降低其带来的危害,而且大大降低了人力成本,在安防领域有极大的应用价值。
暴力行为的检测方法早期的检测方法主要是依靠设立一些规则,或是依靠背景和环境的变化,这些方法在很多方面存在不足,包括受环境因素影响大,特征提取和分析能力有限,计算效率低等问题
而现代的暴力行为检测越来越注重人体动作本身的识别,其通过分析人体动作的细节,尤其是肢体的动态变化,不仅可以提升检测的准确性,还能更好地从动态和连续的角度识别暴力行为,提高系统的实时性和鲁棒性。
由于监控人员不可能实时监控每一个摄像头产生的视频,所以部署视频暴力行为识别系统,能够节约用于监控的人力资源,降低监控人员因疲劳或走神而造成的漏检风险,一旦识别到暴力行为立即警示相关人员,进一步采取相应措施。由此可以得出我们项目研究的现实意义和应用场景。
接下来,我将讲述当前暴力行为检测的研究背景和挑战,并引出我们的解决方案。多种不同的数据形态都可以用来表示人类的动作和行为。主流的人体动作识别把这些模态分为2类:视觉模态和非视觉模态。这些数据模态是对不同的信息来源进行编码,根据应用场景的不同,不同模态的数据有着不同的独特优势。
目前主流的单模态深度学习方法存在以下缺点:信息单一、对环境敏感、鲁棒性较差,难以应对复杂场景等。但真实的暴力事件场景往往存在以下特点:存在复杂姿态变化,多人交互,大量环境噪声等。因此,我们提出了基于多模态的暴力事件检测,通过结合多种数据来源,从多个角度捕捉行为特征,尤其是在面对复杂环境、多人交互和遮挡等问题时,具有显著的优势。
随着深度学习和计算机视觉技术的发展,深度学习方法已经成为了行为识别算法的主流方向,接下来我会通过几篇论文中的方法介绍研究现状
这一篇是早提出使用深度学习方法解决视频暴力行为识别任务,直接将视频输入三维卷积进行建模
这一篇提出了数据集Rwf-2000,同时提出一种的双流网络架构,他们充分利用了RGB数据提供的外观信息和光流提供的运动信息,但缺点在于光流法计算、存储成本高,适用于光照条件良好、不拥挤的情况
这一篇提出了一种弱监督方法,即通过少量的标签(例如,仅标记视频是否包含暴力,而不是标记具体的暴力事件位置和类型)来训练模型。他选取视频帧最关键的区域,但使用I3D作为骨干网络,参数量巨大(1300万)
这一篇是基于骨架的方法,通过提取人体骨骼关节点构成三维骨架阵列,根据局部区域点的特征和时空位置信息,构建特定的权重分布策略,通过骨架点卷积实现分类。优点是骨架可以很好的表示人体运动信息,但问题在于仅使用骨架数据,效果高度依赖于位姿估计的精度,无法有效遮挡情况,同时因为仅使用骨架数据,其他信息缺失
这一篇是基于 2D CNN + RNN 的方法,2D CNN 提供强大的空间特征提取能力,RNN 提供强大的时间序列建模能力。将两者结合,能够更好地理解视频中的空间和时间信息,提升行为识别的准确性。这一篇使用简单快速的预处理方法突出了人体,减少了冗余的背景信息,但其仅使用RGB模态,提取的特征不够全面
我们的研究内容大致包含三个部分:1.提出一种基于多模态特征融合的视频暴力行为识别算法2.提出一种自适应的注意力算法用于多模态融合3.完成人体暴力行为检测系统的设计,接下来我将依次为大家介绍
第一部分,在特征提取阶段,为了区分暴力行为与非暴力行为,我们选择了三个要素进行提取:人体姿态、运动(趋势、幅度)、人物之间的位置关系,为了获取以上三个要素,并保证模型的通用性和现实性,需要从原始的RGB图像中提取以上特征,研究工作包括下列内容:
a.RGB模态的去除冗余信息 为了避免原生RGB图像冗余信息影响模型判断,减少计算量,我们决定对于原生RGB图像进行冗余信息去除工作,首先计算一个视频中所有帧的均值,记为平均帧(主要包含背景信息,因为背景在所有视频帧中几乎保持不变)用每一帧减去平均帧:去除(不变的)背景,保留(运动的)人体。通过简易的预处理,去除了冗余的背景信息,聚焦于人体的外观、姿态。
b.运动趋势与幅度特征的提取 目前主流反映物体运动趋势的方法是光流法,但我们考虑到光流图像在低像素复杂场景下效果不佳,且易受光照条件改变的影响,于是决定采取帧差法,通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,以很好地适用于存在多个运动目标的情况,算法相对实现简单,程序设计复杂度低,对光线等场景变化不太敏感,能够适应各种动态环境,有着比较强的鲁棒。
c.深度模态的提取 在原始的RGB模态中,复杂场景中,人物多且受光照影响严重,难以分辨人物间的相对位置关系。为了反映人物之间的位置关系,我们选取深度模态,其去除了颜色和纹理信息并提供三维结构信息和人体轮廓,我们利用Depth estimation算法,对原始RGB视频进行深度估计,得到视点到场景中各点之间的距离作为像素点的图片,即深度图,其划分了近景与远景,刻画了人物的轮廓,反映了三维空间中人物间的相对位置关系。
我们选择了CNN-LSTM的深度学习方法。LSTM擅长处理时序数据,可以建模视频帧之间的时间依赖关系,而CNN能够从视频帧中提取空间特征。通过结合两者的优势,我们可以让模型同时考虑到数据的时序信息和空间信息,减少参数降低过拟合风险,从而提供更精确的预测、更出色的性能以及更高的训练效率,并以此构建了算法思路。
第二部分,针对多模态融合中权重数值处理的问题,我们提出了一种自适应的注意力算法用于多模态融合,让模型自适应地学习不同模态特征之间的权重关系,允许模型根据具体任务动态调整每个模态的重要性,强调信息特征,抑制不太有用的特征,从而更灵活地应对不同的场景。
第三部分,我们完成了人体暴力行为检测系统的设计,刻画了系统的边界及大小,人体暴力行为检测系统是一个自动检测暴力行为的智能视频监控系统。该系统采用了三层架构,即表示层、业务层以及数据层。 它被设计成一个Web系统,主要以网页的形式显示在PC 显示器上
我们已经初步构建了暴力行为的检测流程,系统包含离线分析和在线监测两种模式
离线分析不依赖实时的监控视频,可对任意视频进行后处理式的分析。它 的优点是它不依赖于视频监控系统,可以直接选择视频开始分析,在视频来源 和分析时机的选择上更自由。
在线监测是人体暴力行为检测系统提供的另一种检测方式。它旨在利用监 控视频资源,进行实时的暴力行为检测,达到即时分析并报警提示的功能。这 一功能极大地降低了人工分析实时监控视频的成本,便于管理人员进行安全监 管,提高了监管的效率。
为了提高检测速度和避免资源浪费,根据传入视频的总帧数进行判断,采取提示过短、一次预测或是多轮预测。
最后是进度安排,我们已经完成算法大部分的编写,后续会继续完成系统的开发
谢谢各位老师观看,请各位老师批评指正