一、基于梯度的光流计算方法中梯度计算对性能的影响(论文文献综述)
刘亮[1](2021)在《基于深度学习的视觉运动估计与理解》文中进行了进一步梳理随着深度学习的高速发展,计算机视觉技术在图像任务中取得了瞩目的成果。近年来,视频的数据量和业务量在监控安防、自动驾驶、互动娱乐、工业视觉等多个领域中呈爆炸式增长,这对人工智能技术在视频中的应用提出了新的需求。然而,将处理静态图像的深度学习方法直接迁移至视频序列任务中,将丢失时间维度的信息建模,从而无法有效地处理视频任务。因此,对视频任务展开深入研究有着重要的科学意义和社会价值。本文聚焦于视觉运动估计与理解领域,按照各项视频任务对信息的加工程度,以由浅及深的顺序展开研究。对于视频任务,现有的研究工作仍然存在诸多挑战:低层次的视觉运动感知任务以空间点或像素点为研究对象,其面临的最大挑战是监督学习标注数据难以获得,以及无监督目标函数的不可靠性;而高层次的视觉运动理解任务以视频中的目标或行为实例为研究对象,其难点在于如何以较低的计算成本实现高效准确的推理精度。针对上述挑战,本文研究低层次的无监督学习的深度估计、光流估计等稠密点的状态估计任务,以及高层次的多目标跟踪和行为检测任务。本文的研究内容与主要创新点如下:1.针对深度估计、光流估计以及运动区域分割等低层次视觉任务,本文利用几何约束提出多任务联合的无监督学习框架,无需标注数据便可对多个任务进行互相协同促进的学习。同时,本文提出对网络估计的深度与光流使用优化方法得到相机自运动,并获得场景的刚性流,进而根据视角合成误差对场景中的运动区域进行区分。通过对运动区域和静止区域引入特有的一致性损失,能够提升各子任务的预测精度。2.针对无监督光流估计任务中损失函数在大运动、遮挡、极端光照条件等复杂场景中不可靠的问题,本文提出了一种新颖的类比学习方法。通过设计各种变换来构造类比样本,以原始样本的预测为类比样本提供更为可靠的监督信号。此外,本文设计了一种高度共享的循环光流网络结构并提出多帧输入下的拓展结构,不仅显着降低了光流网络的参数量与计算量,并且达到了与主流监督学习方法相近的精度与更优的泛化性能。3.针对多目标跟踪任务,本文提出将目标检测、重识别以及运动估计子任务集成为一个无锚点网络,进行多任务联合学习。同时,本文提出循环结构的运动估计分支以及链式记忆推理策略,以较低的额外参数和计算量实现准确的运动估计,从而降低多目标跟踪对复杂关联算法的依赖。此外,本文提出以检测数据集的静态图片训练跟踪网络的方法,从而以较低的训练门槛实现了实时准确的多目标跟踪方法。4.针对视觉运动研究的落地问题,本文对工业装配过程中的运动跟踪与理解任务展开应用研究,提出了数据驱动的轻量级视觉运动跟踪与行为理解系统,以实现对装配过程中操作员手部动作的实时时空检测。在算法层面上,本文提出了以跨帧检测的方法进行逐帧多目标跟踪的算法,融合高频率跟踪器与低频率检测器的预测结果,实现低计算开销的高效目标跟踪。此外,本文提出以通用的方式对图像目标检测和视频行为检测网络分别进行了轻量化修改,进一步促使整个视频分析系统能够在低算力硬件平台上实时运行。对于上述研究内容,本文在视觉运动估计与理解领域取得了出色的研究成果,并在学术界与产业界得到了广泛应用,充分地补充完善了视频运动的前沿探索研究。
王昕煜[2](2021)在《移动机器人多传感信息融合位姿估计与速度控制研究》文中指出近年来,随着科技的不断进步发展,移动机器人相关技术已逐步在人类实际生活与生产过程中发挥重要作用,相关行业领域对于移动机器人的性能需求也愈发迫切。自主位姿估计与运动控制作为移动机器人在未知环境中完成工作任务的技术基础,近些年来引起了国内外学者的广泛关注。针对移动机器人在复杂环境下的实际功能需求,本文利用单目视觉、IMU与轮式里程计实时传感信息,进行移动机器人多传感信息融合位姿估计与速度控制研究。首先,根据移动机器人下单目视觉、IMU与轮式里程计多源传感信息,进行了移动机器人多传感信息融合前端处理研究。在单目视觉传感信息处理研究中,利用LK光流法对不同视觉图像帧间Harris角点特征进行匹配,并通过反向光流追踪的方法保证视觉特征匹配精度,然后根据视觉特征光流信息完成视觉关键帧的选取,基于对极几何约束实现视觉关键帧间位姿估计。在IMU与轮式里程计传感信息处理研究中,分别根据相关传感信息实现移动机器人运动状态估计。在此基础上,对各传感器的运动观测尺度进行初始校准,为移动机器人多传感信息融合位姿估计过程提供多源传感器冗余运动观测信息。其次,依据非线性优化理论对移动机器人多传感信息融合位姿估计进行研究。通过对多传感信息非线性优化融合方法的研究,构建了含有单目视觉、IMU与轮式里程计相关信息的移动机器人运动观测滑动窗口模型,实现了多传感器冗余运动观测下的移动机器人运动观测残差最小二乘优化,最终通过多传感信息融合完成对移动机器人位置、姿态等运动状态信息的精准估计。然后,设计开发了一种基于上下位机控制结构的四轮差速移动机器人系统,并针对传统移动机器人速度控制方法实际性能较低的问题,提出了基于运动速度优化估计的移动机器人速度控制方法。根据多传感信息融合计算得到的轮式里程计速度测量偏差信息,实现移动机器人运动速度优化估计,并采用PID控制策略实现移动机器人速度控制,提升移动机器人在复杂环境下的速度控制性能。最后,根据移动机器人系统设计方案完成实验平台搭建,在此基础上分别进行移动机器人位姿估计实验与速度控制实验。相关实验结果表明,本文位姿估计方法在不同实验环境下具有较好的移动机器人位姿估计精度与稳健性;本文速度控制方法相较于传统速度控制方法,在移动机器人直线运动过程中具有较好的速度控制精度与环境适应力。
邓家俊[3](2021)在《面向视频和点云数据的目标检测方法研究》文中进行了进一步梳理目标检测是计算机视觉的基础问题,旨在定位场景中出现的前景物体并判断它们所属的类别,在安防监控、自动驾驶、智能机器人等领域有着广泛的应用。随着深度学习技术的快速发展,面向图像的目标检测取得了长足的进步。然而,现实的应用场景给图像目标检测带来了向时间维度和空间维度的延伸需求。在时间维度上,现实生活中待处理的图像信号通常以视频序列的形式被获取,由静止图像到视频序列的推广,衍生了面向视频数据的目标检测方法。在空间维度上,对二维图像的检测难以满足智能系统在三维空间中的定位需求,而激光雷达扫描得到的点云数据由于带有良好的定位能力,被广泛应用于三维场景的理解。由二维图像到三维点云的拓展,衍生了面向点云数据的目标检测方法。本课题立足于面向视频数据和面向点云数据的目标检测方法研究,文中包含的主要研究内容及创新点如下:·提出一种基于多帧候选框关系建模的视频目标检测方法。特征聚合是视频目标检测的主要研究方向之一。采用特征聚合方式的视频目标检测方法通常显式地建立帧间像素点之间的关联,再通过运动补偿和特征加权累加的方式实现对当前待检测视频帧的特征增强。然而,视频中像素点之间的相关性预测极易受到拍摄质量的影响,如若不能保证像素点的准确匹配,将影响到视频目标检测方法的准确性。本文提出一种新的基于多帧候选框关系建模的视频目标检测方法,通过多阶段级联的结构,依靠网络的注意力机制建模时空上下文中候选框之间的关系,并以此实现对当前待检测候选框的特征聚合,从而达到提升视频目标检测精度的目的。·提出一种基于体素区域特征的点云目标检测方法。点云目标检测的研究依赖于点云的表达形式。常见的点云表达形式分为原始点云表达和体素表达。先前方法中普遍认为原始点云精确的位置坐标对定位三维空间中的物体有显着意义,然而本文发现体素粗糙的位置信息即可满足高质量目标检测的需求。本文提出的基于体素区域特征的方法——体素区域卷积神经网络遵循双阶段检测器的方式实现点云目标检测。该方法中利用体素有序存储的特征设计了体素区域池化操作,高效地从三维体素特征提取候选区域特征,并据此对候选框作出进一步调整。该方法不但取得了与基于原始点云的方法可比的精度,还保持了体素表达方法高效处理的特性。·提出一种基于多视角合成体素特征的点云目标检测方法。激光雷达扫描的点云在透视视角和鸟瞰视角的投影图存在着很好的互补特性。具体而言,透视视角下点云的投影分布密集,具有明显可辨认的语义信息,有利于对物体类别进行判断。在鸟瞰视角下,物体的尺寸不会随着与激光雷达的距离发生变化,并且物体之间不存在重合,有利于物体的定位。本文设计了基于多视角特征融合的体素特征提取方法,并且将研究内容二中的模型加以拓展,提出了伪三维体素区域卷积神经网络。由于本方法中三维体素特征的提取不再依赖于三维卷积神经网络,运行速度相较于基于体素区域卷积神经网络的点云目标检测方法又得到了进一步提升。
刘森[4](2021)在《面向人机混合智能的图像质量评价及应用》文中指出当前,人工智能技术取得了突破性的发展,对各个领域的智能化应用产生了深远的影响。与此同时,人工智能算法天然存在不确定性问题,使得其在智能化部署中存在潜在的风险和问题。为解决人工智能发展带来的问题,一个重要的发展趋势是发展人机混合智能,将人的认知模型引入人工智能系统,寻找人的智力和人工智能的计算能力的最优结合方式,更好的解决实际问题。然而,原始图像数据在交给人或机器识别前,需要经过采集、压缩、传输、重建等处理过程,图像质量会受到不同程度的影响和损失。这种损失不仅会带来机器识别的不确定性,也会对人的识别目标造成不好的影响,导致人做出错误的识别和判断。因此,准确地量化评估图像数据的质量对于人机混合智能准确充分的分析获取信息非常重要。准确的质量评估一方面可以指导图像优化的整个处理流程,比如图像编码,另一方面也可以指导机器学习算法和人机混合智能算法的设计。本论文围绕监控场景下的特定识别任务,分析图像失真对人眼识别置信度和机器识别置信度的影响,探索人机混合智能场景下的图像质量评价及应用,具体工作内容包括以下四部分:.(1)基于梯度的不确定性计算方案。机器学习模型的不确定性反应的是图像的失真程度对于机器学习算法识别置信度的影响。受神经网络可解释性工作的启发,即后向传播梯度和网络对于输入样本的响应存在很强的相关性,我们提出了一个创新的基于梯度的置信度计算方法。具体来说,我们提出在预测输出上增加扰动,并将预测输出和扰动输出的距离作为损失函数计算相关响应,最终将回传梯度的范数作为质量分数。我们在分布外样本检测任务上进行了验证,实验结果表明,我们的方法可以有效的区分分布内样本和分布外样本,证明了质量分数的有效性。(2)监控场景下的图像语义质量评价模型与分析。在这部分内容中,我们重点研究图像质量对于人的识别置信度的影响。目前没有相关的研究工作,因此我们提出了一个监控场景下的图像语义质量评价数据集,针对监控下具有代表性的两大前景目标行人和车辆,提取了用于定位行人的人脸和行人语义目标,和用于定位车辆的车牌语义目标,引入了 JPEG和BPG两个常用的压缩失真和监控场景中常见的运动模糊的失真处理,邀请志愿者进行识别,最终得到人类对于失真图像的语义质量评价分数。我们基于该图像语义评价质量数据集训练学习了无参考的图像语义质量评价客观模型,并和经典的图像质量评价算法进行实验对比。我们进一步分析了机器和人眼对于图像失真的感知差异,包括两者在数据集层面的识别准确率对比分析,以及梯度可视化分析。(3)基于图像语义质量评价的人机共判应用。在这部分内容中,我们基于不确定性计算方法以及图像语义质量评价模型,构建了新的人机共判框架。相比于经典的拒绝学习方案,我们的方法不仅考虑了机器的不确定性,也结合了人识别的潜在的偏见与弱点,能够更优的结合人识别目标的能力和机器识别目标的能力。我们在监控场景的识别任务中进行了实验验证,实验结果证明,相比于经典的拒绝学习方案,我们的方法将识别准确率提高了8%以上,同时也有效的提高了人参与识别的效率。(4)语义信息在图像视频处理中的应用探索。在这一部分中,我们提出了基于语义感知距离的协同训练策略进行语义分布差异最大化的图像加密,提出了能够获取全局语义结构信息的交织缩放模块进行图像修补,提出了能够获取时域运动信息循序网格流修补方案进行视频修补。我们在三个任务的实验中,均验证了结合感知语义、语义结构、运动信息等方面的设计可以为解决方案带来很好的增益。
代成[5](2021)在《面向边缘智能人体行为识别关键技术研究》文中进行了进一步梳理面向边缘智能的视频行为识别技术一直是计算机视觉研究的热点方向。该技术将直接推动多媒体物联网和工业物联网相关应用的发展。在基于深度学习的视频行为识别边缘智能应用中,其核心思想是基于深度学习在特征学习方面的优势,构建轻量型视频行为识别网络,能够部署到边缘端设备上来,以支持基于边缘技术架构的多媒体物联网应用系统,从而为实时视频行为识别相关应用奠定技术基础。事实上,现有基于深度学习的视频行为识别模型研究主要依托于空间特征和时序特征构建联合网络来提升整体网络模型的识别准确率。然而深度学习非凸优化的参数训练模式让深度学习网络模型在训练的过程中产生了大量的参数,其参数量远远超过了边缘设备的计算能力和存储能力,为网络在边缘设备上的部署带来了巨大挑战。为此我们针对这些情况重点研究了两个方面的问题,一方面,研究更加有针对性的网络对视频时域特征进行编码,来实现整体网络模型性能的提升;另一方面,针对现有模型存在内存资源消耗过大难以部署等问题进行了研究,实现深度学习模型压缩,旨在为深度学习模型在边缘设备上的部署奠定应用研究基础。本文的主要内容和创新点如下:1.针对long-term时域特征学习困难的问题,本文提出了基于双流注意力机制的LSTM网络模型。该网络针对原有视频帧和光流特征图像,可以有选择地关注原始输入图像的有效特征,并对每个深度特征图的输出给予不同程度的关注。此外,考虑到两个深度特征流之间的相关性,提出了一种深度特征相关层,可以根据特征关联信息指导网络参数训练。实验结果表明,本文提出的改进的深度学习模型可以有效地提取长期特征,并且比同类其他算法具有更强的竞争性。2.针对骨架时空特征学习问题,本文提出了一种基于人体骨架的双流深度学习行为识别算法,并分别将提取的特征表示为伪图像参与训练,提高识别的准确率。与此同时,在特征融合时,提出了在全局平均池化层进行融合的策略。该方法可以有效避免传统的后融合策略中时空特征相互隔离的缺点,在一定程度上提升了识别准确率。另一方面,针对现有深度学习模型参数量大难以部署的问题,提出基于教师模型Tucker分解的知识蒸馏算法来有效提升学生网络的学习能力。实验结果表明,本文所提出的骨架行为识别算法模型相对于同类型的算法有着更好的识别率,与此同时教师模型的Tucker分解的知识蒸馏算法能让学生网络模型获取更好的性能。3.针对如何设计轻量型的图像分割网络来实现对人体行为视频场景分割,本文提出了基于改进型Faster-RCNN轻量型网络模型,一方面利用改进的FasterRCNN算法,对视频帧的背景内容进行识别和定位,精准地把视频背景区域内容提取出来;另一方面,对于提取出的背景区域,提出一种改进型的图片相似性度量方法,并在相邻帧之间进行比较,从而根据背景信息的一致性来判断视频帧是否属于同一片段。另外为了进一步减少深度学习模型的网络参数,结合朴素贝叶斯推断算法来优化通道剪枝算法的比例,实现了原有的深度学习模型参数减少。实验结果表明在参数减少30%的基础上,该算法相对于基于固定框的场景分割算法具有更好的性能。4.针对如何构建轻量型深度学习模型生成高质量的语言对视频人体行为理解进行描述,本文从两个方面着手研究,一方面从特征提取的角度,提出了空域和时域特征相结合,有效地对视频进行编码,在参数训练阶段,联合强化学习增强训练的策略使得生成的描述更加精确。另一方面,为了提升训练的效率,重点研究了基于Tensor-Train张量分解的算法,并结合基于基因分解算法研究自适应指导选择最优秩的方案,从而使得前向推理的计算量尽量减少,最终实现推理模型的参数进一步减少,使得前向推断的速度明显改善。实验结果表明本文所提的网络模型具有更好的性能,基于Tensor-Train张量分解模型相对于传统的算法也有着明显的优势。
吴霞[6](2021)在《基于时空建模的行为识别算法及其应用研究》文中认为人体行为识别技术在智慧城市安防、视频检索、人机交互、无人便利超市等领域中有诸多应用,其重要性日益突出。如何有效地对视频序列信息进行时空建模是人体行为识别任务中的一个关键点。许多研究为了更好地对视频序列进行时空建模,采取三维卷积并结合光流等其他运动补充信息的方法,但忽略了所带来的网络难以优化、网络规模与计算量增加的问题。此外,在面临不同行为实例的持续时间长短不一的问题时,许多研究简单地堆叠局部感受野卷积去处理长时序问题,但这样做减弱了远距离帧的信息,因此并不是最优的时空建模方式。针对以上的不足和难点,本文以减少计算量并且提升算法精度为目的,对人体行为识别算法及其应用展开了研究。首先本文提出了一种高效的时空建模算法;然后,将算法进一步扩展至多视角行为识别框架中,提出多视角融合的行为识别算法,并将其应用至电梯轿厢异常行为识别场景中。本文的主要工作及创新性研究成果如下:1.对特征进行了运动信息增强。针对现有方法不足,本文以不增加过多的计算量为前提,设计了一个运动增强重构模块(Motion Feature Enhancement Module,MFEM),将特征中运动信息增强后,和时空信息归并在一个二维卷积网络中进行高效的编码。22.设计了多尺度时空特征融合模块。为了改善现有方法对时序长短不一的行为进行建模的问题,本文设计了一个多尺度的时空特征融合模块(Multiple Spatiotemporal Modeling Module,MSMM)。不同于现有的时空卷积深度上的简单堆叠或者空间卷积提取特征后融合的方法,本文通过多层次残差结构实现多尺度帧间信息的融合,实现更有效地对长时序时空特征进行建模。最后,将MFEM和MSMM进行有效地集成,提出基于运动增强的时空多尺度特征融合行为识别算法。33.实现了基于视角注意力特征融合的多视角行为识别算法并将其应用到电梯轿厢异常行为识别场景中。为了解决单视角存在的遮挡、语义缺失等问题,将前文所提出的时空建模算法扩展至多视角行为识别框架中,设计了通道级别的视角感知注意力(Channel-wise Viewpoint-Aware Attention,CWVAA)模块,提出了多视角融合的行为识别算法。最后,将算法应用于电梯轿厢,改善电梯轿厢视角下常出现的遮挡问题,提升电梯轿厢异常行为识别的准确率。
徐明珠[7](2021)在《图模型融合时空特征的视觉显着性目标检测算法研究》文中指出视觉显着性目标检测是计算机视觉领域的热门研究方向,其任务目标是通过模拟人类视觉注意力机制建立启发式或学习模型,定位视觉场景中的显着性目标并将其从背景中完整一致地高亮出来。相比于图像的显着性目标检测,视频的显着性目标检测任务是更具有挑战性的,这是由于视频具有更加复杂的非限定动态视觉场景,如运动背景、相机抖动、小目标、目标形变、目标遮挡、低前景背景对比度等。在这些复杂的动态视觉场景中,现有相关检测模型仍然受困于复杂运动背景干扰、显着性目标图连续一致性差、显着性目标图边缘模糊粗糙等问题,还不能很好地完成复杂视觉场景中的显着性目标检测任务。通过挖掘时空上下文信息来实现时空特征的有效提取及互补融合是提升显着性目标检测性能的关键。图模型方法因其在上下文关系建模方面的有效性而被广泛研究。然而,在面对复杂动态视觉场景时,稳健的视频显着性目标检测模型的构建仍然存在许多挑战:一是在面对具有复杂运动背景的场景时,如何建立鲁棒的时空显着性特征,并设计图模型融合方法实现多种特征的优势互补,进而有效地滤除无关复杂运动背景的干扰;二是在面对具有低前景背景对比度、目标形变、运动模糊等复杂场景时,如何挖掘图节点间的时空约束信息,并改进现有图模型融合时空特征理论,实现空间和时间显着性信息的优势互补,进而提升显着性目标图的连续一致性;三是在有足够的训练样本数据时,如何设计有监督的深度图学习方法来挖掘和聚合时空图结构数据中重要的显着性信息,进而提升保留显着性目标精细边缘的能力。针对上述挑战,本文在图模型理论框架下研究时空特征建模和融合方法,从不同的问题角度展开对视频显着性目标检测算法的研究。具体地,本文的主要研究内容分为以下三个方面:首先,针对复杂运动背景干扰的抑制问题,本文从时空显着性特征抽取和融合的角度出发,提出了一种基于运动能量和时空似物性的图聚类视觉显着性目标检测方法:首先提出了一种新型运动能量特征建模方法,其通过挖掘运动幅值、运动方向、梯度流场和单帧图像空间梯度等信息来提升对显着性目标内部区域的表达能力;还提出了一种时空似物性图特征生成方法,其通过挖掘当前帧的似物性采样框与前一帧似物性采样框及其显着目标图之间的关系,生成一个比空间似物性图更加紧凑的目标待检测区域;最终利用图聚类的方法融合以上两种特征来降低复杂运动背景的干扰。通过详细的实验分析工作,验证了本文所提方法在抑制复杂运动背景干扰方面的有效性,能有效应对具有复杂运动背景的视觉场景。其次,针对显着性目标图的连续一致性提升问题,本文从超像素节点间时空约束信息挖掘和流形正则框架下多图模型时空特征融合的角度出发,提出了一种基于鲁棒种子抽取和多图模型时空传播的视觉显着性目标检测方法:先利用图聚类方法生成可靠的显着性种子,依据显着性种子建模区域一致性约束并重构时空图节点间的连接关系,引入图像簇分割的先验信息来优化图边权值;再构建出多图模型流形正则框架,以显着性种子为查询节点,在时空图结构数据中传播显着性信息以实现时空特征的融合互补,提升显着性目标图的连续一致性。通过详细的实验分析工作,验证了本文所提方法在增强显着性目标图连续一致性方面的有效性,能有效应对具有低前景背景对比度、目标形变、运动模糊等的复杂场景。最后,针对显着性目标精细边缘的保留问题,本文在深度图卷积神经网络框架下,从图节点的显着性信息挖掘和聚合的角度出发,提出了一种基于深度图卷积和注意力感知的视觉显着性目标检测方法:首先设计了一个多流深度图卷积学习架构,通过引入注意力模块来自适应地选择图节点并融合编码时空显着性信息;还提出了一种新颖的边门图卷积操作,其通过显式地挖掘图节点之间的关系以学习区分不同节点的重要程度,并从邻近节点聚合不同的显着性信息,增强图节点的嵌入特征表达能力,提升视频显着性目标检测的性能。通过详细的实验分析工作,验证了本文所提方法在学习聚合图结构数据中重要显着性信息方面的有效性,使模型兼具有精细的显着性目标边缘保留能力和强大的学习能力。在上述研究中,本文针对复杂场景下视频显着性目标检测任务存在的挑战,从不同的问题角度进行了深入地探究,为提升视频显着性目标检测性能提供了切实可行和有效的解决方案。结果表明:在面对具有复杂运动背景的视觉场景时,通过挖掘时空上下文信息构建的运动能量特征和时空似物性图特征,以及图聚类融合特征方法能够有效抑制复杂运动背景的干扰;在面对具有低前景背景对比度、目标形变、运动模糊等复杂场景时,通过挖掘超像素节点间时空约束信息和在流形正则框架下的多图模型时空特征融合够提升显着性目标图的连续一致性;在具有训练样本数据时,通过设计有监督深度图学习的方法能够有效地挖掘和聚合时空图结构数据中重要的显着性信息,使模型具有保留显着性目标精细边缘的能力。
陶焕杰[8](2020)在《汽车尾气黑烟特征提取方法研究》文中指出随着机动车保有量的逐年增长,机动车尾气污染已成为我国空气污染的重要来源。机动车尾气污染中占比最高的是黑烟车尾气污染。降低黑烟车尾气污染需要从车流中识别黑烟车。基于道路监控视频分析的黑烟车识别方法是目前的主流,但面临着容易漏报和误报的难题。解决该问题的核心是研究最具区分能力的黑烟特征。本文围绕黑烟特征展开研究,分别从黑烟图像生成、黑烟传统特征、黑烟深度特征和黑烟密度特征等四个方面进行深入研究。主要研究内容概括如下:(1)提出了烟浓度可控的黑烟图像生成模型。大量汽车黑烟图像是黑烟特征提取方法研究的前提,而已拥有的汽车黑烟图像并不多。现存的图像生成模型虽能生成汽车黑烟图像,但无法生成烟浓度可控的黑烟图像以及生成对应的纯黑烟图像,而此类样本又是后续研究的必需。为此,本文提出了烟浓度可控的黑烟图像生成模型,实现了生成多种多样逼真的黑烟图像以及生成对应的纯黑烟图像,为后续章节的研究打下了数据样本的基础。所提模型包括图像分离模块、烟浓度微调模块和图像合成模块,借助三阶段网络训练方法进行训练,通过背景图像加烟、微调黑烟图像的烟浓度和替换黑烟图像的烟浓度等方式生成黑烟图像,通过改变烟浓度潜在编码控制生成黑烟图像的烟浓度,并生成对应的纯黑烟图像。实验结果表明,所提模型在生成烟浓度可控的黑烟图像以及生成对应的纯黑烟图像方面明显优于主流的图像生成模型。(2)提出了基于鲁棒体积局部二值计数模式的黑烟特征。传统特征适用于硬件配置较低的应用环境。其中的体积局部二值计数模式不仅可以表征图像序列的时空纹理信息,而且具有计算简单、速度快的优点。但从表征黑烟图像序列的角度看,在特征抗噪性、特征非冗余性、特征完全性和多尺度信息利用等方面还存在不足。为解决上述不足,本文提出了基于鲁棒体积局部二值计数模式的黑烟特征,用于硬件配置较低环境下的黑烟车识别。所提黑烟特征采用加权的局部阈值替代原始的中心像素阈值,引入调节参数平衡噪声信息和邻域采样点像素信息,提高了特征抗噪性;同时,将黑烟图像及其反图像视为同一类,降低了特征冗余性,缩小了类内距离和特征维数;此外,采用完全性操作更全面地表征局部区域的信息,利用多组不同半径和采样点数获取多尺度信息。实验结果表明,所提黑烟特征的黑烟车识别精度优于现存传统特征。(3)提出了基于加强图像序列子模型融合的黑烟深度特征。深度特征在特征提取领域展现了卓越的性能。很多时空特征模型都可以用于黑烟深度特征提取。但这些模型多是沿单一的时间轴方向从单一的RGB图像序列中提取特征。为充分利用图像序列信息,本文提出了基于加强图像序列子模型融合的黑烟深度特征,用于硬件配置较高环境下的黑烟车识别。所提黑烟特征从运动信息的提取、三正交平面时空信息的提取和梯度纹理信息的提取等多个方面实现加强图像序列,通过多个相互独立的深度模型提取多种不同类型的深度特征,并探索了三种不同的子模型融合方法,借助子模型融合实现特征互补,得到黑烟时空特征。该特征通过整合空间网络和时间网络获取互补的空间特征和运动特征,借助三正交平面的思想,从多个方向分析同一图像序列,学习不同类型的互补特征,并通过增加梯度和纹理图像序列,加强对梯度信息和纹理信息的利用。实验结果表明,所提黑烟深度特征能有效提高黑烟车的识别精度。(4)提出了基于特征加强神经网络的黑烟密度特征。评价黑烟车冒黑烟行为的一个重要指标是黑烟级别。确定黑烟级别的主流方法是人工比对车辆排气孔黑烟区域和林格曼黑度卡,费时费力。利用黑烟密度特征来确定黑烟级别可避免以上不足。现存有望通过移植用于提取黑烟密度特征的深度模型大多采用编码解码架构,并通过直接复制形式的跳跃连接实现特征利用,但这种直接复制形式缺乏对不同层次和不同尺度信息的充分利用。为此,本文提出了基于特征加强神经网络的黑烟密度特征,用于黑烟级别估计。该特征的提取采用编码解码架构,一方面,借助空洞卷积金字塔池化模块在初始阶段对输入图像进行编码,在不丢失位置信息的情况下融合不同层次特征;另一方面,提出并设计了多种特征加强模块,通过将编码层的特征图经过特征加强模块叠加到对应的解码层以实现空间特征的充分利用。其中的多尺度特征加强模块融合了不同尺度的特征,叠加操作又融合了不同层次的特征。实验结果表明,所提方法的黑烟密度特征提取精度高于主流模型,且黑烟级别估计与林格曼黑度卡方法的结果一致。
薛飞[9](2020)在《基于空时特征建模的行为识别方法研究》文中研究指明随着互联网技术的快速发展和移动成像设备的普及,视频已经成为人们生活中获取信息的重要途径。人体行为识别是计算机视觉和视频处理领域的重要研究内容之一,是视频分析和理解的基础,已广泛应用于智能监控、视频检索、军事侦察、人机交互和无人驾驶等领域。传统的行为识别方法主要依靠人工设计特征对视频中行为进行描述,存在适用性和鲁棒性较差等不足。近年来,随着计算机运算能力的提升,基于深度特征的建模方法在行为识别领域受到了广泛的关注。深度特征能够通过深度神经网络在对视频中人体行为建模过程中实现自适应学习,具有更广的应用范围和更强的鲁棒性,已成为目前行为识别领域最有效的手段。然而,深度神经网络在建模过程中仍存在一些关键问题需要解决,包括网络对人体行为表示能力不足、预训练过度依赖有标签数据和识别实时性差等问题。本论文以深度神经网络理论为基础,研究了基于空时特征建模的行为识别方法,有效提高了网络对行为的识别性能。论文的主要研究成果如下:1.研究了网络对行为表示能力不足的问题。识别人体行为时,最具判别力的动作通常稀疏地分布于视频的不同时刻和区域,如果网络无差别地对待不同的视频帧,将会引入噪声干扰,导致特征对行为的表示能力下降。本文提出一种基于空时注意力的行为识别算法。该算法通过双流卷积神经网络提取视频的静态特征和动态特征,并利用多层级联卷积长短时记忆单元对特征进行空时建模,然后通过空时注意力模块引导网络在建模过程中更加关注重要的时刻和区域,有效增强了网络对行为的表示能力,提升了行为识别性能。2.研究了网络的预训练过度依赖有标签数据问题。在人体行为识别任务中,通常利用大规模有标签数据集对网络进行预训练。为利用大量易获取的无标签视频完成网络预训练,提出一种基于互信息最大化的自监督学习算法。该算法首先通过最大化片段互信息,指导网络学习视频中不同片段间的联系。然后,为避免网络在最大化互信息过程中只关注视频的背景,根据二维和三维卷积神经网络的特点,分别提出了运动互信息最大化和局部互信息最大化方法。最后,利用互信息最大化的过程分别完成对二维和三维卷积神经网络的预训练。该算法有效提升了网络的识别性能,减少了网络预训练对有标签数据的依赖程度。3.研究了自监督学习算法普适性差的问题。基于互信息最大化的自监督学习算法针对二维和三维卷积神经网络分别应用了不同的互信息最大化方法,导致算法对不同类型的网络适应性差,同时这问题也普遍存在于现有的自监督学习算法中。本文提出一种基于视频伪标签的自监督学习算法。该算法首先提取视频不同模态信息的特征,利用所有提取到的特征构建特征集合。然后,对特征集合中的特征进行聚类,利用聚类结果生成视频伪标签。最后,利用生成的伪标签对输入为不同模态的网络同时进行训练,指导网络学习不同模态之间对应关系。此外,为防止聚类和分类联合使用过程中产生平凡解,在特征集合构建过程中采用了一种基于孪生网络的特征约束方法。该算法可同时适用于二维卷积神经网络和三维卷积神经网络,并能够减少网络预训练对有标签数据的依赖程度。4.研究了网络识别实时性差的问题。为提升网络对行为的识别性能,通常同时利用RGB图像的静态信息和光流图的动态信息进行建模。然而,光流的计算耗时较长,会导致网络的实时性变差。本文提出一种基于修正运动矢量的快速行为识别算法。该算法首先提取压缩视频中的运动矢量,并利用对应视频帧的离散余弦变换系数对运动矢量进行修正。然后,将修正后的运动矢量替代光流作为网络的输入,从而避免因计算光流带来的耗时。最后,该算法还使用轻量化网络Shuffle Net V2构建双流网络模型,进一步减小模型内存空间,提高了计算效率。
刘宇琦[10](2020)在《基于深度学习的托辊异常检测方法研究》文中进行了进一步梳理托辊作为带式输送机重要的部件之一,具有物料的运输与支撑作用,若在运行过程中托辊出现故障会对运输系统产生影响,因此针对托辊异常检测方法的研究,对保障矿业生产安全运输、防止恶性事故发生具有重要的研究价值。本文在中煤科工集团常州院的《矿用带式输送机智能巡检装置研究》项目支撑下,以托辊为主要研究对象,采用深度学习与机器视觉相结合的方法,完成对托辊的异常检测,具体工作如下:(1)构建托辊运转数据集。目前托辊运转数据多为监控视频画面,针对视频质量较差、托辊画面遮挡严重、截取相关片段耗时且数量较少难以支撑深度学习训练等问题,本文在仿真实验室与三个真实矿井中模拟巡检装置运行轨迹,通过控制托辊不同的运转影响因素进行数据采集工作;针对托辊异常运转状态数据获取困难的问题,部分数据采用不同托辊运转速度重新组合方法进行构建,最后使用LabelImg开源工具对视频画面按照帧序列图进行打标签并分为三大类。最终获取2160段视频共计8.4h,每段视频平均10s~15s,命名 TGdata2019。(2)针对数据采集过程中受到环境与巡检装置硬件因素的影响,部分数据画面无法达到预期效果,为保留托辊表面特征点运动信息完整性,加快光流提取速度,提出一种基于边缘检测提取光流的方法。首先采用Retinex算法将数据集视频画面进行透雾增强;然后建立合适的非对称半平面区域(NSHP)图像模型,将空间模型转换成卡尔曼滤波可适用的系统状态方程,然后通过“预测+反馈”对帧图片进行降噪处理,最后利用提取出托辊表面细节边缘特征点随着运转的变化来获取光流。实验结果表明,改进的光流提取放法可以提高特征点追踪精确度,较传统光流法提取变化更加明显,提取速度也明显加快。(3)针对目前主流视频分类算法中,网络模型复杂,权重参数较大影响网络运行速度,且网络结构中输入图像尺寸的大小固定等问题,提出了一种改进的CNN+LSTM双流网络模型。CNN采用改进后的轻量级VGG16网络结构。首先在最后一层卷积层中加入空间金字塔池化(SPP)层,来适应托辊空间纹理特征图多尺度变化;然后用全局池化取代全连接层融合网络学习到的深度特征,减少全连接层中冗余的网络参数;最后对卷积层学到的深度描述子做融合,并对其L2规范化,从而加速网络训练收敛。实验结果表明该方法大幅度减少了网络参数,加快模型训练速度,提高托辊异常运转识别准确率。在托辊异常检测中,通过构建合适的网络模型解决了传统方法难以处理的托辊异常识别问题,在提升异常检测率的同时优化了网络性能,为煤炭企业运输链中实现安全保障提供技术支撑,同时构建的托辊运转数据集也为后续的研究做出贡献。
二、基于梯度的光流计算方法中梯度计算对性能的影响(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于梯度的光流计算方法中梯度计算对性能的影响(论文提纲范文)
(1)基于深度学习的视觉运动估计与理解(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 研究问题与挑战 |
1.3 研究内容与主要贡献 |
1.4 本文组织结构 |
2 相关文献综述 |
2.1 低层次视觉运动研究现状 |
2.1.1 任务数据与可视化方法 |
2.1.2 非深度学习方法的启示 |
2.1.3 监督深度学习方法研究 |
2.1.4 非监督的深度学习方法研究 |
2.2 高层视觉运动研究现状 |
2.2.1 多目标跟踪研究现状 |
2.2.2 行为识别与检测研究现状 |
2.3 本章小结 |
3 融合立体感知的场景点运动估计 |
3.1 引言 |
3.2 问题描述 |
3.3 自监督光流估计与深度估计 |
3.3.1 自监督信号构建 |
3.3.2 基础网络架构 |
3.3.3 自监督优化目标 |
3.4 融合三维感知的多任务联合运动估计 |
3.4.1 显式相机自运动估计 |
3.4.2 场景运动区域分割 |
3.4.3 损失函数与学习流程 |
3.5 实验结果 |
3.5.1 实验设置 |
3.5.2 评测指标 |
3.5.3 子任务实验结果与分析 |
3.6 本章小结 |
4 类比学习的自监督光流估计 |
4.1 引言 |
4.2 高度共享的循环光流网络 |
4.2.1 高性能光流网络设计思想 |
4.2.2 共享循环结构设计 |
4.2.3 多帧模型拓展 |
4.2.4 多帧模型的自监督训练 |
4.3 复杂条件的光流类比学习 |
4.3.1 自监督类比学习框架 |
4.3.2 类比任务的变换形式 |
4.3.3 总体目标函数 |
4.4 实验结果 |
4.4.1 数据集介绍 |
4.4.2 实验设置 |
4.4.3 评测指标 |
4.4.4 与主流方法对比 |
4.4.5 消融实验 |
4.4.6 跨数据集泛化 |
4.5 本章小结 |
5 多任务联合学习的多目标跟踪 |
5.1 引言 |
5.2 基于无锚点检测的多目标跟踪 |
5.2.1 深度多目标跟踪框架 |
5.2.2 基于无锚点模型的共享思路 |
5.3 无锚点的链式多目标跟踪 |
5.3.1 无锚点跟踪网络设计 |
5.3.2 多任务损失函数 |
5.3.3 使用目标检测数据集训练 |
5.3.4 链式记忆推理 |
5.3.5 贪婪跟踪算法实现 |
5.4 实验结果 |
5.4.1 实验设置 |
5.4.2 评测指标 |
5.4.3 与主流方法对比 |
5.4.4 消融实验 |
5.5 本章小结 |
6 工业装配过程中的时空运动检测 |
6.1 引言 |
6.2 任务描述 |
6.2.1 问题说明 |
6.2.2 数据采集说明 |
6.3 轻量级运动跟踪分析 |
6.3.1 轻量级无锚点跟踪网络 |
6.3.2 跨帧检测的多目标跟踪 |
6.3.3 行为检测与重建 |
6.4 实验结果 |
6.4.1 数据说明 |
6.4.2 实验设置 |
6.4.3 检测模块测试 |
6.4.4 跟踪模块测试 |
6.4.5 行为检测模块测试 |
6.5 本章小结 |
7 总结与展望 |
7.1 本文工作总结 |
7.2 未来工作展望 |
参考文献 |
作者简历 |
攻读博士学位期间的主要学术成果 |
(2)移动机器人多传感信息融合位姿估计与速度控制研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 视觉位姿估计研究现状 |
1.2.2 IMU与轮式里程计位姿估计研究现状 |
1.2.3 多传感信息融合位姿估计研究现状 |
1.2.4 移动机器人速度控制研究现状 |
1.3 论文研究主要内容 |
1.3.1 研究内容 |
1.3.2 章节安排 |
第二章 移动机器人多传感信息融合前端处理 |
2.1 引言 |
2.2 单目视觉传感信息处理 |
2.2.1 单目视觉传感器成像模型 |
2.2.2 视觉特征提取与匹配 |
2.2.3 视觉关键帧间位姿估计 |
2.3 IMU传感信息处理 |
2.3.1 IMU测量模型 |
2.3.2 IMU关键帧间运动估计 |
2.4 轮式里程计传感信息处理 |
2.4.1 轮式里程计测量模型 |
2.4.2 轮式里程计关键帧间位姿估计 |
2.5 运动观测尺度初始校准 |
2.5.1 IMU旋转观测尺度初始校准 |
2.5.2 单目视觉与IMU运动观测尺度初始校准 |
2.5.3 轮式里程计旋转观测尺度初始校准 |
2.6 本章小结 |
第三章 移动机器人多传感信息融合位姿估计 |
3.1 引言 |
3.2 移动机器人多传感信息融合位姿估计方法 |
3.2.1 移动机器人运动观测滑动窗口模型 |
3.2.2 移动机器人运动观测残差非线性优化模型 |
3.2.3 移动机器人运动观测残差增量优化函数 |
3.3 单目视觉运动约束 |
3.3.1 单目视觉运动观测残差 |
3.3.2 单目视觉运动观测残差优化相关矩阵 |
3.4 IMU运动约束 |
3.4.1 IMU运动观测残差 |
3.4.2 IMU运动观测残差优化相关矩阵 |
3.5 轮式里程计运动约束 |
3.5.1 轮式里程计运动观测残差 |
3.5.2 轮式里程计运动观测残差相关矩阵 |
3.6 滑动窗口先验约束 |
3.6.1 滑动窗口边缘化原理 |
3.6.2 滑动窗口先验约束计算方法 |
3.7 本章小结 |
第四章 移动机器人系统设计与速度控制 |
4.1 引言 |
4.2 移动机器人硬件系统设计 |
4.2.1 移动机器人硬件系统设计方案 |
4.2.2 移动机器人主要结构与装配设计 |
4.3 基于ROS的移动机器人控制系统设计 |
4.3.1 移动机器人控制系统功能设计 |
4.3.2 移动机器人控制系统通讯设计 |
4.4 基于运动速度优化估计的移动机器人速度控制 |
4.4.1 移动机器人运动速度优化估计 |
4.4.2 移动机器人PID速度控制策略 |
4.4.3 基于运动速度优化估计的移动机器人速度控制系统 |
4.5 本章小结 |
第五章 移动机器人实验平台搭建与实验分析 |
5.1 引言 |
5.2 移动机器人实验平台 |
5.2.1 实验平台硬件系统 |
5.2.2 实验平台控制系统 |
5.2.3 传感器参数标定 |
5.3 移动机器人位姿估计实验 |
5.3.1 室内大厅环境下移动机器人位姿估计实验 |
5.3.2 室内走廊环境下移动机器人位姿估计实验 |
5.3.3 室外环境下移动机器人位姿估计实验 |
5.4 移动机器人速度控制实验 |
5.4.1 移动机器人速度估计精度实验 |
5.4.2 移动机器人速度控制精度实验 |
5.5 本章小结 |
第六章 结论与展望 |
6.1 论文总结 |
6.2 创新点 |
6.3 展望 |
致谢 |
参考文献 |
附录1 IMU运动观测残差雅可比子矩阵表达式 |
附录2 IMU相邻关键帧间运动状态优化变量误差公式 |
附录3 轮式里程计运动观测残差雅可比子矩阵表达式 |
附录4 轮式里程计相邻关键帧间运动状态优化变量误差公式 |
附录5 作者在攻读硕士学位期间取得的成果 |
(3)面向视频和点云数据的目标检测方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 图像目标检测的研究现状 |
1.2.2 视频目标检测的研究现状 |
1.2.3 点云目标检测的研究现状 |
1.3 研究内容和创新点 |
1.3.1 基于多帧候选框关系建模的视频目标检测方法 |
1.3.2 基于体素区域特征的点云目标检测方法 |
1.3.3 基于多视角合成体素特征的点云目标检测方法 |
1.4 论文组织结构 |
第2章 表征学习基础 |
2.1 自然图像的表征学习 |
2.2 原始点云的表征学习 |
2.3 本章小结 |
第3章 基于多帧候选框关系建模的视频目标检测方法 |
3.1 引言 |
3.2 预备知识 |
3.3 方法介绍 |
3.3.1 问题描述 |
3.3.2 方法概述 |
3.3.3 视频关系提炼网络 |
3.3.4 优化目标 |
3.3.5 测试阶段 |
3.4 实验评估 |
3.4.1 实验数据集 |
3.4.2 实验设置 |
3.4.3 与相关工作结果对比 |
3.4.4 实验分析 |
3.4.5 可视化结果 |
3.5 本章小结 |
第4章 基于体素区域特征的点云目标检测方法 |
4.1 引言 |
4.2 动机分析 |
4.2.1 方法回顾 |
4.2.2 对比分析 |
4.2.3 小结 |
4.3 方法介绍 |
4.3.1 问题描述 |
4.3.2 方法概述 |
4.3.3 体素化 |
4.3.4 骨干网络 |
4.3.5 体素感兴趣区域池化操作 |
4.3.6 头部检测网络 |
4.3.7 优化目标 |
4.4 实验评估 |
4.4.1 实验数据集 |
4.4.2 实验设置 |
4.4.3 实验结果 |
4.5 本章小结 |
第5章 基于多视角合成体素特征的点云目标检测方法 |
5.1 引言 |
5.2 预备知识 |
5.2.1 多视角投影网格点索引计算 |
5.2.2 动态体素化 |
5.3 方法介绍 |
5.3.1 方法概述 |
5.3.2 序列化多视角特征提取模块 |
5.3.3 多视角特征合成模块 |
5.3.4 分层感兴趣区域池化层 |
5.3.5 头部检测网络与网络整体优化目标 |
5.4 实验评估 |
5.4.1 实验数据集 |
5.4.2 实验设置 |
5.4.3 实验结果 |
5.4.4 检测效果可视化 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)面向人机混合智能的图像质量评价及应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景和意义 |
1.2 对于国家重点研发计划课题的贡献 |
1.3 图像语义质量 |
1.3.1 何为图像语义 |
1.3.2 何为图像语义质量 |
1.4 国内外研究现状 |
1.4.1 全参考图像质量评价方法 |
1.4.2 半参考图像质量评价方法 |
1.4.3 无参考图像质量评价方法 |
1.5 论文主要研究内容与章节安排 |
1.5.1 论文主要研究内容 |
1.5.2 论文结构安排 |
第2章 基于梯度的不确定性计算方案 |
2.1 引言 |
2.2 不确定性的介绍 |
2.2.1 不确定性的来源 |
2.2.2 不确定性的度量 |
2.2.3 不确定性预测的质量 |
2.3 现有的不确定性的预测方法 |
2.3.1 直接采用网络最终输出 |
2.3.2 贝叶斯方法 |
2.3.3 非贝叶斯方法 |
2.3.4 利用模型响应信息 |
2.3.5 预处理增强分布差异显着性 |
2.4 基于梯度的不确定性计算方案 |
2.4.1 样本特定扰动损失函数 |
2.4.2 不确定性分数的计算 |
2.4.3 梯度裁剪策略 |
2.5 实验结果分析 |
2.5.1 实验设置 |
2.5.2 实验结果 |
2.5.3 样本特定的扰动损失函数的对比实验 |
2.5.4 梯度裁剪策略的有效性 |
2.6 本章小结 |
第3章 监控场景下的图像语义质量评价模型与分析 |
3.1 引言 |
3.2 图像语义质量评价数据集构建 |
3.2.1 图像语义目标选取 |
3.2.2 图像语义目标失真处理 |
3.2.3 人类图像语义识别实验 |
3.2.4 数据集异常值剔除 |
3.3 图像语义质量评价模型构建 |
3.3.1 修改VGG网络 |
3.3.2 迁移学习训练 |
3.4 实验结果分析 |
3.4.1 数据集中受试者间的变化和一致性分析 |
3.4.2 图像语义质量评价模型结果 |
3.5 基于监控场景失真图像的人机语义感知差异分析实验 |
3.5.1 机器语义识别置信度计算方案和模型训练 |
3.5.2 机器语义识别置信度分析 |
3.5.3 机器语义识别置信度预测模型结果 |
3.5.4 人和机器的语义感知差异分析 |
3.5.5 图像语义质量评价预测模型的梯度可视化分析 |
3.6 总结 |
第4章 基于图像语义质量评价的人机共判应用 |
4.1 引言 |
4.2 语义质量评价在真实场景中的应用 |
4.2.1 高风险场景应用 |
4.2.2 基于主动学习的数据标注 |
4.2.3 基于性能的模型设计 |
4.3 人机共判相关研究进展 |
4.3.1 多代理决策 |
4.4 我们的方法 |
4.4.1 选择性预测问题建模 |
4.4.2 人的置信度的定义 |
4.4.3 人机置信度的获取与对齐 |
4.4.4 人机共判决策规则建模 |
4.5 实验结果 |
4.6 本章小结 |
第5章 语义信息在图像视频处理中的应用探索 |
5.1 引言 |
5.2 基于语义分布差异最大化的图像加密 |
5.2.1 任务介绍及相关工作 |
5.2.2 我们的方法 |
5.2.3 实验结果 |
5.2.4 小节 |
5.3 基于交织缩放的图像修补 |
5.3.1 我们的方法 |
5.3.2 实验结果 |
5.3.3 小结 |
5.4 基于网格流的视频修补 |
5.4.1 任务介绍及相关工作 |
5.4.2 我们的方法 |
5.4.3 实验结果 |
5.4.4 小结 |
5.5 总结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(5)面向边缘智能人体行为识别关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.2.1 基于人工特征的行为识别技术 |
1.2.2 基于深度学习的行为识别技术 |
1.2.3 深度学习模型压缩算法 |
1.3 本文的主要内容与贡献 |
1.4 本论文的结构安排 |
第二章 基于时空深度特征的视频行为识别算法研究 |
2.1 引言 |
2.2 基于时空特征与long-term特征双流深度学习模型设计 |
2.2.1 轨迹特征计算原理 |
2.2.2 基于时间注意力的long-term模型 |
2.2.3 基于时空注意力机制的CLSTM模型 |
2.3 网络损失函数设计 |
2.3.1 深度特征样本对特性分析 |
2.3.2 识别损失函数 |
2.3.3 全局损失 |
2.4 实验设计与分析 |
2.4.1 实验环境及参数设置 |
2.4.2 实验结果与数据分析 |
2.5 本章小结 |
第三章 基于知识蒸馏的轻量型骨架行为识别模型研究 |
3.1 引言 |
3.2 基于知识蒸馏的骨架行为识别整体架构 |
3.3 基于时空双流网络的视频骨架行为识别 |
3.3.1 深度骨架姿势-图像转换算法 |
3.3.2 空间流骨架特征提取和表示 |
3.3.3 时间流骨架特征提取和表示 |
3.3.4 双流网络的融合 |
3.4 基于Tucker分解的知识蒸馏算法 |
3.4.1 知识蒸馏 |
3.4.2 Tucker分解 |
3.4.3 卷积层的Tucker化 |
3.4.4 知识蒸馏改进算法 |
3.5 实验结果与分析 |
3.5.1 数据集介绍 |
3.5.2 实验环境和参数设置 |
3.5.3 基于行为数据集的实验结果与分析 |
3.6 本章小结 |
第四章 基于动态剪枝的轻量级人体行为视频场景分割算法研究 |
4.1 引言 |
4.2 算法系统描述 |
4.3 基于改进Faster-RCNN的场景分割算法 |
4.3.1 候选框生成网络 |
4.3.2 背景区域生成 |
4.3.3 背景相似性算法设计 |
4.4 深度模型压缩 |
4.4.1 通道剪枝算法 |
4.4.2 贝叶斯推断 |
4.5 实验结果与分析 |
4.5.1 实验环境和参数配置 |
4.5.2 模型剪枝实验 |
4.5.3 视频场景分割结果与分析 |
4.6 本章小结 |
第五章 基于Tensor-Train的多级联合视频行为理解算法的研究 |
5.1 引言 |
5.2 基于Tensor-Train人体行为理解系统架构 |
5.3 基于时空特征人体行为理解深度强化学习模型 |
5.3.1 时空特征提取 |
5.3.2 神经语言模型 |
5.3.3 参数训练的深度强化学习 |
5.4 Tensor Train分解 |
5.4.1 深度学习网络前向传播中的Tensor-Train分解 |
5.4.2 Tensor-Train RNN |
5.4.3 基于基因算法的自动搜索最优秩算法研究 |
5.5 实验和结果分析 |
5.5.1 数据集介绍与实验参数设置 |
5.5.2 度量标准 |
5.5.3 视频行为理解实验实现细节 |
5.5.4 基于Tensor-Train秩的搜索 |
5.5.5 基于两个数据集的结果分析 |
5.6 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(6)基于时空建模的行为识别算法及其应用研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 基于传统手工特征的行为识别方法 |
1.2.2 基于神经网络提取特征的行为识别方法 |
1.2.3 多视角行为识别方法 |
1.3 本文研究内容 |
1.4 本文结构安排 |
1.5 本章小结 |
2 人体行为识别相关理论 |
2.1 卷积神经网络 |
2.1.1 基础原理 |
2.1.2 常用特征提取网络 |
2.2 行为识别数据集 |
2.2.1 背景相关数据集 |
2.2.2 时序相关数据集 |
2.2.3 多视角行为识别数据集 |
2.3 本章小结 |
3 基于运动增强的时空多尺度特征融合行为识别算法 |
3.1 引言 |
3.2 运动特征增强重构 |
3.2.1 运动特征增强重构模块 |
3.2.2 实验分析 |
3.3 多尺度时空特征融合 |
3.3.1 多尺度时空特征融合模块 |
3.3.2 实验分析 |
3.4 基于运动增强的时空多尺度特征融合网络 |
3.4.1 整体网络结构 |
3.4.2 实验分析 |
3.5 本章小结 |
4 基于视角注意力特征融合的多视角行为识别算法 |
4.1 引言 |
4.2 多视角特征融合 |
4.2.1 基于视角注意力特征融合的多视角行为识别网络 |
4.2.2 实验分析 |
4.3 基于多视角融合的电梯轿厢异常行为识别 |
4.3.1 引言 |
4.3.2 电梯轿厢异常行为数据 |
4.3.3 系统结构 |
4.3.4 实验分析 |
4.4 本章小结 |
5 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
作者简历 |
发表文章目录 |
(7)图模型融合时空特征的视觉显着性目标检测算法研究(论文提纲范文)
摘要 |
Abstract |
学术名词表 |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 视频显着性目标检测的问题描述 |
1.3 国内外研究现状 |
1.3.1 图像显着性目标检测 |
1.3.2 时空特征表示 |
1.3.3 图模型融合时空特征 |
1.3.4 基于深度卷积神经网络的视频显着性目标检测 |
1.4 常用标准数据集和评价指标 |
1.4.1 具有代表性的视频显着性目标检测数据集 |
1.4.2 常用的性能分析评价指标 |
1.5 复杂场景下视频显着性目标检测存在的主要问题 |
1.6 本文的主要研究内容及组织结构 |
1.6.1 本文要解决的关键问题及主要研究内容 |
1.6.2 本文的组织结构 |
第2章 基于运动能量和时空似物性的图聚类视觉显着性目标检测算法 |
2.1 引言 |
2.2 图数据的基本定义 |
2.2.1 图的基本类型 |
2.2.2 邻居和度 |
2.2.3 路径和测地线距离 |
2.2.4 图的矩阵表示 |
2.3 研究动机及算法框架设计 |
2.4 新型运动能量构建 |
2.5 时空似物性图生成 |
2.6 图聚类融合运动能量和时空似物性的显着性目标估计 |
2.7 实验结果与分析 |
2.7.1 实验设置 |
2.7.2 不同配置模型的性能验证 |
2.7.3 与现有前沿模型的性能比较 |
2.7.4 分割性能评价 |
2.7.5 模型计算代价分析 |
2.8 本章小结 |
第3章 基于鲁棒种子抽取和多图模型时空传播的视觉显着性目标检测算法 |
3.1 引言 |
3.2 图的流形传播基本理论 |
3.2.1 拉普拉斯矩阵 |
3.2.2 流形传播方法 |
3.3 研究动机及算法框架设计 |
3.4 可靠的显着性种子区域抽取 |
3.4.1 运动能量建模 |
3.4.2 帧间图模型构建 |
3.4.3 鲁棒的显着性目标种子图生成 |
3.5 流形正则框架下的多图模型时空显着性传播 |
3.5.1 帧间图模型重构 |
3.5.2 基于簇分割的图边权值优化 |
3.5.3 融合运动能量和外观特征的多图模型显着性传播 |
3.6 实验结果与分析 |
3.6.1 实验设置 |
3.6.2 不同配置模型的性能验证 |
3.6.3 与现有先进模型的性能比较 |
3.6.4 分割性能评价 |
3.6.5 模型计算代价分析 |
3.7 本章小结 |
第4章 基于深度图卷积和注意力感知的视觉显着性目标检测算法 |
4.1 引言 |
4.2 图卷积神经网络的基本理论 |
4.2.1 图的傅里叶变换 |
4.2.2 谱图卷积和图卷积神经网络 |
4.3 研究动机及算法框架设计 |
4.4 图结构数据的准备 |
4.4.1 时空图结构数据的构建 |
4.4.2 图节点嵌入特征的初始化 |
4.5 图结构数据中的信息挖掘与显着性目标估计 |
4.5.1 图边门限控制的时空图节点显着性信息聚合 |
4.5.2 注意力感知的图节点选择与时空信息融合 |
4.5.3 全连接的显着性预测子网络 |
4.5.4 邻居节点平滑约束的损失函数 |
4.6 实验结果与分析 |
4.6.1 实验设置 |
4.6.2 不同配置模型的性能验证 |
4.6.3 与现有先进模型的性能比较 |
4.6.4 分割性能评价 |
4.6.5 模型计算代价分析 |
4.7 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(8)汽车尾气黑烟特征提取方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 黑烟传统特征国内外研究现状 |
1.2.2 黑烟深度特征国内外研究现状 |
1.2.3 黑烟密度特征国内外研究现状 |
1.2.4 黑烟图像生成国内外研究现状 |
1.3 存在问题分析 |
1.4 论文主要研究工作 |
1.4.1 研究内容 |
1.4.2 论文的组织结构 |
第二章 烟浓度可控的黑烟图像生成模型研究 |
2.1 概述 |
2.2 变分自编码器 |
2.3 烟浓度可控的黑烟图像生成模型 |
2.3.1 网络结构的设计 |
2.3.2 各模块的设计 |
2.3.3 损失函数的设计 |
2.3.4 三阶段网络训练方法的设计 |
2.4 实验与分析 |
2.4.1 数据集 |
2.4.2 生成黑烟图像的实验和分析 |
2.4.3 生成黑烟图像序列的实验和分析 |
2.4.4 生成对应纯黑烟图像的实验和分析 |
2.4.5 生成黑烟图像的质量评估实验和分析 |
2.4.6 和现存方法的对比实验和分析 |
2.5 本章小结 |
第三章 基于鲁棒体积局部二值计数模式的黑烟特征研究 |
3.1 概述 |
3.2 相关纹理特征的分析 |
3.3 基于鲁棒体积局部二值计数模式的黑烟特征 |
3.3.1 体积局部二值计数模式 |
3.3.2 特征抗噪性的提高 |
3.3.3 特征非冗余性的提高 |
3.3.4 特征完全性的利用 |
3.3.5 多尺度信息的利用 |
3.4 实验与分析 |
3.4.1 数据集 |
3.4.2 特征提取方法的评价指标 |
3.4.3 特征改进前后的性能对比实验和分析 |
3.4.4 和现存方法的对比实验和分析 |
3.5 本章小结 |
第四章 基于加强图像序列子模型融合的黑烟深度特征研究 |
4.1 概述 |
4.2 基于加强图像序列子模型融合的黑烟深度特征 |
4.2.1 加强图像序列 |
4.2.2 不同类型的子模型 |
4.2.3 子模型的融合 |
4.3 实验与分析 |
4.3.1 不同的加强图像序列的性能对比实验和分析 |
4.3.2 不同的子模型融合方法的性能对比实验和分析 |
4.3.3 和现存方法的对比实验和分析 |
4.4 本章小结 |
第五章 基于特征加强神经网络的黑烟密度特征研究 |
5.1 概述 |
5.2 基于特征加强神经网络的黑烟密度特征 |
5.2.1 网络结构的设计 |
5.2.2 各模块的设计 |
5.2.3 损失函数的设计 |
5.3 黑烟密度特征的实验与分析 |
5.3.1 数据集 |
5.3.2 特征提取方法的性能评价指标 |
5.3.3 黑烟密度特征提取的实验和分析 |
5.3.4 和现存方法的对比实验和分析 |
5.4 黑烟密度特征在黑烟级别估计中的应用 |
5.4.1 黑烟级别估计方法 |
5.4.2 实验与分析 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的学术成果及项目情况 |
(9)基于空时特征建模的行为识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 人体行为识别研究现状 |
1.2.1 基于传统特征的行为识别方法 |
1.2.2 基于深度特征的行为识别方法 |
1.3 深度神经网络基础 |
1.3.1 卷积神经网络 |
1.3.2 循环神经网络 |
1.3.3 迁移学习 |
1.4 论文主要研究内容和章节安排 |
第二章 基于空时注意力的行为识别方法 |
2.1 引言 |
2.2 问题描述 |
2.3 空时建模 |
2.3.1 深度特征提取 |
2.3.2 多层级联卷积长短时记忆单元 |
2.4 基于空时注意力的行为识别算法 |
2.4.1 空时注意力 |
2.4.2 双流网络模型构建 |
2.4.3 模型学习过程 |
2.5 仿真实验与分析 |
2.5.1 实验条件设置 |
2.5.2 识别性能分析 |
2.5.3 与主流识别算法性能比较 |
2.5.4 空时注意力可视化 |
2.6 本章小结 |
第三章 基于互信息最大化和网络迁移的行为识别方法 |
3.1 引言 |
3.2 互信息最大化方法 |
3.3 二维卷积神经网络的自监督学习 |
3.3.1 片段互信息和运动互信息 |
3.3.2 基于互信息最大化的二维卷积神经网络自监督学习 |
3.3.3 仿真实验与分析 |
3.4 三维卷积神经网络的自监督学习 |
3.4.1 局部互信息 |
3.4.2 基于互信息最大化的三维卷积神经网络自监督学习 |
3.4.3 仿真实验与分析 |
3.5 本章小结 |
第四章 基于视频伪标签和网络迁移的行为识别方法 |
4.1 引言 |
4.2 问题描述 |
4.3 基于视频伪标签的网络自监督学习 |
4.3.1 特征集合构建 |
4.3.2 伪标签生成 |
4.3.3 伪标签学习 |
4.4 仿真实验与分析 |
4.4.1 实验条件设置 |
4.4.2 识别性能分析 |
4.4.3 与主流自监督学习算法比较 |
4.5 本章小结 |
第五章 基于修正运动矢量的快速行为识别方法 |
5.1 引言 |
5.2 问题描述 |
5.3 压缩视频的运动矢量修正 |
5.3.1 DCT系数估计 |
5.3.2 运动矢量修正 |
5.4 基于修正运动矢量的快速行为识别算法 |
5.4.1 快速识别模型 |
5.4.2 时间流网络训练 |
5.5 仿真实验与分析 |
5.5.1 实验条件设置 |
5.5.2 时间流网络的识别性能分析 |
5.5.3 模型实时性分析 |
5.5.4 与主流识别算法性能比较 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
(10)基于深度学习的托辊异常检测方法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 带式输送机托辊异常检测研究现状 |
1.2.2 深度学习在工业检测领域的研究现状 |
1.3 研究内容与总体框架 |
1.3.1 主要研究内容 |
1.3.2 论文组织结构 |
1.4 本章小结 |
2 托辊异常检测方案设计 |
2.1 托辊常见故障及检测原理 |
2.2 托辊检测装置 |
2.3 托辊异常检测方案 |
2.4 技术途径 |
2.5 本章小结 |
3 托辊视频数据集构建与预处理 |
3.1 托辊视频数据集构建 |
3.1.1 数据采集 |
3.1.2 异常数据构建 |
3.1.3 数据集分类及标注 |
3.1.4 托辊运转数据集描述 |
3.2 托辊视频图像预处理 |
3.2.1 图像增强技术 |
3.2.2 Retinex算法 |
3.3 基于边缘检测的光流特征提取 |
3.3.1 光流法 |
3.3.2 改进的Canny边缘检测算法 |
3.3.3 光流特征提取 |
3.4 本章小结 |
4 托辊异常检测网络结构选择及模型构建 |
4.1 视频分类模型 |
4.2 网络结构相关理论 |
4.2.1 CNN卷积神经网络 |
4.2.2 3D卷积神经网络 |
4.2.3 循环神经网络与长短记忆网络 |
4.3 托辊异常检测网络模型建立 |
4.3.1 CNN+LSTM双流网络模型 |
4.3.2 CNN网络结构及其改进 |
4.4 本章小结 |
5 实验测试与分析 |
5.1 训练与测试 |
5.2 实验准备 |
5.2.1 数据集与实验环境 |
5.2.2 实验方案与参数设置 |
5.2.3 实验评价指标 |
5.3 实验结果分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 |
四、基于梯度的光流计算方法中梯度计算对性能的影响(论文参考文献)
- [1]基于深度学习的视觉运动估计与理解[D]. 刘亮. 浙江大学, 2021(01)
- [2]移动机器人多传感信息融合位姿估计与速度控制研究[D]. 王昕煜. 江南大学, 2021(01)
- [3]面向视频和点云数据的目标检测方法研究[D]. 邓家俊. 中国科学技术大学, 2021(09)
- [4]面向人机混合智能的图像质量评价及应用[D]. 刘森. 中国科学技术大学, 2021(09)
- [5]面向边缘智能人体行为识别关键技术研究[D]. 代成. 电子科技大学, 2021(02)
- [6]基于时空建模的行为识别算法及其应用研究[D]. 吴霞. 浙江大学, 2021(01)
- [7]图模型融合时空特征的视觉显着性目标检测算法研究[D]. 徐明珠. 哈尔滨工业大学, 2021(02)
- [8]汽车尾气黑烟特征提取方法研究[D]. 陶焕杰. 东南大学, 2020(02)
- [9]基于空时特征建模的行为识别方法研究[D]. 薛飞. 西安电子科技大学, 2020(02)
- [10]基于深度学习的托辊异常检测方法研究[D]. 刘宇琦. 西安科技大学, 2020(01)