一、用于实时识别三维物体的级联神经网络模型的优化方法(论文文献综述)
刘亮[1](2021)在《基于深度学习的视觉运动估计与理解》文中研究指明随着深度学习的高速发展,计算机视觉技术在图像任务中取得了瞩目的成果。近年来,视频的数据量和业务量在监控安防、自动驾驶、互动娱乐、工业视觉等多个领域中呈爆炸式增长,这对人工智能技术在视频中的应用提出了新的需求。然而,将处理静态图像的深度学习方法直接迁移至视频序列任务中,将丢失时间维度的信息建模,从而无法有效地处理视频任务。因此,对视频任务展开深入研究有着重要的科学意义和社会价值。本文聚焦于视觉运动估计与理解领域,按照各项视频任务对信息的加工程度,以由浅及深的顺序展开研究。对于视频任务,现有的研究工作仍然存在诸多挑战:低层次的视觉运动感知任务以空间点或像素点为研究对象,其面临的最大挑战是监督学习标注数据难以获得,以及无监督目标函数的不可靠性;而高层次的视觉运动理解任务以视频中的目标或行为实例为研究对象,其难点在于如何以较低的计算成本实现高效准确的推理精度。针对上述挑战,本文研究低层次的无监督学习的深度估计、光流估计等稠密点的状态估计任务,以及高层次的多目标跟踪和行为检测任务。本文的研究内容与主要创新点如下:1.针对深度估计、光流估计以及运动区域分割等低层次视觉任务,本文利用几何约束提出多任务联合的无监督学习框架,无需标注数据便可对多个任务进行互相协同促进的学习。同时,本文提出对网络估计的深度与光流使用优化方法得到相机自运动,并获得场景的刚性流,进而根据视角合成误差对场景中的运动区域进行区分。通过对运动区域和静止区域引入特有的一致性损失,能够提升各子任务的预测精度。2.针对无监督光流估计任务中损失函数在大运动、遮挡、极端光照条件等复杂场景中不可靠的问题,本文提出了一种新颖的类比学习方法。通过设计各种变换来构造类比样本,以原始样本的预测为类比样本提供更为可靠的监督信号。此外,本文设计了一种高度共享的循环光流网络结构并提出多帧输入下的拓展结构,不仅显着降低了光流网络的参数量与计算量,并且达到了与主流监督学习方法相近的精度与更优的泛化性能。3.针对多目标跟踪任务,本文提出将目标检测、重识别以及运动估计子任务集成为一个无锚点网络,进行多任务联合学习。同时,本文提出循环结构的运动估计分支以及链式记忆推理策略,以较低的额外参数和计算量实现准确的运动估计,从而降低多目标跟踪对复杂关联算法的依赖。此外,本文提出以检测数据集的静态图片训练跟踪网络的方法,从而以较低的训练门槛实现了实时准确的多目标跟踪方法。4.针对视觉运动研究的落地问题,本文对工业装配过程中的运动跟踪与理解任务展开应用研究,提出了数据驱动的轻量级视觉运动跟踪与行为理解系统,以实现对装配过程中操作员手部动作的实时时空检测。在算法层面上,本文提出了以跨帧检测的方法进行逐帧多目标跟踪的算法,融合高频率跟踪器与低频率检测器的预测结果,实现低计算开销的高效目标跟踪。此外,本文提出以通用的方式对图像目标检测和视频行为检测网络分别进行了轻量化修改,进一步促使整个视频分析系统能够在低算力硬件平台上实时运行。对于上述研究内容,本文在视觉运动估计与理解领域取得了出色的研究成果,并在学术界与产业界得到了广泛应用,充分地补充完善了视频运动的前沿探索研究。
杜丽[2](2021)在《面向自动驾驶的场景理解关键技术研究》文中进行了进一步梳理随着人类社会的信息化程度逐渐提高,人工智能作为下一代信息技术的核心受到了广泛重视。作为人工智能技术在汽车行业和交通领域的延伸与应用,自动驾驶近年来在学术和工业界都受到了密切的关注。自动驾驶车辆是一个基于计算机、传感器、现代通信、人工智能和自动控制等高新技术,集环境感知、决策规划和多级辅助驾驶等功能为一体的综合系统。研究者们提出了使用成本较低的摄像头完成更多环境感知任务的方案。因此,在当前基于计算机视觉技术的自动驾驶研究中,广泛采用了由感知、规划、决策和控制模块组成的数据驱动的计算框架,且已逐步延伸到开放的交通场景,并通过构建符合驾驶员脑认知过程中注意力、推理、学习和决策机制的基本计算框架,建立功能较完善的、受生物智能启发的自主智能系统。本文针对基于计算机视觉的自动驾驶场景理解涉及的几个关键性技术进行了研究,将实现自动驾驶功能的方法总结为基于规则、端到端学习、直接感知、未来帧预测和脑启发式认知模型五种典型范式。以上述五种范式为基础,本文从路域环境中车辆运动状态的分析出发,逐步深入到整体场景的分析与理解,完成驾驶场景中多目标行为分析的研究。最后,将数据驱动的方式与脑启发认知范式方法相结合,探索视频数据与脑认知数据之间的联系。本文的主要研究内容及创新点包括:1.提出了图像帧级和事件级两种端到端学习的深度神经网络模型,对车辆行驶状态进行分类,采集并标注了真实驾驶环境车辆行驶视频图像数据集,对所提两种方法处理实时视频多类事件检测任务的有效性进行了验证,为该课题未来的研究方向奠定了数据和基准方法的基础;2.以人脑感知预测生理机制与基于深度学习的视频序列预测相关经验为基础,分别提出了模拟人脑逐层信息反馈的多任务联合预测方法和模拟人脑凭借记忆进行预测的未来帧预测方法,完成了对驾驶场景视频图像未来帧及其对应的方向盘角度的预测;3.提出了一种基于视觉交互的分阶段学习的双流架构,通过对图像序列空时信息进行自动分析与反馈,提取类光流信息,自适应地对驾驶场景中多目标的未来状态信息(位置和速度)进行预测。在公开数据集UDACITY上的实验结果表明,所提方法能够在真实的驾驶场景中有效预测目标物体的状态信息;4.提出了一种将单通道脑电信息转换为反映驾驶者注意力集中强度的二维注意力掩模特征图的方法,构建了端到端学习的深度神经网络模型从脑电信号和对应视频数据中提取驾驶员注意力信息,在自建数据集上的实验对视觉表示信息与其诱导产生的脑电信号之间的关联性进行了验证,结果表明增加脑电信号后的预测模型得到的视觉显着性特征图与人眼注意力显着区域结构更为接近,特征分布更具合理性和可解释性。
叶天博[3](2021)在《视频人体三维姿态估计算法设计与实现》文中进行了进一步梳理人体姿态估计是计算机视觉领域中目标检测下的子任务,该任务需要从图像数据中提取局部特征信息与抽象的结构化信息,检测图像中的人体目标位置及人体的多个关键点坐标,并由这些关键点连接组成的人体骨架模型描述图像中的人体姿态。本论文的研究针对单目相机拍摄的RGB视频图像序列,尝试预测视频中目标人体的三维姿态与运动过程。对于该任务,本文提出了一种全新的多阶段视频三维人体姿态估计算法框架。该框架对输入视频进行处理,依次完成目标人体检测、二维人体姿态估计以及基于时间序列建模的三维姿态估计。在框架的每个阶段中,本文均将其作为一个子问题进行研究,并在现有方法的基础上有针对性地提出一种全新算法,最终完成流水线式的三维人体姿态估计算法设计。本文提出的算法在公开数据集上相对基线算法有5%以上的提升基于上述算法框架,本文设计并实现了一个三维人体姿态估计系统,该系统接收多种视频流数据格式输入,经过帧率补偿、目标检测进行预处理,再通过算法进行姿态估计,并对结果进行后处理,输出渲染后的三维人体运动动画。
杨劲松[4](2021)在《基于深度学习的多物体分拣系统研究》文中进行了进一步梳理近些年来,随着工业领域的回暖、人工成本的逐年增加和人口老龄化的影响,机器人代替人已经成为未来许多领域的主流趋势。机器人分拣作为机器人常用的技术,广泛应用于家庭服务、工业制造和物流仓储等领域。机器人分拣是一项具有复杂性的任务,主要涉及了场景感知、目标检测、位姿估计和抓取规划等,已经成为研究人员研究的热点。但是,目前大多数机器人分拣系统仅能够对单类目标物体或相互分离的多类目标物体完成分拣任务,而针对非结构化场景中存在堆叠或遮挡的多类物体的分拣尚未有良好的解决。为了使机器人能够在非结构化场景中对堆叠的多物体进行安全、稳定和准确的分拣操作,本文首先搭建了机器人多物体分拣系统;然后利用旋转目标检测网络获得了目标物体类别、位置及旋转角度;之后通过优化Mask R-CNN实例分割网络分割出物体表面像素,利用相机标定、主成分分析法和欧拉角法估计目标物体的抓取位姿,并提出一种基于先验知识的物体分拣次序推理算法;最后在所搭建的实验平台上检验了旋转目标检测网络、实例分割网络和机器人分拣系统的性能。本文主要工作如下:(1)为实现在复杂非结构化场景中机器人的自动化和智能化分拣,本文搭建了一个集目标检测、场景实例分割、位姿识别和分拣顺序推理于一体的机器人多物体分拣系统,并对系统中主要的硬件设备进行了介绍。(2)针对目标物体在图像中存在较大的倾斜时传统基于水平边框的目标检测网络无法有效识别物体姿态的问题,本文采用旋转目标检测网络R3Det来获取场景中目标物体的类别、位置和旋转角度等信息,为后续抓取位姿估计和机器人分拣提供信息;之后通过构建目标物体的数据集,完成了旋转目标检测网络的训练与评估。(3)本文通过替换Mask R-CNN的掩膜分支,搭建了优化Mask R-CNN实例分割网络,解决了原有网络对物体轮廓分割不精细的问题;然后利用相机标定将物体表面像素转化为点云;之后运用主成分分析法对物体表面进行法向量估计,并结合物体的旋转角度采用欧拉角法估计目标物体的抓取位姿;最后提出一种基于先验知识的物体分拣次序推理算法,解决了机器人因对场景理解不足而导致损伤物体或抓取失败的问题。(4)本文搭建了机器人多物体分拣实验平台,通过服务端/客户端架构进行了分拣系统的软件设计,并在机器人多物体分拣实验平台上,进行了单个物体抓取实验和多类物体分拣实验。实验结果表明,本文提出的基于深度学习的多物体分拣系统能够在非结构化场景中对堆叠物体进行自主、安全和稳定的分拣。
周以舟[5](2021)在《基于卷积神经网络的视频表征学习》文中提出视频是对客观事物形象、生动的记录与描述,是直观而具体的信息传递与表达方式,同时,随着互联网时代的全面到来,视频信号也成为了人类最重要的信息载体之一。视频表征学习(Video Representation Learning)旨在通过数据驱动的机器学习算法,对原始视频进行表征提取,为相关下游任务提供至关重要的语义特征。近年来,随着深度学习概念的提出,基于深度卷积神经网络(Deep Convolutional Neural Network)的相关算法极大地提升了视觉数据的利用效率和模型性能,为许多拥有大量数据的应用场景的落地奠定了坚实的基础。然而,现有的深度模型设计以及学习算法在处理复杂的、具有时空(spatiotemporal)特性的视频信号时,仍然面临着效率低下、成本高昂、性能不足等严重问题。为了克服这些局限性,一方面,本文通过观察到自然视频信号的时空不对称性,即空域上包含的信息量要显着大于时域,创新性地提出了将这种时空不对称特性充分考虑在深度时空网络模型设计过程中,并基于规则或自适应地将深度卷积网络中的计算模块按需地、不均等地分配到视频信号的空域和时域部分,在降低计算量和优化难度的同时极大地提升了模型性能。进一步地,本文利用贝叶斯深度网络相关知识,理论上保证了基于数据分布的时空异构深度网络的有效性和泛化性,为领域内后续工作提供了坚实的理论保障以及全面的实验观测。另一方面,由于视频信号本身承载的信息量远大于图像,对其进行人工标注需要耗费更加高昂的成本。于是,本文从自监督学习角度出发,通过考虑视频信号内在的随机属性和时空可解耦特性,结合并拓展了变分推断相关理论,创新性地提出了高阶变分自编码器自监督训练框架和影子卷积操作,成功帮助深度时空模型在无人工标注环境下更高效地学习到通用的、有代表性的视频表征,并促使模型在多个下游任务上达到领域内最先进的水平。为了全面验证上述方案的有效性,本文使用了百万量级的视频数据,并在人类动作识别、视频多标签标注、视频检索和视频预测等多个任务上进行了性能比较与验证。在人类动作识别和视频检索任务上,本文提出的时空异构方案能够在若干数据集上取得最佳分类效果,时空解耦的自监督方案能够进一步提高性能,甚至可媲美监督学习得到的效果;在视频多标签标注任务上,本文的可学习融合方案可以显着提高标签的召回率和精度;在视频预测任务上,本文基于高阶变分自编码器成功地预测出自然视频的多重未来,表明其可以有效地捕捉到自然视频中的随机属性,帮助构建更为完备的视频表征。通过全面的实验验证和理论分析,本文所提出的时空不对称设计理念已经成为领域内关于深度时空卷积网络结构设计的共识之一、所提出的高阶变分自编码器和时空解耦自监督框架也成为视频自监督训练新范式,成功拓展了领域性能的边界,并为领域的发展提供了新的视角与思路。
李佳[6](2021)在《自底向上的多人姿态估计方法研究》文中提出以人为中心的姿态估计技术的进步,如头部姿态估计、手部姿态估计和人体姿态估计等极大地促进了计算机视觉和多媒体领域的发展,引起了研究人员的广泛关注。本文聚焦其中的多人姿态估计问题,即研究如何定位出一幅图像中所有人物的二维骨骼关键点。目前已有众多的解决方案被提出,按其所采用的思路进行归类,大致可分为自顶向下的和自底向上的两大类方法。近年来,多人姿态估计问题的研究取得了很大进展。一些自顶向下的方法已经能够实现较高精度的骨骼关键点定位。但这些方法存在以下问题,即它们不仅本身的结构复杂,预测效率偏低,而且给出的结果在很大程度上依赖于人体检测器的性能。与之相比,自底向上的方法更具有历史的传承和底蕴,其结构更加紧凑,且得到的结果不依赖人体检测器,也更适合于对多人姿态的识别和推断。本文在前人工作的基础上,以单幅彩色图像为输入,对多人姿态估计问题进行了深入研究,提出了性能优异的自底向上方法。此外,相关研究成果还被迁移应用到基于单幅深度图像的3D手部姿态估计。本文工作的主要内容和创新点包括:1.提出了一种基于高斯响应热图的自底向上的多人姿态估计方法。第一,使用高斯响应热图编码图像中所有人物的骨骼关键点位置信息和骨骼关键点之间的配对关联信息。第二,设计了两种用于推理高斯热图的多阶段卷积神经网络,分别是多感受野特征融合的卷积网络(我们称之为PoseNet),以及恒等映射沙漏网络(简称为IMHN)。PoseNet由多个残差感知网络模块堆叠而成,每个模块内部均提取和融合不同尺度的空间特征。IMHN引入了空间和通道注意力机制,捕捉不同尺度的骨骼关键点特征及骨骼关键点之间的潜在关联。第三,设计了一种聚焦的平方误差损失,用于缓解网络训练阶段出现的高斯热图学习不平衡的问题。实验结果表明,我们的方法在MSCOCO多人姿态数据集上刷新了自底向上方法的最高估计精度。2.提出了一种基于连接引导向量的自底向上的多人姿态估计方法,实现的工作系统在估计精度和运行效率之间取得了很好的权衡。给定一幅彩色图像,我们用有104个卷积层的级联沙漏网络(Hourglass-104)同时预测所有人物的骨骼关键点以及连接人体姿态骨架树上相邻骨骼关键点的引导向量。根据这些引导向量把检测到的骨骼关键点配对,并组装成一个个人体姿态骨架识别结果。此外,我们比较了几种基于热图的骨骼关键点坐标编解码方法,揭示了对估计精度有显着影响的处理细节。实验表明,我们提出的方案给我们的方法框架带来了明显的性能提升。和其他方法相比,我们的方法在MSCOCO多人姿态数据集上取得了极具竞争力的结果。3.对基于单幅深度图像的3D手部姿态估计问题进行了研究,通过借鉴人体姿态估计研究中的成果,提出了一种基于局部回归和特征融合的端到端的沙漏网络推理模型,改进了用于监督坐标回归的L1损失函数,从输入的手部深度图像块中直接预测手部关键点的三维坐标值。在NYU手部姿态估计数据集上进行的实验结果表明,我们提出的方法在预测精度上可以媲美已有的其他方法,并且所实现的工作系统满足实时处理的需求。
袁利恒[7](2021)在《基于智能感知与学习的机器人抓取与装配方法》文中提出随着工业生产技术的提高,机器人越来越广泛的应用于人类的日常生产生活中。然而,机器人的生产水平受限于生产环境的变化难以实现柔性化生产。通过感知外在环境,机器人可以根据获取的信息来调整自身的姿态。因此,本文提出了一种基于智能感知与学习的机器人抓取与装配方法,并在此基础上设计了机器人抓取与装配系统,并利用实验进行了验证。主要内容包括以下几个方面:首先,在智能感知层面上,基于RGB-D图像构建了一种五维抓取位姿表示方法,并在此基础设计了以接触状态(Contact states,CS)为核心的机器人智能感知方法。在执行规划层面上,以基于随机采样法的快速扩展随机树法为基础搭建了机器人运动规划框架,并利用Move IT!软件包来控制机器人运动规划。Kinect V2相机作为传感器来实现图像的获取,并利用手眼标定来完成机器人坐标转换,最终,构建了机器人抓取与装配系统。其次,为了解决非结构性环境下的混杂物体抓取成功率低的问题,提出一种基于级联神经网络的机器人抓取方法,实现了机器人自主抓取混杂物体的目标。通过Mask-RCNN(掩膜区域建议神经网络)提取抓取特征及抓取候选区域;为了在保证泛化性的同时提高检测速率,自建端到端神经网络Y-Net进一步估计抓取角度;针对目前方法难以适应混杂物体环境的问题,自建端到端神经网络Q-Net对抓取位置进行抓取可行性评估;最终获取机器人最优抓取位姿以完成机器人混杂物体抓取任务。然后,以齿轮装配工位为研究背景,提出一种复杂机器人装配过程在线学习与参数优化方法,解决了当前离线方法装配成功率低和效率低的问题。针对复杂多变的机器人齿轮装配过程,基于高斯过程回归建立机器人接触状态与机器人动作的动态模型,提出一种新的基于生成对抗的粒子群优化算法用于在线学习,生成装配关键参数优化策略,并采用支持向量数据描述方法对新颖装配数据进行检测,最终实现装配过程在线建模与参数优化。最终,在数据集以及实际场景下分别进行抓取与装配实验,抓取实验表明针对随机姿态、不同形状的不规则物体,基于级联神经网络的机器人抓取估计方法可以以较高的准确率和抓取速度获得机器人最优抓取位姿,适用于混杂物体抓取场景,泛化性和鲁棒性强。齿轮与花键轴机器人装配实验结果表明,基于生成对抗粒子群-高斯过程回归的装配方法在装配成功率与效率上均优于人工和离线方法,可以对生产线不同批次和规格的齿轮进行在线装配,满足生产线的实际生产需求。
王华胜[8](2021)在《基于知识蒸馏策略和级联网络的深度估计方法》文中研究表明单目深度估计是计算机视觉领域中一项重要而具有挑战性的任务,而且在三维场景重建、无人驾驶、医学图像处理、现代化军事以及智能交通系统中都发挥关键性作用。其目的在于估计出RGB图像中每一像素点的深度信息。基于深度学习的深度估计流程为:首先输入一张二维图像,然后进入卷积神经网络即编码器-解码器结构,最后估计出图像中场景的深度值。在深度估计的过程中,网络模型的精确度往往会受到图像尺度与场景环境的影响。尽管目前有许多方法在该任务上有着很优秀的表现,但是大部分方法在神经网络中对特征图语义信息的利用还不够充分,而且使用的损失函数均为逐像素操作,比如一范数约束或二范数约束。这些损失函数没有考虑到像素之间的关联,也没有对深度的分布进行约束。针对上述问题,本文提出了二阶段的级联深度蒸馏模型(Cascaded Depth Network with Distillation Strategy,CDDN),利用级联网络有效地组织特征图信息,同时提出分布一致性损失函数约束预测深度图的直方图分布。本文训练模型时,首先通过模型的第一阶段得到一个粗略的预测深度图,接着将其与原图像融合后的特征信息作为第二阶段模型的输入。在训练第二阶段模型时,引入知识蒸馏策略,即利用深度填补的模型作为第二阶段模型的指导模型,指导预测最终的深度图。在训练过程中,为了更好的预测出准确的深度图,第二阶段模型引入分布一致性损失函数来约束网络模型估计的深度图。在本文的实验部分,大量的对比实验能够证明各个模块的有效性,并且本文在两个公开的深度估计数据库上进行了大量的实验以此验证模型的有效性,实验结果表明CDDN在深度估计的任务上能达到前沿的效果。
许煜东[9](2021)在《基于Faster R-CNN的散斑图像识别与定位》文中进行了进一步梳理隐身能力是衡量现代战机作战半径及其生存能力的关键指标,而雷达吸波材料对提高现代战机的隐身能力起到了关键作用。这些吸波涂层材料通常由多层结构组成,其生产制作过程中可能会出现缺陷,如:脱粘、皱纹、裂缝、冲击损坏等,会降低雷达吸波材料的机械性能,甚至限制其吸收雷达波的能力从而造成严重后果。因此,研究大范围、高精度、智能化的缺陷识别与定位技术具有重要意义。雷达吸波涂层材料内部的脱粘缺陷,面积小、隐蔽性极强,超声检测、射线检测和红外热成像等检测方法均达不到其检测要求,而激光剪切散斑干涉技术具有非破坏性、大范围、高精度等优点在无损检测领域得到广泛应用。该检测技术通过对含有缺陷的吸波涂层材料施加热加载使其表面发生形变,然后分别采集形变前后的两幅散斑干涉图像作差可以得到具有干涉条纹的图像,采用基于深度学习的目标检测算法可以提高散斑图像的识别与定位精度,从而实现大范围、高精度、智能化的检测效果以代替传统人工对缺陷的识别。本文的主要工作如下:1.研究激光剪切散斑干涉技术检测缺陷的原理,对剪切散斑干涉技术检测吸波涂层材料脱粘缺陷进行数学建模。2.根据雷达吸波材料缺陷检测需求分析,设计迈克尔逊激光剪切散斑干涉缺陷检测系统,优化外部热加载技术,实现大面积、复杂非均匀结构的热加载。设计上位机软件控制高速摄像头实时采集散斑干涉图像、控制相移控制器引入4+4相移算法提取散斑干涉图像的相位图,并实时显示散斑图像缺陷的识别与定位结果。3.分析散斑图像的噪声特点,采用稀疏三维变换域协同过滤去噪算法(BM3D)对散斑图像进行滤波,既能有效滤除随机噪声又保留了干涉条纹的边缘信息。通过翻转和旋转、随机移位、灰度变换等操作对散斑图像进行增强和扩大训练数据量,并用标注工具制作散斑图像数据集。4.根据散斑图像的特点,对Faster R-CNN目标检测算法做出改进:(1)提出双路残差网络来减少散斑干涉图像中背景噪声对缺陷特征的干扰;(2)引入Context Ro I结构和级联检测机制来提高缺陷的全局定位精度;(3)提出基于自注意力机制的特征金字塔网络对多尺度特征进行自适应赋权来提高小面积缺陷的检测精度。
郑治迦[10](2020)在《基于多分辨率级联网络的实时语义SLAM建图》文中研究表明在目前的科技发展浪潮中,人工智能技术的普遍应用已经成为各领域前沿技术发展的重要趋势,特别是机器人领域的发展受到极大关注。同时定位与建图(Simultaneous Localization and Mapping,SLAM)研究机器人的定位、导航和路径规划等问题,在SLAM系统中添加语义是提升机器人人机交互能力的重要途径。本文提出一种基于多分辨率级联网络的语义SLAM建图模块,提出一个针对RGB-D输入的多分辨率级联网络来实现平衡精度与速度的图像语义分割。本文所提出的多分辨率级联网络是针对RGB-D多维输入的情况,包含了三个分辨率情况下的图像输入,利用深度近似卷积以低成本的运算代价和内存消耗融合深度图像信息,以中分辨率经过浅层特征提取层得到的特征图作为低分辨率分支进行进一步特征提取,三个分辨率分支的特征使得网络对全局语义信息和局部细节信息具有良好的提取能力。利用多分辨率特征进行融合并利用标签进行监督训练,并在预测过程达到实时效率。本文提出的以多分辨率级联网络为基础的SLAM语义建图模块能够以实时效率针对RGB-D输入获取分割结果预测图,在SLAM的视觉里程计模块沿用目前已有的基于RGB-D的SLAM系统框架,在建图模块引入多分辨率级联网络提高效率,增强建图的稠密度。本文在NYUv2和SUN RGB-D数据集对多分辨率级联网络进行图像语义分割任务的测试和验证,并与其他优秀算法进行比较,本文所提出的网络结构对精度和运行速度两方面更具平衡性。同时本文在NYUv2数据集提供的视频数据上对提出的SLAM语义建图模块进行了实现,达成了稠密的语义建图。
二、用于实时识别三维物体的级联神经网络模型的优化方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、用于实时识别三维物体的级联神经网络模型的优化方法(论文提纲范文)
(1)基于深度学习的视觉运动估计与理解(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 研究问题与挑战 |
1.3 研究内容与主要贡献 |
1.4 本文组织结构 |
2 相关文献综述 |
2.1 低层次视觉运动研究现状 |
2.1.1 任务数据与可视化方法 |
2.1.2 非深度学习方法的启示 |
2.1.3 监督深度学习方法研究 |
2.1.4 非监督的深度学习方法研究 |
2.2 高层视觉运动研究现状 |
2.2.1 多目标跟踪研究现状 |
2.2.2 行为识别与检测研究现状 |
2.3 本章小结 |
3 融合立体感知的场景点运动估计 |
3.1 引言 |
3.2 问题描述 |
3.3 自监督光流估计与深度估计 |
3.3.1 自监督信号构建 |
3.3.2 基础网络架构 |
3.3.3 自监督优化目标 |
3.4 融合三维感知的多任务联合运动估计 |
3.4.1 显式相机自运动估计 |
3.4.2 场景运动区域分割 |
3.4.3 损失函数与学习流程 |
3.5 实验结果 |
3.5.1 实验设置 |
3.5.2 评测指标 |
3.5.3 子任务实验结果与分析 |
3.6 本章小结 |
4 类比学习的自监督光流估计 |
4.1 引言 |
4.2 高度共享的循环光流网络 |
4.2.1 高性能光流网络设计思想 |
4.2.2 共享循环结构设计 |
4.2.3 多帧模型拓展 |
4.2.4 多帧模型的自监督训练 |
4.3 复杂条件的光流类比学习 |
4.3.1 自监督类比学习框架 |
4.3.2 类比任务的变换形式 |
4.3.3 总体目标函数 |
4.4 实验结果 |
4.4.1 数据集介绍 |
4.4.2 实验设置 |
4.4.3 评测指标 |
4.4.4 与主流方法对比 |
4.4.5 消融实验 |
4.4.6 跨数据集泛化 |
4.5 本章小结 |
5 多任务联合学习的多目标跟踪 |
5.1 引言 |
5.2 基于无锚点检测的多目标跟踪 |
5.2.1 深度多目标跟踪框架 |
5.2.2 基于无锚点模型的共享思路 |
5.3 无锚点的链式多目标跟踪 |
5.3.1 无锚点跟踪网络设计 |
5.3.2 多任务损失函数 |
5.3.3 使用目标检测数据集训练 |
5.3.4 链式记忆推理 |
5.3.5 贪婪跟踪算法实现 |
5.4 实验结果 |
5.4.1 实验设置 |
5.4.2 评测指标 |
5.4.3 与主流方法对比 |
5.4.4 消融实验 |
5.5 本章小结 |
6 工业装配过程中的时空运动检测 |
6.1 引言 |
6.2 任务描述 |
6.2.1 问题说明 |
6.2.2 数据采集说明 |
6.3 轻量级运动跟踪分析 |
6.3.1 轻量级无锚点跟踪网络 |
6.3.2 跨帧检测的多目标跟踪 |
6.3.3 行为检测与重建 |
6.4 实验结果 |
6.4.1 数据说明 |
6.4.2 实验设置 |
6.4.3 检测模块测试 |
6.4.4 跟踪模块测试 |
6.4.5 行为检测模块测试 |
6.5 本章小结 |
7 总结与展望 |
7.1 本文工作总结 |
7.2 未来工作展望 |
参考文献 |
作者简历 |
攻读博士学位期间的主要学术成果 |
(2)面向自动驾驶的场景理解关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 基于计算机视觉的自动驾驶系统功能实现方法 |
1.2.1 基于规则的感知范式 |
1.2.2 端到端的学习范式 |
1.2.3 直接感知范式 |
1.2.4 未来帧预测范式 |
1.2.5 脑启发认知范式 |
1.3 论文的研究内容及章节安排 |
1.3.1 主要研究内容 |
1.3.2 本文的组织结构及章节安排 |
第二章 基于深度网络的车辆行驶状态分类 |
2.1 Campus20数据集 |
2.2 图像帧级的车辆行驶状态分类 |
2.2.1 模型结构及学习过程 |
2.2.2 基于局部平衡策略的数据重排 |
2.2.3 重加权数据平衡方法 |
2.2.4 小结 |
2.3 事件级的车辆行驶状态预测 |
2.3.1 事件级车辆行驶状态预测网络 |
2.3.2 实验结果与分析 |
2.4 本章小结 |
第三章 驾驶场景下的未来信息预测 |
3.1 引言 |
3.2 端到端学习的未来帧预测 |
3.2.1 模型结构及学习方法 |
3.2.2 实验结果与分析 |
3.3 双模态未来信息预测 |
3.3.1 问题定义及模型结构 |
3.3.2 实验结果与分析 |
3.4 本章小结 |
第四章 基于自适应视觉交互的多目标未来状态预测 |
4.1 目标任务 |
4.2 多目标未来状态预测网络 |
4.2.1 双流预测模型架构 |
4.2.2 自适应视觉交互多目标未来状态预测网络 |
4.3 实验结果与分析 |
4.3.1 目标检测验证 |
4.3.2 基于反馈机制的动态信息生成 |
4.3.3 在线状态预测 |
4.4 本章小结 |
第五章 驾驶场景视觉注意力区域预测 |
5.1 引言 |
5.2 脑电数据采集 |
5.3 基于视觉注意的脑电特征提取 |
5.4 FocusNet模型 |
5.4.1 基于空间特征学习的选择性注意机制 |
5.4.2 基于双向空时特征学习的直觉推理过程 |
5.4.3 算法模型学习 |
5.5 实验结果与分析 |
5.5.1 基于视频图像的FOA区域检测 |
5.5.2 基于双模态数据的FOA区域检测 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 研究展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(3)视频人体三维姿态估计算法设计与实现(论文提纲范文)
摘要 |
英文摘要 |
第一章 绪论 |
1.1 课题背景 |
1.2 研究内容 |
1.3 攻读学位期间发表的学位论文 |
1.4 论文结构 |
第二章 相关技术介绍 |
2.1 深度神经网络及相关技术 |
2.2 卷积神经网络 |
2.3 循环神经网络 |
2.4 二维图像中的目标检测 |
2.5 二维人体姿态估计 |
2.6 三维人体姿态估计 |
2.7 小孔成像模型与坐标系变换 |
2.8 数据集介绍 |
2.9 本章小结 |
第三章 视频连续帧三维人体姿态估计算法研究设计与评估 |
3.1 引言 |
3.2 算法需求与现有技术分析 |
3.3 算法流程与详细设计 |
3.4 实验设置与评估 |
3.5 实验结果 |
3.6 本章小结 |
第四章 三维人体姿态估计系统需求分析与概要设计 |
4.1 三维人体姿态估计系统需求分析 |
4.2 三维人体姿态估计系统总体设计 |
4.3 三维人体姿态估计系统模块设计 |
4.4 本章总结 |
第五章 三维人体姿态估计系统详细设计 |
5.1 数据预处理功能模块详细设计 |
5.2 三维人体姿态估计模块 |
5.3 数据后处理功能模块 |
5.4 本章小结 |
第六章 三维人体字体姿态估计系统测试 |
6.1 系统测试环境 |
6.2 三维人体姿态估计系统功能测试 |
6.3 数据后处理功能模块测试 |
6.4 系统非功能性需求测试 |
6.5 三维人体姿态估计结果分析 |
6.6 本章小结 |
第七章 结束语 |
7.1 工作总结 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(4)基于深度学习的多物体分拣系统研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题来源 |
1.2 研究背景及意义 |
1.3 国内外研究现状综述 |
1.3.1 机器人分拣系统研究现状 |
1.3.2 旋转目标检测网络研究现状 |
1.3.3 实例分割网络研究现状 |
1.4 主要研究内容及章节安排 |
第2章 机器人多物体分拣系统的硬件组成 |
2.1 系统的整体框架 |
2.2 系统硬件构成 |
2.2.1 控制主机 |
2.2.2 EPSON机器人 |
2.2.3 Kinect相机 |
2.3 相机标定 |
2.3.1 坐标系简介 |
2.3.2 坐标系之间的变换 |
2.3.3 相机标定实验 |
2.4 本章小结 |
第3章 基于R3Det网络的目标检测技术 |
3.1 抓取位姿的表示方法 |
3.2 基于R3Det网络模型的目标检测方法 |
3.2.1 R3Det网络整体结构 |
3.2.2 基础网络RetinaNet |
3.2.3 特征对齐模块 |
3.2.4 精炼模块 |
3.3 旋转目标检测数据集构建 |
3.4 旋转目标检测模型训练与评估 |
3.4.1 数据集增强 |
3.4.2 旋转目标检测模型训练 |
3.4.3 旋转目标检测模型评估 |
3.5 本章小结 |
第4章 基于实例分割网络的多目标分拣技术 |
4.1 基于优化Mask R-CNN模型的场景实例分割 |
4.1.1 优化Mask R-CNN模型整体框架 |
4.1.2 优化Mask R-CNN模型的算法实现 |
4.1.3 Point Rend模块 |
4.2 实例分割模型训练与评估 |
4.2.1 实例分割数据集构建与预处理 |
4.2.2 实例分割模型训练 |
4.2.3 实例分割模型评估 |
4.3 目标物体姿态估计 |
4.3.1 基于PCA的物体表面法线估计 |
4.3.2 基于欧拉角法的目标物体三维姿态估计 |
4.4 分拣顺序推理 |
4.5 本章小结 |
第5章 机器人多物体分拣系统实验研究 |
5.1 机器人多物体分拣系统实验平台 |
5.1.1 分拣系统实验平台 |
5.1.2 分拣系统软件设计 |
5.2 旋转目标检测与实例分割实验效果 |
5.2.1 旋转目标检测效果 |
5.2.2 场景实例分割效果 |
5.3 机器人分拣实验 |
5.3.1 单个物体抓取实验 |
5.3.2 多物体分拣实验 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简介及科研成果 |
致谢 |
(5)基于卷积神经网络的视频表征学习(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 选题的背景和意义 |
1.2 国内外研究现状 |
1.2.1 视频表征学习中的深度网络结构研究现状 |
1.2.2 视频表征学习中的自监督学习 |
1.3 研究内容及主要贡献 |
1.3.1 混合二维/三维卷积通道 |
1.3.2 概率视角分析时空融合 |
1.3.3 可学习池化 |
1.3.4 基于随机视频预测的自监督学习 |
1.3.5 基于时空解耦的自监督学习 |
1.4 本文的组织结构 |
第2章 视频表征学习中的深度学习背景介绍 |
2.1 卷积神经网络 |
2.1.1 基础概念 |
2.1.2 重要组成部分 |
2.1.3 深度卷积神经网络 |
2.1.4 神经网络结构搜索 |
2.2 视频表征学习中的深度时空卷积网络 |
2.2.1 基于时空交互的设计 |
2.2.2 基于卷积分解的设计 |
2.2.3 基于关系推理的设计 |
2.2.4 基于网络搜索的设计 |
第3章 基于混合卷积通道的时空网络结构设计 |
3.1 背景介绍 |
3.2 混合卷积通道和混合卷积通道网络 |
3.2.1 三维卷积 |
3.2.2 混合卷积通道:MiCT |
3.2.3 深度混合卷积通道网络:MiCT-Net |
3.3 在人类行为识别任务上的验证 |
3.3.1 实验设置 |
3.3.2 与传统三维卷积神经网络的对比 |
3.3.3 与最先进的三维卷积神经网络方案对比 |
3.4 讨论 |
3.4.1 可视化 |
3.4.2 总结 |
第4章 基于数据分布的自适应时空网络结构设计 |
4.1 背景介绍 |
4.2 算法 |
4.2.1 概率空间构造 |
4.2.2 通过Variational DropPath进行概率空间嵌入 |
4.2.3 概率视角下的自适应时空融合策略 |
4.3 理论证明 |
4.3.1 对公式4.5的证明 |
4.3.2 对公式4.7的证明 |
4.4 在人类行为识别任务上的应用 |
4.4.1 实验设置 |
4.4.2 实验结果 |
4.5 在第一人称动作识别任务上的应用 |
4.5.1 实验设置 |
4.5.2 实验结果 |
4.6 基于概率空间的观察 |
4.7 泛化性 |
4.8 讨论和拓展 |
第5章 基于可学习池化操作的时空网络结构设计 |
5.1 背景介绍 |
5.2 算法 |
5.2.1 MIL网络框架结构 |
5.2.2 可学习池化操作 |
5.2.3 包+实例损失函数 |
5.3 在网络视频多标签标注任务上的应用 |
5.3.1 实验设置 |
5.3.2 实验结果 |
5.3.3 分析 |
5.4 讨论和拓展 |
第6章 视频表征学习中的自监督学习 |
6.1 基于自然视频多未来预测的自监督学习 |
6.1.1 引言 |
6.1.2 背景介绍 |
6.1.3 算法 |
6.1.4 理论证明 |
6.1.5 在数字序列预测任务上的验证 |
6.1.6 在真实自然视频预测任务上的应用 |
6.1.7 可视化 |
6.1.8 讨论和拓展 |
6.2 基于时空解耦的自监督学习 |
6.2.1 引言 |
6.2.2 算法 |
6.2.3 实验 |
6.2.4 讨论和拓展 |
第7章 总结与展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(6)自底向上的多人姿态估计方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究课题的引出 |
1.1.1 引言 |
1.1.2 人体姿态的描述 |
1.1.3 本课题研究的对象 |
1.2 研究背景和意义 |
1.2.1 人体姿态估计的应用 |
1.2.2 自底向上的多人姿态估计方法研究 |
1.3 人体姿态估计数据集和评价指标 |
1.3.1 单人姿态数据集 |
1.3.2 多人姿态数据集 |
1.3.3 人体姿态估计的评价指标 |
1.4 本文研究的主要内容 |
1.5 本文的组织结构 |
第2章 相关工作 |
2.1 人体关键点检测建模 |
2.1.1 基于传统方法的人体关键点检测建模 |
2.1.2 深度学习时代的人体关键点检测建模 |
2.2 人体关键点分组建模 |
2.2.1 人体关键点关联信息的编码 |
2.2.2 多人姿态的人体关键点分组算法 |
2.3 人体姿态的推理模型设计 |
2.3.1 堆叠的多阶段卷积神经网络 |
2.3.2 不同感受野大小的特征融合 |
2.3.3 网络特征图大小对人体姿态估计的影响 |
2.3.4 网络结构上的其他改进 |
2.4 人体姿态估计网络的学习 |
2.4.1 损失函数 |
2.4.2 监督训练策略 |
2.4.3 多任务学习 |
2.4.4 其他模型学习方法 |
2.5 本章小结 |
第3章 基于高斯响应热图的多人姿态估计 |
3.1 研究背景和思路 |
3.2 人体关键点及身体部件的高斯响应热图的定义 |
3.2.1 用于人体关键点配对的身体部件的定义 |
3.2.2 高斯响应热图的定义 |
3.3 人体姿态骨架的定义 |
3.4 网络结构 |
3.4.1 整体结构 |
3.4.2 残差感知网络模块 |
3.4.3 网络结构的其他细节 |
3.5 聚焦的最小平方误差损失 |
3.5.1 提出动机 |
3.5.2 高斯热图编码引入的学习不平衡问题 |
3.5.3 损失函数的形式 |
3.5.4 损失函数的关键部分解释 |
3.6 多人姿态的人体关键点分组算法 |
3.6.1 候选人体关键点和身体部件的获取 |
3.6.2 人体关键点分组问题的描述 |
3.6.3 人体关键点分组算法 |
3.7 实验 |
3.7.1 数据集和评价指标 |
3.7.2 训练细节 |
3.7.3 测试细节 |
3.7.4 结果和分析 |
3.8 本章小结 |
第4章 基于恒等映射沙漏网络的多人姿态估计 |
4.1 研究背景和思路 |
4.2 对高斯响应热图编解码的反思和改进 |
4.2.1 几何中心点对齐的图像缩放 |
4.2.2 高斯响应热图编码和解码细节的改进 |
4.3 用于多人姿态估计的恒等映射沙漏网络 |
4.3.1 整体结构 |
4.3.2 沙漏模块子网络 |
4.3.3 引入空间和通道注意力机制 |
4.4 损失函数 |
4.5 人体关键点分组算法 |
4.6 实验 |
4.6.1 训练细节 |
4.6.2 测试细节 |
4.6.3 结果和分析 |
4.7 其他方面的改进 |
4.7.1 恒等映射沙漏网络的随机初始化 |
4.7.2 聚焦L2损失的聚焦参数 |
4.7.3 高斯热图缩放时的插值算法 |
4.7.4 网络训练时的噪声梯度 |
4.7.5 漏检的人体关键点 |
4.8 和其他方法的比较 |
4.9 本章小结 |
第5章 基于连接引导向量的多人姿态估计 |
5.1 研究背景和思路 |
5.2 方法的整体流程设计 |
5.2.1 方法框架设计 |
5.2.2 和其他相关工作的区别 |
5.3 高斯响应热图的定义 |
5.4 相邻人体关键点之间的引导向量的定义 |
5.5 网络结构和损失函数 |
5.6 基于引导向量的人体关键点贪婪分组算法 |
5.7 实验 |
5.7.1 实施细节 |
5.7.2 消融实验 |
5.7.3 多人姿态人体关键点编码解码方法的比较 |
5.7.4 在MSCOCO测试集上的结果 |
5.8 本章小结 |
第6章 基于沙漏网络和局部特征回归融合的3D手部姿态估计 |
6.1 和多人姿态估计问题研究的异同 |
6.2 研究背景和思路 |
6.3 相关工作简介 |
6.4 我们的方法 |
6.4.1 问题描述 |
6.4.2 网络结构 |
6.4.3 损失函数 |
6.5 实验 |
6.5.1 数据集和数据预处理 |
6.5.2 训练细节 |
6.5.3 结果和分析 |
6.5.4 和其他方法的比较 |
6.6 本章小结 |
第7章 总结和展望 |
7.1 本文工作内容的总结 |
7.2 本文工作的创新点 |
7.3 未来工作的展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(7)基于智能感知与学习的机器人抓取与装配方法(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题背景及意义 |
1.2 机器人抓取研究现状 |
1.3 目标检测方法现状 |
1.4 机器人装配研究现状 |
1.5 本文的结构与研究内容 |
2 基于RGB-D图像和接触状态的机器人抓取装配系统 |
2.1 引言 |
2.2 机器人智能感知状态表示方法 |
2.2.1 基于RGB-D图像的机器人五维抓取位姿表示方法 |
2.2.2 机器人感知接触状态描述 |
2.3 机器人视觉系统与运动规划 |
2.3.1 相机畸变模型 |
2.3.2 相机参数标定 |
2.3.3 基于Move IT!的机器人运动规划 |
2.4 本章小结 |
3 基于级联神经网络的机器人抓取方法 |
3.1 基于Mask-RCNN的抓取位置检测方法 |
3.2 基于端到端的抓取角度评估方法 |
3.2.1 网络模型结构 |
3.2.2 激活函数 |
3.2.3 损失函数及归一化方法 |
3.3 基于端到端方法的抓取可行性评估 |
3.3.1 数据预处理 |
3.3.2 网络模型结构 |
3.4 模型训练 |
3.4.1 机器人抓取数据集 |
3.4.2 网络训练 |
3.5 本章小结 |
4 基于在线学习与参数优化的机器人装配方法 |
4.1 基于高斯过程的在线建模方法 |
4.1.1 高斯过程模型 |
4.1.2 高斯过程中的核函数 |
4.2 基于改进粒子群算法的参数优化方法 |
4.3 基于支持向量描述的新颖值识别 |
4.4 齿轮装配在线建模与预测方法 |
4.4.1 算法框架 |
4.4.2 模型训练过程 |
4.5 本章小结 |
5 机器人在线抓取与装配实验 |
5.1 实验平台构建 |
5.2 机器人在线抓取实验 |
5.2.1 评价指标 |
5.2.2 算法有效性分析 |
5.2.3 可行性抓取评估实验 |
5.2.4 真实场景抓取实验 |
5.2.5 在线抓取实验 |
5.3 机器人装配试验 |
5.3.1 算法可行性分析 |
5.3.2 实验室场景下的在线装配实验 |
5.3.3 工业生产场景下的在线装配实验 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(8)基于知识蒸馏策略和级联网络的深度估计方法(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 深度估计 |
1.1.1 深度估计研究现状 |
1.1.2 深度估计的应用 |
1.1.3 深度估计数据库与评价指标 |
1.2 基于传统方法的深度估计模型 |
1.3 基于深度学习的深度估计 |
1.4 研究内容与组织架构 |
2 相关理论基础 |
2.1 相机成像原理 |
2.2 深度估计算法基本原理 |
2.2.1 利用三角化算法计算图像深度 |
2.2.2 利用深度学习预测图像深度 |
2.3 级联网络 |
2.4 知识蒸馏 |
2.4.1 教师网络与学生网络结构 |
2.4.2 知识 |
2.4.3 蒸馏方法 |
3 基于知识蒸馏策略和级联网络的深度估计模型 |
3.1 引言 |
3.2 CDDN网络模型 |
3.2.1 CDDN模型简介 |
3.2.2 骨架模型 |
3.2.3 上采样模块 |
3.3 模型中级联网络训练策略 |
3.4 知识蒸馏机制训练策略 |
3.4.1 深度填补模型 |
3.4.2 知识蒸馏机制 |
3.5 损失函数 |
3.5.1 分布一致性损失 |
3.5.2 模型损失函数 |
3.6 实验 |
3.6.1 数据集的配置策略 |
3.6.2 参数设置与训练细节 |
3.6.3 模型有效性验证 |
3.6.4 与其他方法比较与分析 |
3.6.5 模型的局限性 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(9)基于Faster R-CNN的散斑图像识别与定位(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景与意义 |
1.1.1 雷达吸波材料的作用 |
1.1.2 脱粘缺陷检测技术的作用 |
1.2 国内外研究现状 |
1.2.1 激光剪切散斑干涉技术的研究现状 |
1.2.2 基于机器视觉缺陷识别的研究现状 |
1.3 研究内容及章节安排 |
第二章 激光剪切散斑干涉技术理论分析与系统设计 |
2.1 激光剪切散斑干涉条纹形成原理 |
2.2 激光剪切散斑干涉缺陷检测原理 |
2.3 相移技术 |
2.4 激光剪切散斑干涉缺陷检测系统设计 |
2.4.1 需求分析 |
2.4.2 剪切散斑干涉缺陷检测系统硬件设计 |
2.4.3 剪切散斑干涉缺陷检测系统软件设计 |
2.5 本章小结 |
第三章 激光剪切散斑干涉图像处理研究 |
3.1 剪切散斑干涉图像的特征 |
3.2 基于BM3D算法的散斑图像滤波 |
3.2.1 BM3D滤波算法的原理 |
3.2.2 基于网格搜索的参数优化 |
3.3 散斑图像数据处理及增强 |
3.4 散斑图像数据集制作 |
3.5 本章小结 |
第四章 基于改进Faster R-CNN的散斑图像识别与定位 |
4.1 Faster R-CNN算法原理 |
4.1.1 卷积特征提取网络 |
4.1.2 区域候选网络 |
4.1.3 Ro I Pooling层 |
4.1.4 分类回归网络 |
4.2 双路残差网络消除背景噪声 |
4.3 Context Ro I结构和级联检测机制实现缺陷精确定位 |
4.3.1 Context Ro I结构 |
4.3.2 级联检测机制 |
4.4 基于自注意力机制的特征金字塔网络实现小面积缺陷检测 |
4.4.1 特征金字塔网络的原理 |
4.4.2 注意力机制的原理 |
4.4.3 基于自注意力机制的特征金字塔网络 |
4.5 本章小结 |
第五章 散斑干涉图像缺陷检测结果与分析 |
5.1 模型性能评价指标 |
5.1.1 基础评价指标 |
5.1.2 COCO目标检测评价指标 |
5.2 数据集描述和实验配置 |
5.2.1 数据集描述 |
5.2.2 算法性能对比策略 |
5.3 消融实验 |
5.4 检测结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(10)基于多分辨率级联网络的实时语义SLAM建图(论文提纲范文)
摘要 |
英文摘要 |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 基于特征法的视觉SLAM |
1.2.2 基于直接法的视觉SLAM |
1.2.3 基于深度学习的语义分割 |
1.3 论文结构安排 |
第二章 SLAM与图像语义分割 |
2.1 深度学习与SLAM |
2.1.1 深度学习与视觉里程计 |
2.1.2 深度学习与闭环检测和重定位 |
2.1.3 深度学习与语义SLAM |
2.2 基于深度学习的图像语义分割 |
2.2.1 图像语义分割技术背景 |
2.2.2 基于RGB输入的图像语义分割 |
2.2.3 基于RGB-D输入的图像语义分割 |
2.3 本章小结 |
第三章 实时语义分割与建图 |
3.1 基于RGB-D输入的实时语义分割网络 |
3.1.1 网络基础模块 |
3.1.2 损失函数 |
3.2 针对RGB-D输入的快速特征提取模块 |
3.2.1 网络结构分析 |
3.2.2 深度近似卷积 |
3.2.3 深度近似卷积与残差模块 |
3.2.4 深度近似残差模块效率分析 |
3.3 多分辨率特征融合模块 |
3.4 多分辨率级联网络 |
3.4.1 多分辨率级联网络结构 |
3.4.2 多分辨率标签监督损失函数 |
3.4.3 算法流程解析 |
3.5 语义建图 |
3.5.1 RGB-D视觉里程计 |
3.5.2 三维地图点语义融合与更新 |
3.6 本章小结 |
第四章 实验结果分析 |
4.1 数据集 |
4.2 硬件平台及软件配置 |
4.3 语义分割网络评价指标 |
4.4 语义分割结果 |
4.4.1 深度近似卷积的参数定量 |
4.4.2 关于深度近似卷积中相对位置项的实验 |
4.5 数据集上的语义分割结果 |
4.5.1 数据集NYUv2上的语义分割结果 |
4.5.2 数据集SUN RGB-D上的语义分割结果 |
4.5.3 语义分割对比实验小结 |
4.6 语义建图结果 |
4.7 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
简历与科研成果 |
四、用于实时识别三维物体的级联神经网络模型的优化方法(论文参考文献)
- [1]基于深度学习的视觉运动估计与理解[D]. 刘亮. 浙江大学, 2021(01)
- [2]面向自动驾驶的场景理解关键技术研究[D]. 杜丽. 北京邮电大学, 2021(01)
- [3]视频人体三维姿态估计算法设计与实现[D]. 叶天博. 北京邮电大学, 2021(01)
- [4]基于深度学习的多物体分拣系统研究[D]. 杨劲松. 吉林大学, 2021
- [5]基于卷积神经网络的视频表征学习[D]. 周以舟. 中国科学技术大学, 2021(09)
- [6]自底向上的多人姿态估计方法研究[D]. 李佳. 中国科学技术大学, 2021(09)
- [7]基于智能感知与学习的机器人抓取与装配方法[D]. 袁利恒. 大连理工大学, 2021(01)
- [8]基于知识蒸馏策略和级联网络的深度估计方法[D]. 王华胜. 大连理工大学, 2021(01)
- [9]基于Faster R-CNN的散斑图像识别与定位[D]. 许煜东. 电子科技大学, 2021(01)
- [10]基于多分辨率级联网络的实时语义SLAM建图[D]. 郑治迦. 南京大学, 2020(02)