一、图像及图像检索应用前景的探讨(论文文献综述)
冯栋[1](2021)在《基于机器视觉的目标检索方法研究》文中研究表明随着新一代信息技术的蓬勃发展,服务于城市治理的智能高清摄像头建设规模日渐庞大,催生出爆炸式增长的视频图像数据,同时高清的视图画面中不同尺度目标和场景细节也得以呈现。如何高效处理海量视频和图像数据,从中建立目标个体和群体的联系,并挖掘出更多有价值的信息变得愈发重要。基于视觉的目标图像检索技术正是解决这一问题的关键钥匙。视觉目标检索是计算机视觉领域和数字图像处理任务中最具有挑战性的工作之一,它的研究内容包含如何高效地构建待检索目标特征数据库和精准且快速地检索出相同或相似的目标图像两项任务。在实际工业应用环境中,受数据接入规模和复杂场景影响,使得待检索库庞大(亿级以上)且噪声数据干扰严重,从而导致构建快速、精准的视觉目标检索系统面临更严峻的考验。本学位论文围绕目标建库和目标检索两个环节来展开研究,主要有以下四方面的创新型工作:(1)针对待检索目标特征数据库噪声数据干扰严重的问题,在目标建库环节加入目标检测任务的研究,提出了一种EASNet网络的单阶目标检测方法。分别从主干网络结构设计、特征融合模块设计、损失函数设计三个方面开展深度优化工作,实验表明,该方法有利于克服不同分辨率下多尺度干扰、定位不精确、样本不均衡的问题;(2)为保障精准返回检索结果,提出了一种基于深度神经网络的多层特征融合方法,可融合底层局部特征和高层语义特征。该方法使用词袋模型和汉明嵌入方法对特征进行聚合以及细粒度量化,并采用正则化扩散方法对相似度得分结果重排序来提高检索精度。实验表明,该方法可有效提高检索精度;(3)针对海量视觉目标检索底库下的计算开销大和返回结果慢的问题,提出了一个分块多叉字典树MBNT的特征索引结构方法,并将其用来加速汉明空间下目标矢量特征的检索比对。通过对比实验表明,该方法在解决查找不命中问题的同时内存占用和计算开销更小。此外,本文还发现当二值矢量特征越来越紧凑且细节区分度更好时,精确r近邻搜索比近似r近邻搜索对视觉目标检索的速度优势越来越明显;(4)面向公安视频实战侦察场景,搭建视频目标检测和检索应用系统。该系统包含视图解析和目标检索两个子系统,其中EASNet视觉目标检测算法在视图解析子系统中被实现和使用,而基于深度神经网络的多层特征融合方法和分块多叉字典树MBNT的特征索引结构在目标检索子系统中被集成。该系统已在多地公安系统上测试,并取得了一定实战效果。
祁雪飞[2](2021)在《基于自我注意引导的跨模态信息匹配》文中提出近年来由于多媒体时代的蓬勃发展,跨模态信息匹配受到广泛关注。作为一项重要的基础研究,它在很多跨模态领域的任务中都起着关键作用,比如跨模态检索问题、图像生成、文本生成、图像或视频问答等等。传统的匹配算法主要从统计分析的角度出发,学者们用典型相关分析、偏最小二乘法等数学算法分析不同模态数据之间的相关联程度。虽然理论上的可解释性比较强,但是这些方法并不能深入理解模态中的语义信息,使得传统的跨模态匹配方法有很大的局限性。最近研究人员发现,与传统数学建模方法相比,深度学习方法具有更多的有效性和延展性。其中,卷积神经网络能够从图片中提取出高水平多尺度的特征图,在图像处理领域体现出优越的性能;循环神经网络及其多种变体能够有效地对序列特征进行学习,深入理解其语义信息。在深度学习的基础上,如何更好地提取模态内容特征表示,以及如何对不同模态的语义特征进行比较,都是跨模态领域亟待解决的关键问题。目前很多算法都从图像区域和单词的角度入手,先计算局部相似度,再合成整体图像和文本的相似度。然而并不是所有的区域或单词对于整体匹配度的计算都同样重要,在语义表达中他们都有不同的重要性程度。为了解决这个问题,本文引入自我注意力机制和交叉注意力机制相结合,前者可以将局部信息与同一模态中的上下文相区分,学习其自我注意权重;后者用不同模态的数据信息互为上下文,以跨模态内容对齐为前提学习其交叉注意权重。另一方面,本文注意到文本信息的词频等统计特征对单词重要性也有很大影响,所以引入词频-逆文档频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)作为文本特征的预处理手段,从统计的角度获取有关单词重要性的先验信息,使得整体模型的性能获得了很大提升。本文的算法在MSCOCO和Flickr30K两个数据集上进行了测试,并与最近的方法进行了定量和定性的比较。实验结果证明了算法的有效性,可以更好地挖掘模态中的重要内容,并和其他模态信息更为准确的匹配。
王苹宇[3](2021)在《基于深度学习的行人再识别算法研究》文中认为近年来,监控摄像机数量的爆发式增长为智能视频监控提供了海量的数据,但同时也大大增加了视频信息处理的难度。行人再识别技术能够在大规模监控网络中对指定行人图像进行身份识别和检索,并建立该行人在不同摄像机下的身份关联,因此对智能视频监控网络中的目标跟踪、运动分析、行为理解等后续工作具有重大的意义。然而,行人图像通常包含姿态、遮挡、背景、光照、分辨率等诸多变化,这使得行人图像的表观特征会发生变化,给识别性能造成了重大的影响。本文分别从姿态变化、模态差异和长尾分布三个方面对行人再识别问题展开深入研究,提出了一系列解决方案,提高了行人再识别模型的有效性和鲁棒性。本文的主要研究内容和贡献在于:1.提出了基于层次注意力和分组注意力的高阶行人再识别算法来学习姿态不变性的高阶行人特征,以解决行人姿态非对齐的问题。利用Kronecker积来融合多层次的全局和局部卷积特征,采用计数梗概函数将Kronecker积转化为Hadamard积,在没有明显地损害高阶特征的表达能力的情况下,压缩了高阶特征的维度。通过设计分组乱序Kronecker积算法,采用通道分组和分组乱序策略来充分学习组内和组间特征的高阶交互,降低了高阶计算过程的时间和空间复杂度。同时,还通过利用分组乱序Kronecker积来融合多个全图和前景的卷积特征,进而获得了全图和前景的高阶特征。实验结果验证了所提出的方法在不依赖行人姿态估计和特征分割的情况下能够有效地对齐不同行人图像的姿态;2.提出了一种基于困难模态对齐网络的跨模态行人再识别框架来解决模态差异的问题。考虑到不同维度的模态差异是非均衡分布的,首先挖掘具有较大模态差异的困难子空间,然后集中消除该困难子空间的模态差异,有助于学习具有模态不变性的行人特征。此外,该框架能够同时消除全局和局部的模态差异,提高了模型的跨模态泛化能力。实验结果表明,相比于其它跨模态行人再识别方法,该框架在性能上具有明显的优势;3.提出了一种基于多区域匹配网络的跨模态行人再识别框架来解决模态差异的问题。该框架能够同时对齐粗粒度和细粒度的区域特征的模态分布,并且迁移不同区域的语义知识来加强不同区域特征之间的相关性,提高了行人特征的鲁棒性。此外,该框架能够自适应地为困难区域任务分配较高的权重,为简单区域任务分配较低的权重,从而突出困难区域任务的优先程度。实验结果表明,该框架能够大幅度提升跨模态行人再识别的准确率;4.提出了一种基于多元变化特征生成的非均衡行人再识别框架框架来同时解决行人数据在类别样本和难易样本上的非均衡问题。该框架从成分分解和特征生成的角度来均衡每个类别的样本数量,从而学习到类别均衡的行人特征。采用对抗学习方法来提高伪特征的识别难度,为再识别模型提供了更多遍历参数空间的机会来获得最佳的模型参数,缓解了难易样本非均衡的问题。实验结果验证了所提方法的有效性。
席佳妮[4](2021)在《智能视觉物联网中基于车辆多属性检索的应用研究》文中指出智能视觉物联网,即具有视觉感知功能的物联网,它通过视觉传感器获取人、车、物的图像或视频数据,并对其所含信息进行处理以实现对内容的感知。车辆检索是智能视觉物联网中针对车辆这一对象的研究重点,同时也是智能交通系统的核心内容。且考虑到单一属性缺乏表达能力的情况,本文基于深度学习算法设计了应用在智能交通领域的基于内容的对车辆多属性检索的系统,本文具体工作如下:车辆检测的实现与跨数据集进行属性信息标注思路的提出。集成多尺度训练与测试、平衡采样、修改候选框参数及调整网络参数的方法对Faster R-CNN(Regions with CNN features)进行改进。结合目前公开数据集中单个数据集所含属性信息较为有限且人工标注需耗费大量资源的情况,本文提出跨数据集进行属性自动标注的策略,先利用包含车辆位置及车型信息的BIT-Vehicle数据集训练模型;然后利用该模型预测sv_data数据集中图像的属性信息;最后依据预测结果生成属性标签文件,以解决该数据集中车辆位置及车型信息缺失的问题。为验证所提思路的可行性,依据sv_data数据集的样本分布情况选取1600幅图像进行人工标注。实验结果表明,多尺度训练与测试可使两个数据集中图像所含目标区域尺寸逐渐接近,修改候选框参数可使模型生成尺寸更加贴近目标区域的候选框,这使得模型性能有所提升,且证明了跨数据集对缺失属性信息进行标注的策略可行。车辆多属性识别的实现。首先通过对比多种VGG(Visual Geometry Group)模型及以其作为基线模型形成的双线性卷积神经网络(Bilinear Convolutional Neural Networks,B-CNNs)的性能以验证B-CNNs性能的优越性;然后选取VGG模型中性能较优的两个模型VGG-16-BN(VGG with Batch Normalization)与VGG-19-BN作为本文改进后B-CNN的基线模型;最后通过添加自适应平均池化层、引入激活函数高斯误差线性单元(Gaussian Error Linear Unit,GELU)与融合多层次特征对其进行改进,实现对车辆颜色、品牌以及型号三种属性的识别。实验结果表明,自适应平均池化层的加入可以有效地减少模型所需训练时间,GELU激活函数的引入可以有效地提升模型精度,多层次特征的融合可以使模型捕获到更多有用的信息。基于内容的对车辆多属性检索系统的设计。利用Python与Py Qt5设计并搭建了一个适用于智能交通领域的车辆多属性检索系统,结合检测与多属性识别算法对训练集中图像进行特征提取,进而生成用以检索的特征库,通过对两种相似性度量方法的性能进行比较,选取余弦相似度作为本文特征向量之间的相似性度量方式,最终实现了基于内容的对车辆多属性的检索。
陈珺莹[5](2021)在《基于区域信息增强的细粒度图像分类研究及应用》文中认为细粒度图像分类是指对大类下的子类进行更加精细的划分,比如区分一只鸟是海鸥还是大雁。随着人工智能的发展,同一基本类别下的物体的子类别分类的需求日益增多,如商品的品牌分类、植物研究领域的植物分类、车辆的型号和品牌分类等。然而,由于细粒度图像类别之间的差异很小,类别内部差异较大的原因,细粒度图像分类是一项非常困难的任务。由于子类别通常具有较小的类间差异,需要靠微小的局部差异对类别加以区分。论文在深度学习框架下,研究了如何增强对局部区域的关注,即如何进行区域信息增强来提高细粒度图像分类网络的性能,并且研究了该技术在车辆检索与识别中的应用。主要研究成果如下所述:(1)针对现有的分层双线性池化(Hierarchical Bilinear Pooling,HBP)网络对一幅图像包括无关背景在内的所有区域激活都进行了特征交互从而影响分类性能的问题,提出了显着增强分层双线性池化(Saliency Enhanced HBP,SE-HBP)网络。该方法在分层双线性池化网络的基础上,结合显着性检测网络生成注意力图,使用注意力图与特征提取网络进行交互实现显着区域的信息增强,减少了背景等无关信息的影响。最后在3个常用的细粒度图像数据集CUB-200-2011、Stanford Cars和FGVC-Aircraft上得到的分类准确率分别为86.5%、92.9%和90.8%。(2)针对现有的强监督方法过度依赖额外人工标注及参数量较大的问题,提出了基于部件信息蒸馏(Component Information Distillation,CID)的细粒度图像分类。先利用部件标注样本训练出教师网络,通过与学生网络的交互蒸馏出部件信息指导学生网络进行细粒度图像分类训练,从而使得学生网络实现部件区域信息增强。学生网络通过接受教师网络提供的软标签完成训练。测试使用学生网络,此时仅需要输入原始图像,即可获得高精度识别结果,且不增加额外的参数量。在CUB-200-2011、Birdsnap上得到的分类准确率分别为88.0%、81.3%。(3)搭建了车辆检索与识别系统,对部件信息蒸馏(CID)算法在车辆检索与识别任务中的应用进行了探索。先利用卡口车辆图像以及CID算法,训练出车辆识别模型,再将其应用到系统中,分别构建了离线车辆检索系统与在线车辆识别仿真系统。此处的车辆识别网络对车辆进行精细分类,即可以识别出相同品牌车辆下的不同型号。离线车辆检索系统可以在卡口车辆数据库中检索符合条件的车辆;在线车辆识别仿真系统主要针对于道路监控,可以对监控视频中的车辆进行实时识别。最后分别构建了离线检索系统与在线识别仿真系统的图形界面,并在卡口车辆数据集与真实道路视频上进行测试,验证了论文研究内容的有效性。
周前前[6](2021)在《面向民族服饰的细粒度图像检索关键技术研究》文中研究指明随着电子商务的快速发展,服装市场的潜在价值也在逐步显现,针对服饰检索、服饰识别和服饰推荐等计算机视觉领域的研究出现一系列研究任务。我国有55个少数民族,民族服饰种类繁多,服装结构复杂,语义属性丰富,能够将服饰图像检索技术与民族服饰文化相结合,对民族服饰实现数字化,这对传统民族文化保护具有重要意义。民族服饰图像具有不同民族风格的服装款式、配饰和图案导致的民族服饰图像细粒度检索准确率较低的问题,本文提出面向民族服饰图像的全局-局部特征提取模型用于民族服饰图像细粒度检索,该模型能够较为准确的提取民族服饰图像的全局和局部特征,并且使用融合特征计算服饰图像之间的相似性,用重排序对排序结果进行优化,使用该方法完成对民族服饰图像细粒度检索,能够有效提高民族服饰图像细粒度检索准确率。首先,民族服装款式种类繁多、配饰和图案复杂,具有较多细粒度语义属性,且缺少公开标注的民族服饰图像数据集,本文在已有的民族服饰图像数据集的基础上,在本文实验需求的基础上对数据集进行筛选和扩充,根据对各个民族服饰图像细粒度属性所在区域进行归纳,自定义了民族服饰图像的细粒度语义属性;然后,使用标注好的图像训练检测模型,对检测结果进行分割,按照分类结果输入不同的特征提取分支,不同特征提取分支定义不同损失函数对输入图像提取全局和局部特征,解决了民族服饰细粒度属性繁多,以及服饰图像遮挡、变形等问题,准确提取了输入图像的全局和局部特征,能够提高后续检索的准确率。然后,针对民族服饰图像检索准确率较低的问题,本文提出结合融合特征和重排序的民族服饰细粒度图像检索方法。首先,使用提取到的全局特征与输入图像的全局特征进行相似性度量,根据全局特征的相似性得分进行初步排序,再使用排序结果Top-50的局部特征与输入图像局部特征进行相似性度量,最后,使用全局特征的相似性结果加权计算进行重排序,优化排序并输出最后的检索结果。实验结果表明,该方法能够准确的对民族服饰图像细粒度检索。最后,在前两部分研究方法的基础上,结合民族服饰图像细粒度检索的应用场景和用户需求,设计了基于民族服饰图像细粒度检索的系统框架,并实现了基于民族服饰图像的原型系统。该系统界面简洁,功能齐全,检索结果准确,能够较好的体现本文方法的有效性和实用性。
梁慧[7](2021)在《基于显着性检测和哈希的图像检索方法研究》文中进行了进一步梳理随着科技与时代发展,图像数据呈指数级增长,检索数据库中的图片需要耗费大量的时间。图像检索技术大致可以分为两类:基于整体图像的图像检索和基于显着区域的图像检索。基于整体图像的图像检索需要提取整幅图像的所有特征,往往包含大量的背景噪声,而基于显着区域的图像检索算法由于考虑了图像的语义信息,比基于整体图像的图像检索效果更好。哈希方法将图像数据转换为二进制码,在减少图像数据存储空间的同时提高了检索速度,越来越多地应用到科学研究中。基于以上特点,本文提出了基于显着性检测和哈希的图像检索算法。本文的主要工作如下:第一,提出了构建多图融合多特征的显着性检测方法。传统的基于流形的显着性检测算法,通常构建单图描述图像不同区域之间的关系。但自然场景图各区域之间的结构往往比较复杂,仅使用一个图可能会忽略图像的重要信息。本文提出构造多个图来描述不同特征空间的图像信息。具体地说,分别基于空间位置和颜色特征构造了两个图:一个是基于空间位置的K正则图,另一个是基于颜色特征的ε图。第二,提出引入稀有度项的显着性优化框架。传统的基于流形的显着性检测框架是利用光滑性约束条件中连通节点之间的信息以及查询点的信息构建的。在这个框架中,不包括视觉显着性的视觉认知特征。因此,该框架应用于突出目标检测时,性能受到了限制。本文算法将重点放在基于图的优化问题本身,并引入了一个新的基于图的优化框架来克服上述限制。第三,提出了一种基于强约束流形哈希(SCDMH)的图像检索算法。在目标函数中加入了原始特征和哈希矩阵之间的相互重构项,最小化重构损失从而减少哈希学习过程中的信息损失;同时,本文首次将流形直接嵌入到监督离散哈希中,在汉明空间中直接学习和保留流形结构。第四,将改进的显着性检测方法和哈希算法相结合,设计并实现了相应的图像检索系统。本文从三个方面进行了实验验证。关于显着性检测实验,本文在三个公开显着性数据集上进行了实验,在PR曲线、F值和AUC等指标上都表现出了较好的性能。关于强约束流形哈希,本文在Cifar10数据集、Caltech-256数据集和MNIST数据集上与五种无监督、四种监督哈希方法进行了比较,在各个指标上都表现出了较好的检索性能。最后本文将两种改进算法相结合加以验证,并在开发实现的检索系统上成功实现了准确率较高的图像检索。
王鹏[8](2021)在《基于隐空间特征相似性保持的图像检索方法》文中研究说明随着网络媒体娱乐软件的飞速发展,相应地,在各个信息流网站、各个搜索引擎中以及各个可拍摄智能设备中,都存储着大量的图像信息以及由连续的图像所构成的影像信息。在如此庞大的数据背景下,通过提供已有的数据图像来检索到更多的视觉相似图像信息,无论是在用户应用上还是商业利用中,均具有非常广阔却又严苛的应用环境。图像检索的手段从较早的基于文本描述标签对图像信息进行的检索方式,已经基本转化为通过图形图像内容信息来进行的相似图像的检索方式了。而在深度学习时代中的繁荣发展进程中,图像检索领域受益于卷积神经网络强大的表征学习能力以及巨量可协同优化参数的模型,通过构建可共享模型各处变量参数、构建启发性的基于相似程度度量的损失函数、设计易于扩展的附加微调模块等,可以得到维度灵活同时也具有高度表征能力的向量型特征,再与传统的特征处理方式相结合,就可以构建高性能的图像检索系统。在基于图像相似程度度量的损失函数中,常见的特征间相关关系是向量之间进行内积的操作,本文通过观察损失函数中的数学描述形式,以及支持向量机中的核方法求解技巧,对特征向量在隐空间中的相关关系进行了探索与研究,完成的主要工作如下。一、梳理了图像检索技术较早时期的常用方式,以及后来基于图像自身内容信息构造图像特征的检索方式,介绍了其初衷以及应用方式及对应的不足之处,也介绍了深度学习时期关于图像特征的常用提取思路。二、探索了基于相似关系损失函数中对特征相关关系的使用方式,基于支持向量机中有关向量内积的核方法解题技巧,针对传统对比损失进行了等效变换,并提出了基于隐空间映射的相似性保持损失函数。三、将提取特征模型训练阶段分为两部分,为探究特征通道经适应性池化后,激活值间的协同关系,构建了基于注意力机制的通道间协同池化模块,对模型初步训练结果进行调节。四、结合已有的一些图像检索技术,构建了一个相对完整的图像检索框架,探究不同种图像特征后序处理手段对检索效果的影响。
朱凌云[9](2021)在《基于少样本学习的菜品识别算法研究》文中指出机器学习自17世纪提出,已经发展出相当多的方法,这些方法改变了传统的解决思路,不仅使结果更精确,也扩大到了众多领域。随着深度学习的出现,机器学习的延展性也不断显现。自深度学习成为热门的研究方向后,各种基于深度学习的研究方法也层出不穷。其中,菜品识别作为计算机视觉领域在真实场景下的一种重要应用具有广泛的研究内容。在餐饮业中,菜品识别可应用于自动计价,通过增加结算窗口,降低人力资源损耗,利用机器的快速运算,减少顾客的等候时间;在日常生活中,菜品识别能嵌入在微信等应用软件的小程序中,方便人们随拍随识别,通过识别出菜品种类,合理控制饮食。在菜品识别方法中,传统的图像处理方法和机器学习方法存在许多不足。在实际场景中拍摄的图像会受到环境的光照强度、噪声干扰、环境光等外部因素的干扰,导致拍摄图像质量参差,从而影响最终的检测结果。随着深度学习的发展,卷积神经网络在各领域中获得不俗的效果,包括图像分类、目标检测、目标追踪和语义分割等,菜品识别也围绕卷积神经网络展开研究,不仅提出了新的方法,也提升了检测精度。少样本学习自发展以来,就受到大量的关注。深度学习以大量的样本数据集为基础,这就限制了深度学习在实际使用以及在快速变化的环境中的应用。因此,少样本学习应运而生,它能在少量的样本数据集上得到不错的检测结果,更能适应如今日新月异的社会。考虑菜品的多样性,每类菜品的大量拍摄,不仅扩大了成本,也不方便菜品更新换代,不论是样本数据集的采集还是训练模型都需要花费大量人力与时间。同时,少样本学习应用于实际的菜品识别需要兼顾识别准确率与检测速度。本文致力于解决以上问题,研究实际餐厅应用计费场景中的少样本菜品识别,主要工作包括以下几个方面:(1)构建并开源少样本学习菜品数据集Food-270,用于菜品的分类研究。Food-270数据集均采集自真实餐厅,包括270类菜品,分为支撑集和验证集,支撑集中每类菜品包括20张样本图像,验证集中每类菜品包括20-30张图像,用于研究在实际餐厅中少样本情况下菜品识别的泛化能力。(2)探究图像检索和聚类对少样本的菜品识别的影响因素。图像检索速度快,但是在少样本的情况下检测精度不高。利用数据增强等方法,对图像检索数据库进行扩容;改变距离函数,使距离函数适用于菜品;对检索结果进行重检索,提高最后的检索精度。不同的聚类方法适用于不同的研究场合,针对菜品的特殊情况,研究不同聚类方法对检测结果的影响。(3)提出基于类差异性和对比学习的少样本菜品识别算法。对比学习作为自我监督模式的一种方法,在图像识别中有不错的精度。论文首次将比学习应用于针对菜品的少样本识别中,并且针对实际使用中每个菜品少样本数量的不等的情况,提出了基于类差异性和对比学习的少样本菜品识别算法,提高对比学习在少样本情况下的检测精度。(4)将Transformer应用于少样本菜品识别中。Transformer最先在自然语言处理领域提出,它由编码组件和解码组件连接而成,网络本身具备较强的自注意力结构。本文探讨了Transformer在图像识别中的使用,并且首次将其应用于少样本菜品识别中,得到了较好的检测精度。
杨绪勇[10](2021)在《基于美学感知的多媒体图文智能合成研究》文中研究表明多媒体图文智能合成一直是工业界和学术界的新兴热点话题。视觉元素与可读文字的良好结合,可以达到赏心悦目的效果,因此具有巨大的商业潜力。虽然该领域活跃而重要,但由于异质的媒体元素、美的抽象性、设计原则和布局优化等原因,基于美学感知的多媒体图文智能合成仍然具有挑战性。本文进行了基于美学感知的多媒体图文智能合成研究,对人的美学感知进行建模和挖掘,让机器能理解、辅助和自动合成有美感的图文展示。希望该研究工作能帮助设计师减少重复工作而有更多精力实现创意创造,也赋能普通人实现有美感的设计。对于美学感知的表达,本文有以下发现:美感可以被设计在美学模版中,其中包含布局美学和颜色美学的数学模型以及文本位置、大小、字体和颜色的相互约束关系,本文验证了美学模版能实现专家美学经验的有效传递;本文也发现了图文合成中的设计样式和图像本身的颜色风格有极大的相关性,因此相似颜色风格的多媒体图文有极相似的设计风格和美学感知;本文还发现深度神经网络能对设计作品的美学感知进行有效的编码,表达出更多隐藏的特征。基于这些发现,本文主要研究内容和创新成果如下:1.提出一种基于美学模版的可计算图文智能合成框架。本文利用模版中的自上而下的美学原理,结合图文分析中自下而上的元素特性,构建一套可计算的系统框架,将文本排版问题建模成在模版美学约束条件下的能量最小化问题,并借助模版中的美学模型对文字颜色等属性完成求解,从而实现图文智能合成。该工作因为对美学感知的创新表达方式以及实现了计算美学在图文合成领域的有效应用,获得TOMM授予了 2017年年度最佳论文奖。2.提出一种基于深度学习的图文合成颜色推荐算法。本文通过有美学得分的颜色主题数据训练学习颜色和谐性评分子网络,并通过设计作品数据集训练学习文字可读性评分子网络,最终设计了图文合成过程中文字颜色的推荐网络,辅助图文智能合成。3.提出一种基于颜色风格特征提取和检索的方法进行设计样式推荐。基于对设计样式的研究,本文设计出高效而准确度量的图像颜色风格特征,以及特征之间有效的距离度量,实现一种基于图像颜色风格的检索方法,帮助寻找到与当前图像有相似设计风格的多媒体图文,对图文合成的字体样式和颜色进行推荐,辅助图文智能合成。4.提出一种基于深度学习的图文智能合成神经网络。该网络模仿设计师的设计行为,在每一个阶段,网络会根据上一阶段得到的结果,预测本阶段待加入文本的位置、大小、样式和颜色属性。逐层预测后,网络对所有阶段的预测结果进行融合得到最后的输出,实现基于深度学习的全要素预测图文智能合成。深度学习的方法能发现图文设计作品中隐含的美学原理,合成结果拥有相对传统方法更好的创新性和设计感。
二、图像及图像检索应用前景的探讨(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、图像及图像检索应用前景的探讨(论文提纲范文)
(1)基于机器视觉的目标检索方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及意义 |
1.2 当前研究现状 |
1.3 主要研究内容 |
1.4 论文组织结构 |
2 相关研究基础 |
2.1 引言 |
2.2 目标检测方法研究 |
2.2.1 双阶目标检测技术 |
2.2.2 单阶目标检测技术 |
2.3 特征表达 |
2.3.1 基于传统的手工特征提取 |
2.3.2 基于深度学习的特征提取 |
2.4 目标检索 |
2.4.1 简单相似图像检索 |
2.4.2 多标签图像检索 |
2.4.3 相似性度量方法 |
2.4.4 图像检索数据集 |
2.4.5 性能评价指标 |
2.5 本章小结 |
3 基于空洞卷积和上下文信息的目标检测算法研究 |
3.1 引言 |
3.2 空洞卷积 |
3.3 条纹池化 |
3.4 基于空洞卷积和上下文信息的目标检测方法研究 |
3.4.1 EASNet主干网络结构的构建 |
3.4.2 EASModule特征融合 |
3.4.3 EASHead损失函数设计 |
3.5 实验结果与分析 |
3.5.1 实验设置 |
3.5.2 实验结果及对比 |
3.6 本章小结 |
4 基于多层级的特征融合方法研究 |
4.1 引言 |
4.2 多层级特征融合结构 |
4.3 基于卷积神经网络的分层池化和量化 |
4.4 多层级特征融合方法 |
4.5 实验与分析 |
4.5.1 实验设置 |
4.5.2 实验结果与评价 |
4.6 本章小节 |
5 基于哈希索引的大规模目标快速检索方法研究 |
5.1 引言 |
5.2 哈希算法 |
5.3 汉明空间近邻搜索 |
5.4 基于分块字典树的精确r近邻搜索 |
5.4.1 目标搜索流程 |
5.4.2 分块多叉字典树 |
5.4.3 基于MBNT的精确r近邻搜索 |
5.5 实验结果与分析 |
5.5.1 数据集选择和评测指标 |
5.5.2 多尺度目标搜索的平均准确率 |
5.5.3 MBNT索引结构关键参数设置 |
5.5.4 多尺度目标搜索的平均检索时间 |
5.5.5 近似搜索和精确搜索算法对比 |
5.6 本章小结 |
6 面向公安场景的视频目标检测与检索应用 |
6.1 引言 |
6.2 视频目标检测与检索应用系统设计 |
6.2.1 系统架构设计 |
6.2.2 视图解析子系统 |
6.2.3 目标检索子系统 |
6.3 实验应用效果 |
6.3.1 硬件环境配置 |
6.3.2 验证场景说明 |
6.3.3 验证方案设计 |
6.3.4 验证结果说明 |
6.4 本章小节 |
7 总结与展望 |
7.1 工作总结 |
7.2 工作展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(2)基于自我注意引导的跨模态信息匹配(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 研究现状及发展前景 |
1.2.1 无监督的跨模态匹配方法 |
1.2.2 基于监督的跨模态匹配方法 |
1.3 本文工作及主要贡献 |
1.4 全文章节安排 |
2 相关理论基础 |
2.1 神经网络研究基础 |
2.2 文本序列处理相关研究基础 |
2.2.1 语言模型研究基础 |
2.2.2 神经网络与自然语言处理的结合 |
2.3 注意力机制相关基础 |
3 跨模态匹配表示学习方法 |
3.1 文本序列特征表示 |
3.1.1 采用TF-IDF的文本序列特征预处理 |
3.1.2 采用自我注意机制的文本序列特征学习 |
3.1.3 采用Transformer中 self-attention的文本序列特征学习 |
3.2 图像特征表示 |
3.2.1 采用Faster R-CNN提取区域特征 |
3.2.2 图像特征表示学习 |
3.3 跨模态交叉注意机制 |
3.4 目标函数 |
4 实验结果与分析 |
4.1 数据集与其他相关实验设置 |
4.1.1 数据集 |
4.1.2 评价指标 |
4.1.3 实验细节设置 |
4.2 实验定量结果 |
4.2.1 在MSCOCO数据集上的实验结果 |
4.2.2 在Flickr30K数据集上的实验结果 |
4.3 实验定性结果与局限性分析 |
4.4 子模块性能分析实验 |
4.4.1 子模块性能消融实验 |
4.4.2 TF-IDF预处理方式对比实验 |
4.4.3 不同归一化方法以及和SE block的对比实验 |
4.4.4 模型泛化性能实验 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(3)基于深度学习的行人再识别算法研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 行人再识别 |
1.2.1 行人再识别的研究现状 |
1.2.2 行人再识别的主要挑战 |
1.2.3 行人再识别的数据集 |
1.2.4 行人再识别的评价指标 |
1.3 研究内容 |
1.4 章节安排 |
第二章 跨姿态行人再识别 |
2.1 引言 |
2.2 相关工作 |
2.2.1 跨姿态行人再识别 |
2.2.2 高阶统计 |
2.2.3 注意力机制 |
2.3 姿态非对齐问题 |
2.4 基于层次注意力的高阶行人再识别框架 |
2.4.1 整体网络框架 |
2.4.2 全局层次高阶池化 |
2.4.3 局部层次高阶池化 |
2.4.4 总体损失函数 |
2.4.5 梯度优化 |
2.4.6 注意力机制 |
2.4.7 实验结果与分析 |
2.5 基于分组注意力的高阶行人再识别框架 |
2.5.1 整体网络框架 |
2.5.2 分组乱序高阶池化 |
2.5.3 前景注意力高阶池化 |
2.5.4 总体损失函数 |
2.5.5 梯度优化 |
2.5.6 注意力机制 |
2.5.7 实验结果与分析 |
2.6 本章小结 |
第三章 跨模态行人再识别 |
3.1 引言 |
3.2 相关工作 |
3.2.1 跨模态行人再识别 |
3.2.2 跨模态检索 |
3.3 基于困难模态对齐网络的跨模态行人再识别框架 |
3.3.1 整体网络框架 |
3.3.2 深度困难模态对齐 |
3.3.3 全局局部模态对齐 |
3.3.4 总体损失函数 |
3.3.5 实验结果与分析 |
3.4 基于多区域匹配网络的跨模态行人再识别框架 |
3.4.1 整体网络框架 |
3.4.2 多区域模态对齐 |
3.4.3 跨区域关系蒸馏 |
3.4.4 区域优先注意力 |
3.4.5 总体损失函数 |
3.4.6 实验结果与分析 |
3.5 本章小结 |
第四章 非均衡样本的行人再识别 |
4.1 引言 |
4.2 相关工作 |
4.2.1 非均衡行人再识别 |
4.2.2 非均衡学习 |
4.3 长尾分布问题 |
4.4 基于多元变化特征生成的非均衡行人再识别框架 |
4.4.1 整体网络框架 |
4.4.2 独立成分分解 |
4.4.3 可分解特征生成 |
4.4.4 对抗特征生成 |
4.4.5 总体损失函数 |
4.4.6 实验结果与分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 未来工作展望 |
参考文献 |
附录A 定理证明 |
致谢 |
攻读学位期间发表的学术论文目录 |
(4)智能视觉物联网中基于车辆多属性检索的应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 车辆检测研究现状 |
1.2.2 车辆颜色识别研究现状 |
1.2.3 车型识别研究现状 |
1.2.4 车辆多属性检索研究现状 |
1.3 本文主要工作内容 |
1.4 本文的章节安排 |
第二章 深度学习理论 |
2.1 人工神经网络 |
2.1.1 前向传播 |
2.1.2 反向传播 |
2.2 卷积神经网络 |
2.2.1 卷积层 |
2.2.2 池化层 |
2.3 激活函数 |
2.3.1 Sigmoid激活函数 |
2.3.2 Tanh激活函数 |
2.3.3 Re LU激活函数 |
2.4 小结 |
第三章 车辆检测与跨数据集属性信息标注 |
3.1 Faster R-CNN |
3.1.1 区域建议网络 |
3.1.2 感兴趣区域池化层与分类回归 |
3.1.3 损失函数 |
3.2 基于Faster R-CNN的改进模型 |
3.2.1 预处理 |
3.2.2 特征提取与区域建议网络 |
3.2.3 感兴趣区域池化层与分类 |
3.2.4 测试 |
3.3 实验结果分析 |
3.3.1 实验环境、评价标准及数据集 |
3.3.2 多种特征提取网络性能的实验分析 |
3.3.3 添加多尺度调整的实验分析 |
3.3.4 修改候选框参数的实验分析 |
3.4 本章小结 |
第四章 车辆多属性识别 |
4.1 B-CNN |
4.2 基于B-CNN的改进模型 |
4.2.1 基线模型 |
4.2.2 添加自适应平均池化层 |
4.2.3 GELU激活函数 |
4.2.4 多层次特征融合 |
4.2.5 模型训练方法及损失函数 |
4.3 实验结果分析 |
4.3.1 多种VGG模型性能的实验分析 |
4.3.2 多种B-CNN性能的实验分析 |
4.3.3 添加自适应平均池化层的实验分析 |
4.3.4 GELU激活函数性能的实验分析 |
4.3.5 车辆多属性识别的实验分析 |
4.4 本章小结 |
第五章 基于内容的车辆多属性检索 |
5.1 基于内容的图像检索 |
5.1.1 基于内容的图像检索 |
5.1.2 相似性度量 |
5.1.3 检索性能的评价标准 |
5.2 基于内容的车辆多属性检索 |
5.2.1 特征库的建立 |
5.2.2 相似性度量 |
5.3 实验结果分析 |
5.3.1 数据集 |
5.3.2 检索性能的实验分析 |
5.4 CBIR检索系统的设计 |
5.4.1 图像检索系统介绍 |
5.4.2 图像检索系统的界面设计 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
附录 攻读硕士学位期间的研究成果 |
(5)基于区域信息增强的细粒度图像分类研究及应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 基于强监督信息的方法 |
1.2.2 基于弱监督信息的方法 |
1.3 论文主要研究内容和组织结构 |
第二章 理论基础及相关技术 |
2.1 卷积神经网络 |
2.1.1 卷积层 |
2.1.2 激活函数 |
2.1.3 池化层 |
2.1.4 全连接层 |
2.2 细粒度图像分类常用主干网络 |
2.3 细粒度图像分类常用数据集 |
2.3.1 CUB-200-2011 |
2.3.2 Stanford Cars |
2.3.3 FGVC-Aircraft |
2.3.4 Birdsnap |
2.4 评价指标 |
2.5 本章小结 |
第三章 基于显着增强分层双线性池化网络的细粒度图像分类 |
3.1 引言 |
3.2 显着增强分层双线性池化网络 |
3.2.1 HBP及其问题分析 |
3.2.2 SE-HBP |
3.3 实验结果及分析 |
3.3.1 数据集与评估标准 |
3.3.2 参数设置 |
3.3.3 显着增强的效果 |
3.3.4 分类性能 |
3.4 本章小结 |
第四章 基于部件信息蒸馏的细粒度图像分类 |
4.1 引言 |
4.2 部件信息蒸馏网络 |
4.2.1 网络框架 |
4.2.2 教师网络 |
4.2.3 学生网络 |
4.2.4 损失函数 |
4.3 实验及结果分析 |
4.3.1 数据集 |
4.3.2 参数设置 |
4.3.3 教师网络分类结果 |
4.3.4 学生网络分类结果 |
4.4 本章小结 |
第五章 CID在车辆检索与识别中的应用 |
5.1 引言 |
5.2 系统功能与需求分析 |
5.3 系统开发环境与构成 |
5.3.1 开发环境 |
5.3.2 系统构成 |
5.4 训练系统设计 |
5.4.1 教师网络 |
5.4.2 学生网络 |
5.4.3 训练过程及结果 |
5.5 离线车辆检索系统设计 |
5.5.1 离线检索流程 |
5.5.2 系统功能模块 |
5.5.3 系统图形界面设计 |
5.5.4 离线测试结果及分析 |
5.6 在线车辆识别仿真系统设计 |
5.6.1 在线识别流程 |
5.6.2 系统功能模块 |
5.6.3 系统图形界面设计 |
5.6.4 在线测试结果及分析 |
5.7 本章小结 |
第六章 主要结论与展望 |
6.1 主要结论 |
6.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间发表的论文 |
(6)面向民族服饰的细粒度图像检索关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 本文研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 细粒度图像分类 |
1.2.2 细粒度图像检索 |
1.3 主要研究内容和论文创新点 |
1.4 本文章节安排 |
第二章 服饰图像检测及检索相关方法 |
2.1 引言 |
2.2 图像检测 |
2.3 特征提取 |
2.4 服饰图像检索 |
2.4.1 基于语义特征的服饰图像检索 |
2.4.2 基于视觉特征的服饰图像检索 |
2.5 本文相关方法概述 |
2.6 本章小结 |
第三章 面向民族服饰图像的全局-局部特征提取模型 |
3.1 引言 |
3.2 语义标注 |
3.3 区域检测 |
3.4 全局特征和局部特征提取模型 |
3.4.1 全局特征提取 |
3.4.2 局部特征提取 |
3.5 实验结果与性能分析 |
3.5.1 实验数据集 |
3.5.2 部分语义标注结果 |
3.5.3 区域检测结果分析 |
3.5.4 特征分类结果分析 |
3.6 本章小结 |
第四章 结合融合特征和重排序的民族服饰细粒度图像检索 |
4.1 引言 |
4.2 相似性度量 |
4.3 特征融合 |
4.4 重排序 |
4.5 实验结果与性能分析 |
4.5.1 实验环境参数设置 |
4.5.2 检索结果与性能分析 |
4.5.3 消融实验 |
4.6 本章小结 |
第五章 基于民族服饰图像检索原型系统的设计与实现 |
5.1 引言 |
5.2 系统总体框架设计 |
5.3 系统开发和设计 |
5.3.1 系统开发平台 |
5.3.2 系统检索过程 |
5.3.3 系统主要UML设计 |
5.4 系统界面展示 |
5.5 系统功能评估 |
5.6 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 工作展望 |
致谢 |
参考文献 |
附录 作者在攻读硕士学位期间主要研究成果 |
(7)基于显着性检测和哈希的图像检索方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文结构和内容 |
第二章 显着性检测和哈希相关方法 |
2.1 显着性检测 |
2.1.1 通用显着性检测流程 |
2.1.2 图论与传播模型 |
2.1.3 经典的显着性传播模型 |
2.2 基于哈希的图像检索 |
2.2.1 基于哈希的图像检索框架 |
2.2.2 无监督哈希与半监督哈希 |
2.2.3 监督哈希 |
2.3 本章小结 |
第三章 基于多图学习与优化框架的显着性检测算法 |
3.1 引言 |
3.2 问题建模 |
3.2.1 图模型构建 |
3.2.2 显着性优化框架 |
3.3 模型优化 |
3.4 物体性图 |
3.5 超传播模型 |
3.6 图像显着性检测流程 |
3.7 实验结果与分析 |
3.7.1 数据集 |
3.7.2 评价指标 |
3.7.3 对比结果与分析 |
3.8 本章小结 |
第四章 基于强约束流形哈希的图像检索算法 |
4.1 引言 |
4.2 目标函数构建 |
4.2.1 算法问题描述 |
4.2.2 相似性保持 |
4.2.3 互相重构 |
4.2.4 流形嵌入 |
4.2.5 目标函数 |
4.3 优化方法 |
4.4 高斯核化 |
4.4.1 高斯核函数 |
4.4.2 核化目标函数 |
4.5 实验结果与分析 |
4.5.1 数据集及评价指标 |
4.5.2 参数敏感度分析 |
4.5.3 收敛性分析 |
4.5.4 m AP与训练时间对比 |
4.5.5 准确度分析 |
4.6 本章小结 |
第五章 基于显着性检测和哈希的图像检索系统 |
5.1 基于显着性检测和哈希的图像检索算法 |
5.1.1 显着区域检测模块 |
5.1.2 特征提取模块 |
5.1.3 检索模块 |
5.2 系统需求分析 |
5.2.1 系统功能需求 |
5.2.2 系统非功能需求 |
5.3 系统概要设计 |
5.3.1 系统架构设计 |
5.3.2 系统的功能模块设计 |
5.4 系统实现 |
5.4.1 界面设计 |
5.4.2 技术实现 |
5.5 系统测试与评价 |
5.6 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
(8)基于隐空间特征相似性保持的图像检索方法(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 基于内容描述文本的图像检索 |
1.2 基于图像统计信息的图像检索 |
1.3 基于内容的图像检索 |
1.3.1 基于手工设计特征的图像检索 |
1.3.2 基于深度神经网络特征的图像检索 |
1.4 图像检索技术的应用 |
1.5 论文的研究内容与组织结构 |
1.5.1 论文的研究内容 |
1.5.2 论文的组织结构 |
第2章 相关理论基础 |
2.1 基于CNN的图像特征表达 |
2.2 特征相似度评价方法 |
2.2.1 欧氏距离 |
2.2.2 余弦相似度 |
2.2.3 闵可夫斯基距离 |
2.3 特征归一化 |
2.4 图像检索中的特征后处理手段 |
2.4.1 主成分分析 |
2.4.2 独立成分分析 |
2.5 重复查询扩展融合 |
2.6 注意力机制 |
2.7 本章小结 |
第3章 基于特征协同隐空间相似性保持的图像检索算法 |
3.1 池化方法 |
3.2 核方法的背景 |
3.3 基于隐空间映射的相似性保持损失函数 |
3.3.1 设计目标 |
3.3.2 基于隐空间映射的相似性保持损失函数 |
3.4 基于注意力机制的通道间协同池化模块 |
3.5 本文优化算法整体检索流程详解 |
3.6 本章小结 |
第4章 实验结果及分析 |
4.1 实验条件选择 |
4.1.1 训练数据集 |
4.1.2 测试数据集 |
4.1.3 实验软、硬件条件 |
4.2 评价指标 |
4.3 优化方法与超参数设定 |
4.4 基于隐空间特征相似性保持的检索框架实验对比 |
4.4.1 难学习样本挖掘 |
4.4.2 基于隐空间映射的相似性保持损失函数实验 |
4.4.3 通道间协同池化方法对实验效果的影响 |
4.4.4 特征去相关性方法实验效果对比 |
4.4.5 重复查询扩展融合操作效果 |
4.5 本文所改进算法与其它检索图像算法整体效果比对 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(9)基于少样本学习的菜品识别算法研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 菜品识别的研究方法 |
1.2.2 菜品识别的研究难点 |
1.3 论文的主要研究内容 |
1.4 论文结构安排 |
2 相关技术及理论 |
2.1 图像检索 |
2.2 聚类 |
2.2.1 K-MEANS聚类算法 |
2.2.2 均值偏移聚类算法 |
2.2.3 DBSCAN聚类算法 |
2.2.4 基于概率的期望最大化聚类方法 |
2.2.5 层次聚类算法 |
2.3 数据增强方法概述 |
2.4 距离函数 |
2.5 少样本数据集 |
2.6 评价指标 |
3 图像检索与聚类对少样本菜品的识别 |
3.1 引言 |
3.2 图像检索的过程 |
3.3 聚类的过程 |
3.4 实验结果与分析 |
3.4.1 实验设置 |
3.4.2 图像检索方法 |
3.4.3 聚类方法 |
3.5 本章小结 |
4 基于类差异性和对比学习的少样本菜品识别 |
4.1 引言 |
4.2 对比学习 |
4.3 类差异损失函数 |
4.3.1 InfoNCE Loss |
4.3.2 类差异性损失函数 |
4.4 实验结果与分析 |
4.4.1 实验环境 |
4.4.2 数据集预处理 |
4.5 本章小结 |
5 基于Transformer的少样本菜品识别 |
5.1 引言 |
5.2 Transformer |
5.3 用于图像分类的Transformer |
5.4 实验结果与分析 |
5.5 本章小结 |
6 总结与展望 |
6.1 论文总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
(10)基于美学感知的多媒体图文智能合成研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与研究意义 |
1.2 本文研究内容和主要工作 |
1.3 本文的结构安排 |
第2章 国内外研究现状和背景知识 |
2.1 背景知识 |
2.1.1 颜色美学 |
2.1.2 布局美学 |
2.2 图文自动合成研究 |
2.2.1 美学理论研究现状 |
2.2.2 图像自动剪切 |
2.2.3 图像显着性分析 |
2.2.4 字体样式相似性 |
2.2.5 图文合成算法 |
2.3 深度学习相关研究 |
2.3.1 深度神经网络理论 |
2.3.2 深度学习在图文设计中的应用 |
2.3.3 图像美学评估中patch思路 |
2.3.4 多任务深度方法 |
2.3.5 难分样本挖掘方法 |
第3章 基于美学感知模版的图文自动合成研究 |
3.1 引言 |
3.2 相关工作 |
3.3 模版设计 |
3.3.1 美学原则 |
3.3.2 模版数据库 |
3.4 图文展示的合成算法 |
3.4.1 基于综合重要度的图像自动剪裁 |
3.4.2 自动布局和着色 |
3.5 实验与结果分析 |
3.5.1 对比实验 |
3.5.2 实验设置 |
3.5.3 量化评估 |
3.6 本章小结 |
第4章 基于深度神经网络的图文合成颜色推荐 |
4.1 引言 |
4.2 相关工作 |
4.3 基于全局和谐性和局部可读性最优的深度网络推荐 |
4.3.1 整体框架介绍 |
4.3.2 文字颜色推荐网络 |
4.3.3 局部可读性评价网络 |
4.3.4 全局和谐性评价网络 |
4.3.5 损失函数与训练策略 |
4.4 实验与结果分析 |
4.4.1 数据集 |
4.4.2 训练细节 |
4.4.3 网络设计的有效性 |
4.4.4 和其他方法的对比实验 |
4.4.5 用户评价 |
4.5 本章小结 |
第5章 基于图像颜色风格的设计样式检索 |
5.1 引言 |
5.2 相关工作 |
5.2.1 深度神经网络图像风格特征提取 |
5.2.2 主题色风格特征提取 |
5.2.3 特征之间的距离度量 |
5.3 基于分层前背景的颜色风格特征和距离度量算法 |
5.3.1 主题色提取和优化 |
5.3.2 前景背景分离和颜色风格特征 |
5.3.3 对前景敏感的颜色风格距离度量 |
5.4 实验 |
5.4.1 数据集 |
5.4.2 实验方法对比基准线 |
5.4.3 实验结果 |
5.4.4 基于颜色风格进行图文合成的颜色和设计样式推荐 |
5.5 本章小结 |
第6章 基于深度神经网络的图文自动合成研究 |
6.1 引言 |
6.2 相关工作 |
6.2.1 重叠型图文合成的相关研究 |
6.2.2 文本颜色和谐性相关研究 |
6.2.3 字体样式相似度相关研究 |
6.2.4 多任务深度神经网络 |
6.3 算法 |
6.3.1 DesignNet系统框架 |
6.3.2 阶段预测网络 |
6.3.3 文本属性预测子网络 |
6.3.4 损失函数 |
6.4 实验 |
6.4.1 数据集 |
6.4.2 训练细节 |
6.4.3 用户评价和结论 |
6.5 本章小结 |
第7章 总结、商业应用及展望 |
7.1 本文研究重点回顾 |
7.2 商业应用实例 |
7.3 未来研究展望 |
参考文献 |
附录 A 论文发表中使用的图像授权说明 |
附录 B VTDSet数据集的网页设计工具 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
四、图像及图像检索应用前景的探讨(论文参考文献)
- [1]基于机器视觉的目标检索方法研究[D]. 冯栋. 北京交通大学, 2021(02)
- [2]基于自我注意引导的跨模态信息匹配[D]. 祁雪飞. 大连理工大学, 2021(01)
- [3]基于深度学习的行人再识别算法研究[D]. 王苹宇. 北京邮电大学, 2021(01)
- [4]智能视觉物联网中基于车辆多属性检索的应用研究[D]. 席佳妮. 内蒙古大学, 2021(12)
- [5]基于区域信息增强的细粒度图像分类研究及应用[D]. 陈珺莹. 江南大学, 2021(01)
- [6]面向民族服饰的细粒度图像检索关键技术研究[D]. 周前前. 昆明理工大学, 2021(01)
- [7]基于显着性检测和哈希的图像检索方法研究[D]. 梁慧. 东北师范大学, 2021(12)
- [8]基于隐空间特征相似性保持的图像检索方法[D]. 王鹏. 吉林大学, 2021(01)
- [9]基于少样本学习的菜品识别算法研究[D]. 朱凌云. 浙江师范大学, 2021(02)
- [10]基于美学感知的多媒体图文智能合成研究[D]. 杨绪勇. 中国科学技术大学, 2021(09)