一、基于知识融合的在线文本分类算法——语义SVM(论文文献综述)
林萍萍[1](2021)在《基于情感分析的人机谈判研究》文中进行了进一步梳理电子商务的发展使得在线交易日益频繁,在线交易规模也日益扩大。消费者与商家的交互越来越多,不可避免地要进行在线谈判。传统的在线谈判方式是低效的人工谈判,人工谈判已经不能满足广大消费者日益增长的潜在需求。随着人工智能技术的发展,智能主体技术已日益成熟,使得电子商务领域的自动谈判成为了可能。智能主体能够随时与人类进行高效的谈判,节约了大量人工成本。因此,人机谈判吸引越来越多的学者的兴趣。目前有很多关于自动谈判系统的研究,大多数是计算机与计算机的自动谈判系统,而关于人机谈判的研究相对较少。即使有少许关于人机谈判的研究,也往往忽略了人类谈判方的情感因素,不能根据人类谈判方的情感采用相应的谈判策略,从而导致谈判对话生硬,用户体验感较差。设计合理的自动谈判系统可以帮助买家和卖家在合理的时间范围内就价格、数量以及其他条款上达成协议。为此,本文以自动谈判理论、谈判心理学为基础,利用情感分析技术,设计新的谈判策略,并研发出了具备情感能力的人机谈判系统。本文主要有以下几个方面的贡献。第一、综述了情感分析、自动谈判、人机谈判以及对话系统。我们详细分析和比较了情感分析技术以及其广泛应用,对比了情感分析技术在不同领域的应用,并说明可以继续研究的方向。第二、创新性地将情感分析引入到人机谈判中,提出了相应情感分析方法。第三、设计基于情感的人机谈判策略。第四、利用自然语言处理技术、情感分析技术、对话系统技术开发出了人机谈判系统。第五、进行大量实验证实我们融入情感分析的人机谈判系统能够提高谈判双方的联合效用,并且提升人类谈判方的体验感。因此,我们的人机谈判系统是有效的,能很好地满足当下电子商务的需求。
廖子慧[2](2020)在《基于知识图谱的英语语法智能题库系统研建》文中进行了进一步梳理英语作为全世界使用最广泛的语言,是我国基础教育的重点学科,如何有效地帮助学习者吸收英语知识,一直是广大英语教育工作者的共同目标。随着教育信息化2.0的推进,越来越多的英语学习者们倾向于在线上练习英语题目。由于语法是学习英语的基础,在琳琅满目的英语练习题中,语法题目通常会被列为英语练习的重中之重。然而,层出不穷的语法题目并没有在目前的在线学习平台中得到智能化处理,大多数仍然依赖于专业教师的人工解析。本文将知识图谱相关技术应用于英语语法学习领域,设计实现了一个基于知识图谱的英语语法智能题库系统。本文的主要内容为:(1)构建了英语语法知识图谱。首先分析英语语法知识,提取了相关的名称、概念、举例、结构;然后设计了语法知识图谱概念模型,并利用Neo4j对图谱进行存储和可视化。构建的英语语法知识图谱共包含了18类语义关系、1103个语法知识点实体。(2)对英语语法智能题库系统进行需求分析和功能设计。根据用户的学习需求,设计了题目分类、知识图谱查看、题目推荐、智能问答等功能,并实现了系统架构设计和数据库设计等。(3)基于前面构建的英语语法知识图谱对系统的题目分类、题目推荐、智能问答等核心功能模块进行了设计实现。题目分类采取SVM算法,以知识图谱特征、正确答案词性特征、TF-IDF特征作为题目特征向量;题目推荐采取深度搜索知识图谱的策略,返回与用户错题知识点相关的易混淆知识点从而推荐题目;智能问答采取基于模板匹配的方式,构建SVM分类器对用户输入的自然语言问句分类,最后利用Cypher语句在知识图谱中查询答案。本文研究并构建的智能题库系统作为知识图谱在英语语法学习领域的初步尝试和应用,不仅可以为用户提供相对全面精准的英语语法知识网络,同时迎合了教育智能化的发展方向,对教育事业的发展有重要意义。
林泽斐[3](2020)在《基于在线百科的社会网络抽取及语义化研究》文中研究指明基于社会网络的研究方法已被广泛应用于人文社会科学的众多领域。社会网络研究的基础是社会网络的构建,随着大数据研究的兴起,面向海量数据的社会网络自动抽取成为社会网络构建的新兴热点。社会网络抽取是指基于明确或隐含的信息,从信息源中自动抽取出社会成员及其联系的技术。在在线百科中,蕴含着海量的社会成员及其社会关系信息。如何从此类信息源中抽取出大规模社会网络,是值得探讨的一大课题。此外,社会网络构建的目的在于对所构建的社会网络进行进一步的分析和利用。近年来,将语义网技术与社会网络相结合的语义社会网络开始得到学术界的关注,借助于本体和推理引擎,语义社会网络可以具备一定的逻辑推理能力,这有助于从社会网络中挖掘大量潜在的语义信息和社会成员联系,进而服务于学术研究。在此背景下,本研究以在线百科作为主要信息源,探索一种基于百科半结构化文本的社会网络抽取机制,在此基础上对大规模社会网络的语义化方法及其在数字人文领域的应用模式展开研究,主要的研究内容包括:(1)针对在线百科中的社会网络抽取问题,提出一种新的基于在线百科的大规模社会网络抽取方法,其主要创新点在于利用排序学习方法综合多种特征计算人物关系权重,通过估计人物生存时空来发现人物间的时空耦合关系。通过此方法,本研究首次从中文在线百科中抽取出完整的带有权重和时空信息的社会网络。(2)在对当前社会网络本体调研的基础上,提出了一种新的社会网络本体MSTSN。与同类社会网络本体相比,MSTSN本体主要面向数字人文领域的社会网络构建,特别对人物所处的时空、人物的不同类型,以及人物间的不同关系类型等信息进行了细粒度的刻画。基于MSTSN本体,对在线百科中所抽取的社会网络进行实例化,形成一个大规模人物知识图谱。(3)针对人物知识图谱中的人物关系预测这一难点问题,提出一种新的知识图谱关系预测方法,该方法将关系路径和反映实体间关系的文本矩阵化,通过卷积神经网络学习与特定关系类型相关的结构和文本模式特征,在此基础上训练模型实现关系预测。对比实验结果表明,本研究提出的方法在评测数据集上的性能表现超过了主流方法的水平。(4)针对非结构化文本中的人物关系三元组抽取问题,提出一种新的中文命名实体链接方法,该方法融合了单实体消歧和多实体消歧特征,并根据不同文本长度选用不同的特征组合;同时,在传统一阶段式消歧的基础上添加了第二阶段消歧以改善消歧结果。对比实验显示该命名实体链接方法的总体性能优于当前主流同类系统的水平。(5)基于本研究所提出的MSTSN本体和所构建的人物知识图谱,阐述了四类面向数字人文研究的社会网络语义查询策略,并通过可视化方法展示各策略的执行效果。相比传统的社会网络构建策略,本研究所提出的方法可从在线百科中有效地抽取社会成员及其关系,且更加关注与社会成员相关的时空和语义信息,在人名消歧和人物关系权重算法等方面也进行了改进,这可为大规模社会网络的自动化构建研究提供理论和方法参考。通过对社会网络进行语义化处理所形成的大规模人物知识图谱,在与人文学科相关的社会网络分析系统、问答系统、知识发现系统中均具有实际应用价值,这可为探索文本挖掘和语义网技术在数字人文研究中的应用模式提供参考借鉴。
甘丹[4](2020)在《面向多模态数据的医疗与健康决策支持研究》文中认为医疗数据应用对全民健康的发展产生巨大影响,如何从多模态数据中挖掘出有用的知识,为临床诊断和患者择医提供决策支持,是医疗数据应用面临的重大挑战。本文使用机器学习和深度学习方法解决了医疗数据应用中不平衡数据导致误判/漏判造成决策损失问题、多属性冗余导致难以获取核心特征问题、非结构化文本数据产生知识粒度精细化和推理能力泛化之间的矛盾问题、以及医学图像数据小样本、少(无)标注影响深度网络推理效率问题。主要研究成果如下:(1)面向不平衡数据的医疗智能诊断分类决策,本文提出基于代价敏感集成学习Ada C-TANBN算法;采用由样本分布概率确定的可变错误分类成本表示正负样本错误分类代价,然后使用不平衡医疗数据集对模型性能进行验证,结果表明其在分类准确度、特异度、灵敏度、AUC值和ROC曲线等方面要优于其它同类优秀算法。(2)面向多属性数据的医疗智能诊断分类决策,本文提出基于混合启发式GA-MLP算法;采用GA算法对属性权重进行优化,与对应属性组合作为新的输入,然后寻找MLP的最优参数组合进行分类,再使用医疗多属性数据集对模型性能进行验证,结果表明其在分类准确度、特异度、灵敏度、AUC值、ROC曲线和epoch值等方面要优于其它对比算法。(3)面向文本数据的医疗评论情感分类决策,本文提出基于互信息特征权重的半监督学习算法;使用台湾大学NTUSD简体中文情感词典对爬取的医疗文本评论进行分词处理形成语料库,从属性粒度入手,建立基于互信息特征权重的半监督学习模型,最后使用语料库数据集对模型性能进行验证,结果表明其在医疗评论文本情感极性分类上具有良好性能。(4)面向图像数据的医疗智能诊断分类决策,本文提出基于图像增强和迁移学习的卷积神经网络算法;采用亮度变暗处理+添加高斯噪声进行图像增强,然后使用Le Net网络、Alex Net网络和Res Net网络对增强后的图像迁移学习,最后使用基于不同成像原理的医学图像数据集对模型性能进行验证,结果表明Alex Net网络在分类准确度、Loss损失值和运算时间方面具有良好性能。
杜杏叶[5](2019)在《学术论文关键指标智能化评价研究》文中研究指明以学术论文为载体的科研成果是国家知识创新的重要组成部分,对学术论文进行科学评价是进行知识创新绩效评价的前提。目前,科研成果评价主要以专家匿名的方式进行评审,这种方式受专家自身学术知识水平和学科领域范围等限制,其评审的结果有一定的局限性,可能使得一些优质科研成果被遗漏或迟滞发表,也可能使另一些学术价值相对不高的成果发表在重要的学术期刊上。这将给科学研究的发展带来比较严重的后果,对国家创新能力发展带来负向作用。当前,学术界科研作假等学术不端现象屡有出现,催生了全社会对科研成果尤其是学术论文进行科学评价的迫切需求。因此本研究以人工智能等理论与技术为基础,并结合学术论文评价理论与实践,构建了学术论文智能评价的关键指标,提出智能化评价方法,以期将学术成果评价从主要依靠人工评价转向智能化评价,克服纯粹依靠专家匿名评审的不足。在对当前学术论文评价相关研究进行梳理和分析的基础之上,本文将主要从以下五个方面进行深入研究。(1)构建学术论文评价关键指标体系。在对学术论文深入分析的基础上,采用扎根理论方法对专家评价意见进行编码分析,通过对五个主范畴的研究和比较分析,系统梳理了主范畴与学术论文评审因素之间的关系,构建出结构层次清晰的学术论文评价关键指标。采用主成分分析方法确定指标权重,进一步完善了学术论文评价关键指标体系。(2)建立学术论文智能化评价框架。在传统学术论文评审流程基础上,将大数据、人工智能和其他信息技术融入到学术论文智能化评价的过程,将智能化框架分为三个主要模块:一是自动规范性检查模块;二是专家评价系统模块;三是编辑部处理模块。该智能化评价框架有望将基于智能化评价的学术论文评价理论与方法形成可供学术界实际应用的流程,在实施科学评价的同时,推动学术论文的规范化写作,提高学术论文的写作质量,并最终促进科学研究成果更好地传播与交流。(3)提出学术论文选题新颖性智能化评价方法。构建了学术论文选题新颖度识别与评价流程。进而提出了选题新颖性智能化评价过程,通过构建研究热点地图、特征向量分析及新颖性判断实现选题新颖性指标的智能化评价。最后采用实证研究的方法验证了该方法的可行性。(4)提出学术论文内容创新性智能化评价方法。在学术论文内容分析的基础上,构建了学术论文知识元本体模型,提出了知识元抽取规则,利用Word2Vec和朴素贝叶斯(Naive Bayes)方法对学术论文理论与方法创新进行分类,采用SVM模型构建知识元抽取规则库。在学术论文知识元库构建基础上,提出学术论文研究问题创新性、理论创新性、方法创新性、结论创新性智能化评价的基本方法,构建学术论文创新性智能化评价过程,最后采用实证验证了方法的可行性。(5)提出学术论文引文科学性智能化评价方法。分析引文层次,构建引文评价维度。提出基于引文的学术论文智能化评价思路和步骤,包括高相关学术论文识别、目标文章引用类型识别等内容,构建引文评价模型。通过实证研究验证评价模型和方法的可行性,并对引文评价模型进行修正。本文基于智能化评价的研究视角,运用人工智能的相关理论与方法,构建学术论文评价框架,突破了传统学术论文基于有限同行的评价模式,克服了专家评议的主观性弊端,同时提升了学术论文评价的效率和质量。在理论层面,通过建立学术论文关键指标及其智能化评价框架,将人工智能理论、技术和方法融入了学术论文评价体系,完善和深化了学术论文智能化评价的理论与方法体系。在实践层面,构建了学术论文智能化评价框架,通过实证研究探讨了选题新颖度、内容创新性和引文科学性三个主要指标的智能化评价过程。本研究建立了可供学术界实际应用的论文智能化评价流程,能够引导学术论文写作规范化,促进科学研究成果高效传播与交流,提升科学成果评价的质量和效率,进而推动国家科技创新成果评价的发展。未来将建立智能化综合评价系统,实现学术论文的创新性、科学性、价值性等的评价和自动评审意见的撰写,以推动大数据与人工智能技术在学术评价领域的深度应用。
胡泽[6](2019)在《在线问诊服务回答质量评价方法研究》文中认为伴随着人口老龄化、慢性病频发以及人们健康意识的提升,高质量的医疗服务需求快速增长。然而由于医疗资源的短缺以及分布的不均衡,健康消费者的医疗服务需求无法有效地得到满足。幸运的是,伴随着移动互联网以及智能终端的快速普及,在线问诊服务正在快速兴起,健康消费者足不出户就可以远程获得着名医院专业医生所提供的在线疾病、健康咨询与指导,这种廉价高效的全新线上医疗方式有效地整合了线下医疗资源,既满足了健康消费者的一般需求,也在某种程度上缓解了医院的运营压力。与传统的社区问答系统以及搜索引擎相比,在线问诊服务中每一个回答都是由经过资格认证的专业执业医师提供,可以确保大部分回答是可信赖的。尽管在线问诊服务具有提供高质量回答的能力,但是却不能确保每个回答都是高质量的。例如高级别医生可能工作忙碌,并不能确保总是有足够的业余时间给线上健康消费者提供详细而高质量的回答。而一些低级别的医生可能只是想借助在线问诊服务平台推销自己及其医院,通常提供一些不相关的广告。低质量的回答会给在线问诊服务中累计的海量健康问答信息的知识挖掘和复用造成巨大困扰,而高质量的健康问答信息知识库是构建虚拟健康助理以及健康推荐系统的关键。因而对在线问诊服务上下文中的回答质量进行自动化评估就显得至关重要。本文将聚焦于在线问诊服务回答质量自动化评价技术中的关键问题,对涉及到的相关内容开展一系列基础性、系统性的研究工作。具体来说,本文的主要研究工作包括如下四个方面:(1)针对在线问诊服务缺乏“群体智慧”属性,已有社区问答系统回答质量评价相关研究中的算法和特征不再完全适用的问题,通过对在线问诊服务特性以及与社区问答系统异同点的深入分析,引入并提出了表面语言、社会化与时序三种类别的典型非文本特征来综合表征在线问诊服务的回答质量。通过对在线问诊服务数据的深入剖析,提出了一套清晰而明确的在线问诊服务回答质量评价指标,并且基于此指标收集、整理了首个用于学术研究的在线问诊数据集。(2)针对在线问诊服务中的回答主要是面临特征稀疏问题的短文本的难题,预训练了首个用于学术研究的在线问诊服务词嵌入,通过结合两种异构卷积神经网络从全局和局部两种角度对短文本进行建模,实现了对在线问诊短文本语义空间的扩充,接着,提出了协同决策策略来生成一个在线问诊短文本的更加精准的混合语义表示。随后,在上述基础上引入了多模学习和隐因子分解机,提出了一个协同决策卷积神经网络框架,通过俘获不同数据模态间的高度非线性关系以及同一数据模态中不同特征间的非独立交互关系,提升了在线问诊服务回答质量的预测性能。(3)针对在线问诊服务的数据拥有多个模态的异构表征方式,不同数据模态间存在着复杂的高度非线性关系的问题,通过组合伯努利和高斯受限玻尔兹曼机,建立了一个可扩展多模态深度学习框架来融合来源于不同数据模态的语义知识,实现了在线问诊服务回答质量预测性能的提升。通过组合伯努利受限玻尔兹曼机,建立了针对短文本的高阶隐藏语义表示挖掘的深度信念网络,有效地克服在线问诊短文本所面临的严峻的特征稀疏问题。通过大量实验探究了数据不平衡问题对于在线问诊服务回答质量评价研究的重要影响。(4)针对在线问诊服务存在大量廉价未标注短文本数据,专家标注成本过于高昂的问题,通过提出两种独立而充分的基于特定领域词嵌入的深度文本视角以及引入隐因子分解机作为基级分类器,建立了一个可以挖掘嵌入在未标注短回答文本中的高度非线性语义知识,俘获同一深度视角内不同特征间的非独立交互关系以及俘获不同视角间的高度非线性关系的深度协同训练框架,实现了对大量未标注的特征稀疏短文本回答的自动化标注以及对回答质量预测性能的提升。
马乐荣[7](2018)在《面向百科知识库的实体-引文相关性分类技术研究》文中指出百科知识库(如Wikipedia、百度百科)对百科知识的整理和应用具有重大意义。百科知识库不仅成为人们日常搜索知识的主要平台,而且还为许多应用提供知识来源。据统计,相对于实体的最新信息,知识库编辑人员更新实体内容的时间平均晚于一年。百科知识库内容的滞后性成为制约其应用的主要瓶颈。2012年,国际文本检索大会发起了知识库累积引文推荐评测任务,吸引了众多国际知名大学和研究机构的参加,旨在缓解知识库实体内容严重滞后的问题,其核心任务是实体与引文的相关性分析。实体与引文相关性分析目前成为知识库加速研究的热点之一,对该问题的研究不仅可以大幅度地充实完善在线百科知识库中的信息,提高用户的知识库使用体验,更可即时发现并更新实体的相关内容,为智能搜索引擎、知识问答、实体检索、热点发现、舆情跟踪、个性推荐等应用提供知识支持。根据引文与目标实体相关的不同等级,先前解决实体与引文相关性分析的方法,主要有两类,分别是分类方法和排序方法。这些方法都设计了丰富的人工特征,并使用了强大的机器学习模型,在某些方面取得了一定的成果,但性能依然不是十分理想,仍然需要对其进行深入研究。本文视实体与引文相关性分析的任务为分类任务,称为面向百科知识库的实体-引文相关性分类,是从文本大数据流中发现同百科知识库实体相关的引文,并根据相关程度对实体-引文进行分类。其主要研究内容和创新点如下:(1)提出基于目标实体突发特征的文本表示模型。已有研究使用了实体查询的简单数量统计,其证明时序特征在百科知识库引文推荐任务中有重要作用。本文提出了基于实体突发特征的文本表示模型,既考虑目标实体的突发特征,又考虑实体与引文的语义特征,构建引文文本的表示模型。实验结果表明基于实体突发特征的文本表示模型能显着提升实体-引文相关性分类性能。(2)实体-引文类别依赖的混合分类模型。实体-引文相关性分类任务,本质上是针对实体-引文对的分类任务。因此当实体的类别信息和引文的类别信息相似或相近时,引文更有可能成为目标实体主页的最终参考文献。本文提出实体-引文类别依赖的判别混合模型,同时考虑实体和引文的先验类别信息,利用混合模型把先验信息和语义信息组合起来。实验表明,实体-引文类别依赖的混合模型不仅可以灵活处理多样性的实体-引文对,同时也能处理未在训练集中出现过的实体-引文对,具有极强的泛化能力。(3)融入偏好信息的分类模型。相对于实体、文本的数量和多样性,标注数据是十分有限的。尽管标注数据耗费大量的人力、物力和财力,但其具有极高的价值。因此充分挖掘标注数据中蕴含的有效信息,可以提高分类性能。本文提出偏好增强的支持向量机模型,不仅考虑不同类别样本之间的差异信息,还考虑同类样本之间的偏好信息,构建融入偏好信息的SVM模型,来优化SVM的优化目标。实验结果表明,融入偏好信息的支持向量机模型可以有效提升分类性能,具有普适性。(4)实体-引文联合的深度网络分类模型。先前的工作集中在如何设计实体-引文的特征,以及选择适合特征的模型。其中设计特征需要领域专家花费大量的精力来完成,不具有普适性。分布式表达(Distribution Representation)给实体和引文的表示带来新思路,也成为深度学习解决自然语言处理和信息检索的基础性工作。本文提出实体-引文联合的深度神经网络分类模型,利用深度学习模型自动学习实体和引文的潜在特征,以端到端的方式解决实体-引文相关性分类任务。实验结果表明提出的模型能有效提升实体-引文相关性分类性能,同时提供了用深度模型来解决实体-引文相关性分类任务的新思路,具有极大的研究价值。
代六玲,李雪梅,黄河燕,陈肇雄[8](2004)在《基于知识融合的在线文本分类算法——语义SVM》文中认为为使支持向量机(SVM)更加适用于在线文本分类应用。利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架。以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.
代六玲[9](2005)在《互联网内容监管系统关键技术的研究》文中研究说明针对日益严重的互联网有害信息污染问题,本文对网络内容监管系统的关键技术进行深入研究。主要工作包括: (1) 提出了基于双层分析结构的主动型网络内容监管模型,采用高速的多关键字和关键字表达式匹配算法作为第一层,采用基于SVM的文本分类算法作为第二层。该模型可以同时提升系统的吞吐率和对敏感信息识别的准确率。 (2) 设计了一种高效的多关键字匹配算法:QMS。该算法通过获得尽可能大的平均跳跃距离提高了匹配效率。进而将该算法与多关键字表达式匹配的经典计数算法结合,提高了关键字表达式匹配的效率。 (3) 发现了在英文环境中表现良好的特征选取方法并不适合中文文本分类问题的事实。分析了产生差异的原因,并提出一种适合于中文环境的特征选取方法:组合特征选取方法。该方法有利于提高分类效果和加速分类器的训练。 (4) 设计了一种训练SVM的新算法:3SAO。该算法将训练SVM的原始二次规划问题分解为序贯的子问题,每个子问题包含三个拉格朗日乘子并被解析的优化,并使用一套高效直观的启发式规则来选择被优化的乘子。该算法具有很高的收敛速度。 (5) 提出一种基于知识融合的文本分类算法:语义SVM。该算法使用语义中心集代替原训练样本集作为支持向量机的训练样本,在保证分类准确率的情况下十分显着地提高了训练速度和分类速度,而且具有良好的在线学习能力。 (6) 设计并开发了一套主动型网络内容监管原型系统。测试结果表明其监管效率和对敏感信息的识别准确率都达到预期目标。
郑涵[10](2021)在《基于迁移主题模型的文本分类方法研究》文中研究指明当标注数据充足的情况下,现有的文本分类方法已经可以取得比较好的效果。近来基于深度学习的文本分类方法的发展,已经使得文本分类任务的性能达到了工业界的应用要求,特别是基于预训练+微调的两阶段文本分类方法,更是将文本分类的效果推上了一个前所未有的高度。但文本分类效果提升的同时,模型的复杂度也在迅速的增加,对标注数据集的规模以及质量的要求也在不断提高,使得应用场景很是受限。在实际应用中文本分类任务的训练数据往往是有限的,特别是对于一些特定领域,数据的采集与标注很困难,建立高质量的标注训练集,代价昂贵,并且标注数据匮乏往往伴随着类别间的不均衡现象。所以如何在仅有少量标注数据的情况下,取得一个较好的分类结果是目前研究的一个热点问题。本文针对仅有少量标注数据和标注数据类别间严重不均衡的场景开展研究,主要研究内容如下:(1)当目标领域缺少足够多的标注数据时,迁移学习利用相关源领域的标注数据,辅助提升目标域的学习性能,但是目标域与源域的数据通常不满足独立同分布,容易导致“负迁移”问题。本文在有监督主题模型(Supervised LDA,SLDA)的基础上,融合迁移学习方法提出一种共享主题知识的迁移主题模型(Transfer SLDA,TrSLDA),提出Tr-SLDA-Gibbs主题采样新方法,在类别标签的约束下对不同领域文档中的词采取不同的采样策略,且无需指定主题个数。辅助源域与目标域共享潜在主题空间,Tr-SLDA通过发现潜在共享主题与不同领域类别之间的语义关联从源域迁移知识,可以有效解决“负迁移”问题。基于Tr-SLDA迁移主题模型提出Tr-SLDATC(Tr-SLDA Text Categorization)文本分类方法。对比实验表明,该方法可有效利用源域知识来提升目标领域的分类性能。(2)融合主题模型和迁移学习方法,提出一种共享潜在主题知识的层次迁移主题模型(transfer SLDA,t SLDA)的构建方法,旨在有效地解决负迁移问题。t SLDA模型引入新参数,用于识别交叉领域共享潜在主题与共享层次类别之间的语义关联;提出依据不同层次类别的约束的隐含主题采样算法t SLDA-Gibbs,从而识别共享潜在主题与不同类别空间的语义映射;提出t SLDA主题模型的迁移能力评价指标和评价方法,基于模型的迁移能力有效解决负迁移问题,从而提高模型的泛化能力;最后提出基于t SLDA模型的迁移学习新方法。实验表明,t SLDA迁移主题模型可以有效识别主题与不同类别空间的语义映射,从而提高分类性能。(3)在迁移学习中若源域选取不合适则会产生“负迁移”,反而降低目标域任务的性能。有时候很难找到合适的源域来辅助目标域任务建模,这就意味着模型必须充分挖掘有限标注数据中的信息来提升泛化能力。本文从词的角度考虑分类问题,提出一种基于SLDA的词粒度分类模型及分类方法(WL-TC),建立单词与类别之间的关联,然后推断测试文档中词的标签,最后通过词的标签归纳出文档的类别对测试文档进行分类。目前深度学习的巨大成果已经影响了机器学习的各个领域,所以本文将WL-TC思想进一步结合深度学习中词嵌入表示方法提出一种三阶段文本分类框架(TSTC)。经实验验证,WL-TC和TSTC在小样本数据下的分类性能优于所有对比的分类方法,并且可有效解决数据的类别不均衡所带来的分类性能下降问题,WL-TC在极端的类别不均衡情况下仍能取得令人满意的效果。
二、基于知识融合的在线文本分类算法——语义SVM(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于知识融合的在线文本分类算法——语义SVM(论文提纲范文)
(1)基于情感分析的人机谈判研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景 |
1.2 动机 |
1.2.1 情感因素对于人类谈判的影响 |
1.2.2 情感因素对于人机谈判的影响 |
1.2.3 研发基于情感的人机谈判系统的意义 |
1.3 研究思路和技术路线 |
1.4 本文的主要贡献 |
1.5 本文的组织结构 |
第2章 文献综述 |
2.1 引言 |
2.2 基于机器学习的情感分析 |
2.2.1 基于线性分类器的方法 |
2.2.2 基于概率分类器的方法 |
2.2.3 其它基于机器学习的方法 |
2.2.4 讨论 |
2.2.5 小结 |
2.3 基于深度学习的情感分析 |
2.3.1 基于卷积神经网络的方法 |
2.3.2 基于循环神经网络的方法 |
2.3.3 混合的方法 |
2.3.4 其它基于深度学习的方法 |
2.3.5 多模态的情感分析 |
2.3.6 小结 |
2.4 情感分析技术的应用 |
2.4.1 商业应用 |
2.4.2 中国的智能客服系统 |
2.4.3 非商业应用 |
2.4.4 关系和事件预测 |
2.4.5 对话系统 |
2.4.6 讨论与挑战 |
2.4.7 小结 |
2.5 自动谈判 |
2.5.1 机器对机器的自动谈判 |
2.5.2 人机自动谈判 |
2.6 对话系统 |
2.6.1 对话理解 |
2.6.2 对话管理 |
2.6.3 对话生成 |
2.7 本章小结 |
第3章 系统结构及原理 |
3.1 引言 |
3.2 模型定义 |
3.3 系统框架 |
3.4 系统主函数 |
3.5 界面设计 |
3.6 情感分类 |
3.6.1 情感分类标准 |
3.6.2 情感强度分类标准 |
3.6.3 情感关键词库 |
3.7 意图特征和情感特征抽取 |
3.7.1 意图特征抽取 |
3.7.2 情感特征抽取 |
3.8 意图分类 |
3.9 情感分类 |
3.10 价格特征词及其值抽取 |
3.11 谈判决策 |
3.11.1 安抚策略 |
3.11.2 让步策略 |
3.11.3 谈判算法 |
3.12 生成回复 |
3.13 本章小结 |
第4章 系统的实现 |
4.1 概述 |
4.2 收集语料与预处理 |
4.3 交互界面 |
4.4 意图和情感特征抽取 |
4.5 意图识别与分类 |
4.6 情感识别与分类 |
4.7 价格特征及其值抽取 |
4.8 谈判策略 |
4.9 生成回复 |
4.10 本章小结 |
第5章 谈判实例与分析 |
5.1 谈判成功样例分析 |
5.2 谈判破裂样例分析 |
5.3 两样例总分析 |
5.4 本章小结 |
第6章 系统评估与分析 |
6.1 意图和情感分类模型的性能评估 |
6.2 谈判成功率 |
6.3 谈判结果的效用 |
6.4 人类谈判对手满意度 |
6.5 本章小结 |
第7章 结束语 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录A 部分意图语料 |
A.1 问候意图类 |
A.2 讲价意图类 |
A.3 破裂意图类 |
A.4 成交意图类 |
附录B 部分情感语料 |
B.1 愤怒情感类 |
B.2 生气情感类 |
B.3 失望情感类 |
B.4 着急情感类 |
B.5 担心情感类 |
B.6 委屈情感类 |
B.7 高兴情感类 |
B.8 感激情感类 |
附录C 部分回复模板 |
C.1 愤怒回复模板库 |
C.2 生气回复模板库 |
C.3 失望回复模板库 |
C.4 着急回复模板库 |
C.5 担心回复模板库 |
C.6 委屈回复模板库 |
C.7 高兴回复模板库 |
C.8 感激回复模板库 |
C.9 问候类回复模板库 |
C.10 讲价类回复模板库 |
C.11 破裂类回复模板库 |
C.12 成交类回复模板库 |
读硕期间获得的成果与奖励 |
致谢 |
(2)基于知识图谱的英语语法智能题库系统研建(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 知识图谱的国内外研究现状 |
1.2.2 智能学习平台的国内外研究现状 |
1.2.3 国内英语语法题库系统研究现状 |
1.3 研究内容 |
1.4 创新点 |
1.5 本文的组织结构 |
2 相关理论和技术 |
2.1 知识图谱概述 |
2.2 文本特征提取算法 |
2.3 文本分类算法 |
2.4 NLTK和 Jieba分词工具 |
2.5 Neo4j图数据库 |
2.6 Flask框架 |
2.7 Vue.js前端框架 |
2.8 本章小结 |
3 构建英语语法知识图谱 |
3.1 构建整体流程 |
3.2 必要性分析 |
3.3 英语语法数据获取 |
3.3.1 语法书籍数据 |
3.3.2 百度百科数据 |
3.4 知识图谱设计 |
3.4.1 实体设计 |
3.4.2 关系设计 |
3.5 知识存储 |
3.5.1 统一数据格式 |
3.5.2 数据导入Neo4j |
3.6 知识可视化 |
3.7 本章小结 |
4 系统总体设计 |
4.1 系统需求分析 |
4.2 系统架构设计 |
4.3 系统核心功能模块设计 |
4.3.1 基于知识图谱的题目分类功能模块设计 |
4.3.2 基于知识图谱的题目推荐功能模块设计 |
4.3.3 基于知识图谱的智能问答功能模块设计 |
4.4 系统数据库设计 |
4.4.1 MySQL数据库设计 |
4.4.2 Neo4j图数据库设计 |
4.5 本章小结 |
5 系统核心功能模块实现 |
5.1 基于知识图谱的题目分类功能模块实现 |
5.1.1 获取题目训练数据 |
5.1.2 文本预处理 |
5.1.3 特征向量设计 |
5.1.4 构建SVM分类器 |
5.2 基于知识图谱的题目推荐功能模块实现 |
5.2.1 获取错题知识点 |
5.2.2 查询易混淆知识点 |
5.2.3 推荐题目 |
5.3 基于知识图谱的智能问答功能模块实现 |
5.3.1 问句分类 |
5.3.2 模板匹配 |
5.3.3 答案生成 |
5.4 本章小结 |
6 系统测试与结果 |
6.1 系统测试 |
6.2 测试环境 |
6.3 系统测试工具 |
6.3.1 Postman |
6.3.2 JMeter |
6.4 测试与结果 |
6.4.1 功能测试 |
6.4.2 非功能测试 |
6.4.3 系统运行结果 |
6.5 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
个人简介 |
导师简介 |
获得成果目录 |
致谢 |
(3)基于在线百科的社会网络抽取及语义化研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的与意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 研究框架与研究内容 |
1.3.1 研究框架 |
1.3.2 研究内容 |
1.4 技术路线 |
1.5 研究方法与工具 |
1.5.1 研究方法 |
1.5.2 使用的工具与技术 |
1.6 贡献与创新 |
1.7 论文组织结构 |
第2章 相关概念与理论 |
2.1 复杂社会网络理论 |
2.1.1 复杂网络的概念 |
2.1.2 社会网络的概念 |
2.1.3 典型的复杂社会网络模型 |
2.2 知识表示理论 |
2.2.1 知识表示的概念 |
2.2.2 语义网 |
2.2.3 知识图谱 |
2.3 本章小结 |
第3章 相关研究综述 |
3.1 社会网络抽取研究 |
3.1.1 传统社会网络抽取研究 |
3.1.2 基于在线百科的社会网络抽取研究 |
3.2 社会网络语义化研究 |
3.2.1 社会网络语义化的相关工作 |
3.2.2 典型的社会网络本体 |
3.3 知识图谱补全研究 |
3.3.1 知识图谱补全的任务 |
3.3.2 知识图谱关系预测的相关研究 |
3.3.3 知识图谱实体类型预测的相关研究 |
3.4 命名实体链接研究 |
3.4.1 命名实体链接的任务 |
3.4.2 命名实体链接的相关研究工作 |
3.5 本章小结 |
第4章 在线百科中的社会网络抽取 |
4.1 社会网络抽取的整体框架 |
4.2 初始社会网络生成 |
4.3 关系权重计算 |
4.3.1 人物相关性特征 |
4.3.2 人物相关度学习 |
4.4 人物时空分析 |
4.4.1 人物生存时空估计 |
4.4.2 时空耦合网络的构建 |
4.5 百科社会网络的结构特征分析 |
4.6 百科人物网络的可视化分析 |
4.7 本章小结 |
第5章 社会网络语义建模与语义表示 |
5.1 社会网络语义建模 |
5.1.1 MSTSN本体的整体架构 |
5.1.2 人物时空信息的语义建模 |
5.1.3 关系类型和人物类型的语义建模 |
5.2 社会网络的语义表示 |
5.2.1 人物基本信息的语义表示 |
5.2.2 人物时空信息的语义表示 |
5.2.3 人物关系信息的语义表示 |
5.3 本章小结 |
第6章 基于百科内部信息的人物知识图谱补全 |
6.1 人物关系类型的预测 |
6.1.1 关系预测模型设计 |
6.1.2 模型评测 |
6.1.3 基于Conv F模型的人物关系类型补全 |
6.2 人物类型的预测 |
6.3 本章小结 |
第7章 基于百科外部文本的人物知识图谱补全 |
7.1 命名实体链接的整体框架 |
7.2 指称识别 |
7.3 候选实体集合生成 |
7.4 候选实体消岐 |
7.4.1 消歧特征 |
7.4.2 排序学习 |
7.4.3 消歧结果优化 |
7.5 命名实体链接方法评测 |
7.5.1 评测语料 |
7.5.2 文本相似度特征筛选实验 |
7.5.3 多特征消歧实验 |
7.5.4 对比实验 |
7.6 基于命名实体链接的人物关系补全 |
7.6.1 设计思路 |
7.6.2 方法评测 |
7.7 本章小结 |
第8章 人物知识图谱的语义查询与可视化 |
8.1 基于关系的社会网络语义查询 |
8.1.1 查询中心人物的相关人物 |
8.1.2 查询限定类型的相关人物 |
8.2 基于作品的社会网络语义查询 |
8.2.1 生成与特定作品相关的社会网络 |
8.2.2 生成与特定作者相关的社会网络 |
8.3 基于时间的社会网络语义查询 |
8.3.1 生活于特定历史时期的人物查询 |
8.3.2 生成特定历史时期的人物关系网络 |
8.3.3 生成特定朝代的人物关系网络 |
8.4 基于空间的社会网络语义查询 |
8.4.1 与地理特征点相关的人物查询 |
8.4.2 同乡关系网络的生成 |
8.4.3 查询特定历史时期的热点地理区域 |
8.5 本章小结 |
第9章 总结与展望 |
9.1 本文总结 |
9.2 研究局限与展望 |
参考文献 |
中文参考文献 |
英文参考文献 |
附录 人物知识图谱的RDF表示(示例) |
攻读博士学位期间科研成果 |
致谢 |
(4)面向多模态数据的医疗与健康决策支持研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究内容和技术路线 |
1.2.1 研究内容 |
1.2.2 研究方法 |
1.2.3 技术路线 |
1.3 研究的创新点 |
第2章 相关研究与文献综述 |
2.1 数据驱动的医疗与健康决策 |
2.1.1 医疗与健康决策研究 |
2.1.2 多模态医疗与健康数据 |
2.2 智能医疗与健康决策的应用 |
2.2.1 临床决策支持系统 |
2.2.2 医疗语义检索系统 |
2.2.3 医疗智能问答系统 |
2.3 多模态数据特征提取与融合处理 |
2.3.1 多模态数据特征提取 |
2.3.2 多模态数据融合推理 |
2.3.3 多模态数据处理与深度学习 |
2.4 医学图像智能识别及应用 |
2.4.1 医学图像分割 |
2.4.2 医学图像知识抽取 |
2.4.3 医学图像检测与分类 |
2.4.4 计算机辅助诊断与图像检索 |
2.5 相关研究评述 |
第3章 面向不平衡数据的医疗智能诊断分类决策 |
3.1 问题描述 |
3.2 基于最小错误分类损失的贝叶斯建模 |
3.2.1 贝叶斯分类 |
3.2.2 错误分类损失 |
3.2.3 错误分类的平均损失 |
3.2.4 错误分类损失的最小化 |
3.3 基于代价敏感集成学习分类算法 |
3.3.1 TAN树-贝叶斯分类 |
3.3.2 基于代价敏感Ada Boosting算法 |
3.3.3 Ada C-TANBN集成学习算法模型 |
3.3.4 Ada C-TANBN集成学习算法流程 |
3.4 实验设计和结果分析 |
3.4.1 实验数据集 |
3.4.2 实验评价指标 |
3.4.3 实验结果对比 |
3.4.4 实验结论 |
3.5 本章小结 |
第4章 面向多属性数据的医疗智能诊断分类决策 |
4.1 问题描述 |
4.2 不同分类器结合方式的特征选择 |
4.2.1 过滤式特征选择算法 |
4.2.2 封装式特征选择算法 |
4.2.3 嵌入式特征选择算法 |
4.2.4 集成式特征选择算法 |
4.2.5 不同特征选择算法的对比 |
4.3 常见的几种基分类器 |
4.3.1 基于KNN的分类模型 |
4.3.2 基于NB的分类模型 |
4.3.3 基于SVM的分类模型 |
4.4 基于混合启发式算法的分类建模 |
4.4.1 基于遗传算法的属性权重优化 |
4.4.2 多层感知机分类器 |
4.4.3 基于GA-MLP属性权重优化分类模型 |
4.5 实验设计和结果分析 |
4.5.1 实验数据集 |
4.5.2 实验评价指标 |
4.5.3 实验结果对比 |
4.5.4 实验结论 |
4.6 本章小结 |
第5章 面向文本数据的医疗评论情感分类决策 |
5.1 问题描述 |
5.2 不同文本粒度的情感分析 |
5.2.1 文档级情感分析 |
5.2.2 句子级情感分析 |
5.2.3 属性级情感分析 |
5.3 基于互信息特征权重算法建模 |
5.3.1 语料库的知识表示 |
5.3.2 特征空间的互信息度量 |
5.3.3 相关-冗余系数 |
5.3.4 R2C-MIFS特征选择算法流程 |
5.3.5 基于互信息的特征权重赋值 |
5.3.6 基于互信息特征权重的情感分析 |
5.4 实验设计和结果分析 |
5.4.1 实验数据集 |
5.4.2 实验对比方法 |
5.4.3 实验评价指标 |
5.4.4 实验结果对比 |
5.4.5 实验结论 |
5.5 本章小结 |
第6章 面向图像数据的医疗智能诊断分类决策 |
6.1 问题描述 |
6.2 卷积神经网络和迁移学习 |
6.2.1 卷积神经网络 |
6.2.2 迁移学习 |
6.3 基于卷积神经网络迁移学习图像分类建模 |
6.3.1 基于LeNet网络的图像分类模型 |
6.3.2 基于AlexNet网络的图像分类模型 |
6.3.3 基于ResNet网络的图像分类模型 |
6.4 医学图像增强预处理 |
6.4.1 医学图像数据集 |
6.4.2 数据集的图像增强预处理 |
6.5 实验设计和结果分析 |
6.5.1 不同医学图像分类模型的参数设置 |
6.5.2 基于KNN的医学图像分类结果 |
6.5.3 基于NB的医学图像分类结果 |
6.5.4 基于SVM的医学图像分类结果 |
6.5.5 基于CNN的医学图像分类结果 |
6.5.6 医学图像增强方式和倍数组合的对比 |
6.5.7 医学图像不同模型分类结果的对比 |
6.5.8 实验结论 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 研究内容总结 |
7.2 未来研究方向 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(5)学术论文关键指标智能化评价研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状综述 |
1.3.1 国内学术论文评价研究 |
1.3.2 国外学术论文评价研究 |
1.3.3 相关研究述评 |
1.4 研究内容与方法 |
1.5 研究创新点 |
1.6 研究技术路线 |
第2章 相关概念与理论基础 |
2.1 学术论文 |
2.1.1 学术论文的内涵、结构与要素 |
2.1.2 学术论文与知识生产 |
2.1.3 学术论文与知识创新 |
2.2 学术论文评价 |
2.2.1 学术论文评价涵义 |
2.2.2 学术论文评价方法 |
2.2.3 学术论文评价关键指标 |
2.3 学术论文智能化评价 |
2.3.1 学术论文智能化评价内涵 |
2.3.2 学术论文智能化评价过程 |
2.4 扎根理论 |
2.5 知识元理论 |
2.5.1 知识元概念 |
2.5.2 知识元分类与描述 |
2.5.3 知识元的抽取与应用 |
2.6 本章小结 |
第3章 人工智能技术及相关方法 |
3.1 机器学习 |
3.2 专家系统 |
3.3 文本分析 |
3.4 LDA主题识别模型 |
3.5 知识图谱 |
3.6 本章小结 |
第4章 学术论文关键指标分析及智能化评价框架 |
4.1 学术论文评价关键指标解析 |
4.2 专家评价意见数据分析 |
4.3 关键指标体系构建 |
4.4 学术论文智能化评价框架 |
4.5 智能化评价指标提取 |
4.6 本章小结 |
第5章 学术论文选题新颖性智能化评价 |
5.1 选题新颖性智能化评价概述 |
5.2 学术论文选题新颖度识别与判断流程 |
5.3 选题新颖性智能化评价过程 |
5.4 选题新颖性智能化评价实例研究 |
5.5 本章小结 |
第6章 学术论文内容创新性智能化评价 |
6.1 内容创新性智能化评价概述 |
6.2 学术论文知识元本体 |
6.3 学术论文知识元抽取 |
6.4 学术论文创新智能化评价过程 |
6.5 学术论文创新智能化评价实证检验 |
6.6 本章小结 |
第7章 学术论文引文科学性智能化评价 |
7.1 引文指标智能化评价概述 |
7.2 引文评价层次 |
7.2.1 引用层面 |
7.2.2 引用评价 |
7.3 基于引文的智能化评价过程 |
7.3.1 评价思路 |
7.3.2 评价步骤 |
7.4 构建引文智能化评价指标模型 |
7.5 引文指标智能化评价实例检验 |
7.5.1 数据收集 |
7.5.2 结果分析 |
7.5.3 指标验证 |
7.6 引文评价指标模型及计算的修订 |
7.7 本章小结 |
第8章 研究结论与展望 |
8.1 研究结论 |
8.2 研究局限性及展望 |
8.2.1 研究局限性 |
8.2.2 研究展望 |
参考文献 |
附录 |
作者简介与主要研究成果 |
致谢 |
(6)在线问诊服务回答质量评价方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 国内外研究现状及分析 |
1.2.1 社区问答系统回答质量评价研究 |
1.2.2 短文本分类 |
1.2.3 协同训练 |
1.2.4 研究现状总结 |
1.3 本文的研究内容 |
1.4 本文的内容安排 |
第2章 基于典型非文本特征的在线问诊服务回答质量评价方法 |
2.1 引言 |
2.2 在线问诊服务回答质量面临的挑战 |
2.3 在线问诊服务回答质量评价问题描述 |
2.4 在线问诊服务回答质量评价指标制定 |
2.5 在线问诊服务典型非文本特征提取与分析 |
2.5.1 表面语言特征 |
2.5.2 社会化特征 |
2.5.3 时序特征 |
2.6 实验与讨论 |
2.6.1 实验设置 |
2.6.2 实验结果与分析 |
2.7 本章小结 |
第3章 基于深度短文本特征的在线问诊服务回答质量评价方法 |
3.1 引言 |
3.2 面临的挑战 |
3.3 预训练词嵌入 |
3.4 学习框架 |
3.4.1 卷积神经网络组件 |
3.4.2 依赖敏感卷积神经网络组件 |
3.4.3 协同决策组件 |
3.4.4 多模学习组件 |
3.4.5 质量预测组件 |
3.4.6 超参数和训练 |
3.5 实验与讨论 |
3.5.1 实验设置 |
3.5.2 实验结果与分析 |
3.6 本章小结 |
第4章 基于异构数据融合的在线问诊服务回答质量评价方法 |
4.1 引言 |
4.2 面临的挑战 |
4.3 受限玻尔兹曼机与深度信念网络 |
4.3.1 受限玻尔兹曼机 |
4.3.2 深度信念网络与深度学习 |
4.4 学习框架 |
4.4.1 文本特征特征学习 |
4.4.2 典型非文本特征特征学习 |
4.4.3 异构特征融合 |
4.4.4 监督训练和分类 |
4.4.5 模型评估和训练细节 |
4.5 实验与讨论 |
4.5.1 实验设置 |
4.5.2 实验结果与分析 |
4.6 本章小结 |
第5章 基于数据自动化标注和特征融合的在线问诊服务回答质量评价方法 |
5.1 引言 |
5.2 面临的挑战 |
5.3 学习框架 |
5.3.1 在线问诊服务数据集收集组件 |
5.3.2 预训练特定领域词嵌入组件 |
5.3.3 依赖敏感卷积神经网络视角特征学习组件 |
5.3.4 卷积神经网络视角特征学习组件 |
5.3.5 基于隐因子分解机的协同训练组件 |
5.3.6 集成学习与质量预测组件 |
5.3.7 超参数与训练 |
5.4 实验与讨论 |
5.4.1 实验设置 |
5.4.2 实验结果与分析 |
5.4.3 第2章至第5章所提出方法的综合对比 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(7)面向百科知识库的实体-引文相关性分类技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 本论文研究的背景和意义 |
1.2 国内外研究现状及趋势 |
1.2.1 在线知识库累积引文推荐 |
1.2.2 命名实体链接 |
1.2.3 命名实体分类 |
1.2.4 突发特征挖掘 (Bursty Mining) |
1.2.5 信息推荐 |
1.3 研究内容与创新点 |
1.4 本论文的结构 |
第2章 实体-引文相关性分类技术 |
2.1 在线百科知识库累积引文推荐及处理流程 |
2.2 问题描述 |
2.3 CCR数据集 |
2.3.1 目标实体集合 |
2.3.2 文档集合 |
2.3.3 标注情况 |
2.4 实体-引文相关性分类技术框架 |
2.5 工作数据集 |
2.6 本章小结 |
第3章 基于实体突发特征的文本表示模型 |
3.1 引言 |
3.2 相关工作 |
3.3 基于实体突发特征的文档表示 |
3.3.1 实体突发特征检测算法 |
3.3.2 实体-引文的特征表示 |
3.4 实体-引文相关性判别分类模型 |
3.5 实验设计 |
3.5.1 数据集 |
3.5.2 任务场景 |
3.5.3 系统评价指标 |
3.5.4 实验对比方法 |
3.5.5 实验整体结果及分析 |
3.5.6 实体级粒度比较 |
3.6 本章小结 |
第4章 实体-引文类别依赖的混合模型 |
4.1 引言 |
4.2 相关工作 |
4.3 实体-引文类别依赖的判别混合模型 |
4.3.1 问题定义 |
4.3.2 全局判别分类模型 |
4.3.3 实体-引文类别依赖的判别混合模型 |
4.3.4 模型参数估计 |
4.3.5 实体-引文类别依赖判别混合模型的两个特例 |
4.3.6 混合模型的优点 |
4.4 实体、引文的特征选择 |
4.4.1 实体-引文特征 |
4.4.2 实体类别特征 |
4.4.3 引文类特征 |
4.5 实验设计 |
4.5.1 数据集 |
4.5.2 任务场景 |
4.5.3 实验比对方法 |
4.5.4 参数选择策略 |
4.5.5 实验结果评价指标 |
4.5.6 实验结果及分析 |
4.5.7 判别混合模型的泛化能力 |
4.6 本章小结 |
第5章 融入偏好信息的分类模型 |
5.1 引言 |
5.2 相关工作 |
5.2.1 扩展的SVMs |
5.2.2 选择抽样 |
5.3 偏好增强的支持向量机 (PSVM) |
5.3.1 原问题与对偶问题 |
5.3.2 对偶问题的最优条件 |
5.3.3 扩展的SMO算法 |
5.4 二层启发式抽样算法 |
5.5 实验设计及结果分析 |
5.5.1 TREC-KBA-2012 实验 |
5.5.2 强化实验 |
5.6 本章小结 |
第6章 实体-引文联合的深度网络分类模型 |
6.1 引言 |
6.2 相关工作 |
6.3 问题定义 |
6.4 Deep Jo ED模型 |
6.4.1 Deep Jo ED框架 |
6.4.2 输入层 |
6.4.3 查表层 |
6.4.4 卷积和最大化池层 |
6.4.5 交互层 |
6.4.6 输出层 |
6.5 网络学习 |
6.5.1 正则化 |
6.5.2 超参数 |
6.6 实验设计与分析 |
6.6.1 数据集 |
6.6.2 任务场景 |
6.6.3 模型度量指标 |
6.6.4 实验设置 |
6.6.5 预训练词向量 |
6.6.6 实验方法 |
6.6.7 实验结果及分析 |
6.6.8 词向量维度的影响 |
6.7 本章小结 |
第7章 结论 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
攻读学位期间参与的项目 |
致谢 |
作者简介 |
(8)基于知识融合的在线文本分类算法——语义SVM(论文提纲范文)
1 理论准备 |
1.1 SVM简介 |
1.2 SMO及其改进算法简介 |
2 语义SVM |
2.1 基本思想 |
2.2 语义中心集的生成 |
3 语义SVM的在线学习 |
3.1 算法框架 |
3.2 基于SMO的减量和增量学习 |
4 实验结果 |
5 结论 |
(9)互联网内容监管系统关键技术的研究(论文提纲范文)
中文摘要 |
ABSTRACT |
目录 |
1 绪论 |
1.1 研究背景 |
1.1.1 互联网的兴起 |
1.1.2 有害信息污染 |
1.2 研究现状 |
1.3 本文研究目标 |
1.4 本文的内容组织 |
2 互联网内容监管系统模型设计 |
2.1 需求分析 |
2.2 监管模型分析 |
2.2.1 被动监管模型分析 |
2.2.2 主动监管模型分析 |
2.2.3 被动模型和主动模型的应用环境 |
2.3 双层结构模型 |
2.4 小结 |
3 高效多关键字匹配算法研究 |
3.1 概述 |
3.2 现有多关键字匹配算法简介 |
3.2.1 DFSA算法 |
3.2.2 FS算法 |
3.2.3 SunWu算法 |
3.3 快速多关键字匹配算法:QMs |
3.3.1 算法描述 |
3.3.1.1 预处理过程 |
3.3.1.2 匹配过程 |
3.3.1.3 复杂度分析 |
3.3.2 实验结果与分析 |
3.3.2.1 实验准备 |
3.3.2.2 实验结果 |
3.3.2.3 结果分析 |
3.4 关键字表达式匹配算法 |
3.4.1 关键字表达式匹配概述 |
3.4.2 计数算法 |
3.4.3 基于QMS的改进关键字表达式匹配算法 |
3.5 小结 |
4 中文文本分类中特征选取算法研究 |
4.1 概述 |
4.2 特征选取算法简介 |
4.2.1 文档频率 |
4.2.2 信息增益 |
4.2.3 CHI统计 |
4.2.4 互信息 |
4.3 效果测试与分析 |
4.3.1 实验设置 |
4.3.1.1 实验流程 |
4.3.1.2 文档表示 |
4.3.1.3 实验分类器选用 |
4.3.1.4 数据集 |
4.3.1.5 性能评价 |
4.3.2 实验结果 |
4.3.3 结果分析 |
4.4 组合特征选取算法 |
4.4.1 基本思想 |
4.4.2 算法描述 |
4.4.3 实验结果与分析 |
4.5 小结 |
5 SVM的快速训练算法研究 |
5.1 统计学习理论简介 |
5.1.1 概述 |
5.1.2 结构风险最小化归纳原理 |
5.1.3 支持向量机 |
5.2 现有SVM训练算法简介 |
5.2.1 块算法 |
5.2.2 工作集算法 |
5.3 三元序贯解析优化训练算法:3SAO |
5.3.1 优化三个拉格朗日乘子 |
5.3.2 缓存和选择被优化乘子的机制 |
5.3.3 优化后的更新 |
5.3.4 复杂性分析 |
5.3.5 算法伪代码 |
5.4 实验结果与分析 |
5.5 小结 |
6 语义SVM及其在线学习算法 |
6.1 概述 |
6.2 语义SVM |
6.2.1 算法描述 |
6.2.2 语义中心集的生成 |
6.3 语义SVM的在线学习 |
6.3.1 算法框架 |
6.3.2 基于3SAO的减量和增量学习 |
6.4 实验结果与分析 |
6.5 小结 |
7 原型系统的设计与实现 |
7.1 需求概述 |
7.2 总体设计与系统架构 |
7.3 系统集成实现 |
7.3.1 接口分析 |
7.3.2 系统流程 |
7.4 原型系统测试 |
7.5 小结 |
8 结束语 |
8.1 本文工作总结 |
8.2 今后研究工作 |
参考文献 |
致谢 |
附录 |
(10)基于迁移主题模型的文本分类方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及意义 |
1.2 国内外研究现状 |
1.2.1 主题模型研究进展 |
1.2.2 迁移学习研究进展 |
1.2.3 小样本学习研究进展 |
1.2.4 类别不均衡研究进展 |
1.3 论文研究内容及创新点 |
1.4 论文组织结构 |
1.5 本章小结 |
第2章 相关方法概述 |
2.1 LDA主题模型 |
2.2 SLDA主题模型 |
2.3 Transformer |
2.3.1 Encoder-Decoder结构 |
2.3.2 自注意力层 |
2.4 Att-BILSTM |
2.4.1 嵌入层 |
2.4.2 BILSTM网络 |
2.4.3 Attention |
2.4.4 基于Att-BILSTM的分类方法 |
2.5 本章小结 |
第3章 迁移主题模型Tr-SLDA |
3.1 Tr-SLDA概率图模型 |
3.2 Tr-SLDA参数估计 |
3.3 Tr-SLDA测试文档主题推断 |
3.4 基于Tr-SLDA文本分类 |
3.5 实验分析 |
3.5.1 数据集和预处理 |
3.5.2 实验结果及分析 |
3.6 本章小结 |
第4章 基于共享层次类的tSLDA迁移主题模型 |
4.1 tSLDA迁移主题模型 |
4.1.1 tSLDA的概率图模型 |
4.1.2 tSLDA-Gibbs采样算法和参数估计 |
4.2 基于tSLDA的迁移学习方法 |
4.2.1 tSLDA模型的测试文档主题推断 |
4.2.2 基于tSLDA模型的文本分类 |
4.3 tSLDA模型评价 |
4.3.1 tSLDA主题模型的困惑度 |
4.3.2 tSLDA模型的领域置信度 |
4.4 实验分析 |
4.4.1 数据集和预处理 |
4.4.2 迁移主题模型t LDA和 tSLDA的主题语义映射 |
4.4.3 基于tSLDA模型的分类结果比较 |
4.5 本章小结 |
第5章 基于SLDA的词粒度分类模型及分类方法 |
5.1 基于SLDA的词粒度分类模型及分类方法WL-TC |
5.1.1 词粒度标注样本的构建 |
5.1.2 WL-TC测试文档类别预测 |
5.2 基于词分类模型的三阶段文本分类方法TSTC |
5.3 实验分析 |
5.3.1 数据集和预处理 |
5.3.2 实验结果及分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
致谢 |
四、基于知识融合的在线文本分类算法——语义SVM(论文参考文献)
- [1]基于情感分析的人机谈判研究[D]. 林萍萍. 广西师范大学, 2021(09)
- [2]基于知识图谱的英语语法智能题库系统研建[D]. 廖子慧. 北京林业大学, 2020(02)
- [3]基于在线百科的社会网络抽取及语义化研究[D]. 林泽斐. 南京大学, 2020(09)
- [4]面向多模态数据的医疗与健康决策支持研究[D]. 甘丹. 天津大学, 2020(01)
- [5]学术论文关键指标智能化评价研究[D]. 杜杏叶. 吉林大学, 2019(02)
- [6]在线问诊服务回答质量评价方法研究[D]. 胡泽. 哈尔滨工业大学, 2019(01)
- [7]面向百科知识库的实体-引文相关性分类技术研究[D]. 马乐荣. 北京理工大学, 2018(06)
- [8]基于知识融合的在线文本分类算法——语义SVM[J]. 代六玲,李雪梅,黄河燕,陈肇雄. 华南理工大学学报(自然科学版), 2004(S1)
- [9]互联网内容监管系统关键技术的研究[D]. 代六玲. 南京理工大学, 2005(02)
- [10]基于迁移主题模型的文本分类方法研究[D]. 郑涵. 山东工商学院, 2021(12)