数据挖掘中事务型数据库的压缩及其应用

一、数据挖掘中事务性数据库的压缩及其应用（论文文献综述）

刘奕^[1]（2020）在《5G网络技术对提升4G网络性能的研究》文中进行了进一步梳理随着互联网的快速发展,越来越多的设备接入到移动网络,新的服务与应用层出不穷,对移动网络的容量、传输速率、延时等提出了更高的要求。5G技术的出现,使得满足这些要求成为了可能。而在5G全面实施之前,提高现有网络的性能及用户感知成为亟需解决的问题。本文从5G应用场景及目标入手,介绍了现网改善网络性能的处理办法,并针对当前5G关键技术 Massive MIMO 技术、MEC 技术、超密集组网、极简载波技术等作用开展探讨,为5G技术对4G 网络质量提升给以了有效参考。

潘文^[2]（2020）在《基于空间关联规则的数据挖掘应用研究 ——以成都市TOD站点选址为例》文中认为随着测绘科学技术的飞速发展,空间数据在采集,存储和管理等手段上不断提高,空间数据呈现出大体量、多时空、多结构的特点,同时空间数据还具有不仅包含对象的基础属性信息,还蕴含着实体间的依存关系、关联关系、制约关系、共生关系等多种隐含信息的特点,因此空间数据是天然的数据挖掘场。当前,空间关联规则挖掘是当前获取地理空间数据中隐含知识的热点技术,对空间实体的隐含信息具有优良的获取能力。本文以成都市TOD（Transit Oriented Development,以公共交通为导向的城市开发模式）站点规划选址为应用切入点,基于成都市基础地理信息数据库,利用空间数据挖掘技术获取与选址相关的关联规则,并以此构建TOD选址相关知识模式,以期为TOD的选址提出建议,同时基于研究实践的总结,本着减少研究中大量人工操作的劳动投入,简化空间数据挖掘难度的原则,设计并实现了空间数据挖掘模块。本文开展工作内容和结论如下:（1）本文通过分析拟规划的TOD站点覆盖范围内原始地理要素的构成情况,结合TOD站点的建设理念与各地理要素的相关性以及已有基础数据的完备程度,确定了7种空间特征作为关联规则挖掘的输入特征。通过设立实验采样点和对照采样点并进行逐点数据采集,建立基础空间数据库,为最终数据挖掘建立数据基底;同时针对传统空间数据关联规则挖掘中空间谓词转换分区的缺陷,结合实际采集数据特点,采用K-means聚类方法对基础数据进行离散化分区,分别对7种空间特征建立分区对照表,克服了量化传统数据分区族内数据相似度不高的问题;（2）针对数据挖掘中无趣规则过滤问题,本文通过设计置信度与支持度的组合实验,确定了20%置信度和20%支持度为当前挖掘实验的最优输入参数值,挖掘结果表明该参数组合不仅有效避免了挖掘结果中无趣规则的生成,同时保障了有趣规则的不丢失。本研究最终共获取到59条与TOD站点选址相关的空间关联规则。在对获取的规则进行整体解释和组合特性分析后,得出了TOD对城市待开发区域的倾向性,植被和水体面面积较低时选址概率更大,道路中心线在选址中具有中立性以及部分空间特征的组合特性等知识,并以此建立了与选址相关知识模式,以期为成都市TOD规划选址提供一定思路。（3）通过空间数据挖掘研究实践的操作,记录和整理了研究过程中因挖掘流程转换导致的数据易丢失,易错乱,易重复的缺陷,分析数据挖掘过程中大量人工操作带来的弊端,论证了数据挖掘模块开发的必要性;结合数据挖掘过程中各个子流程的输入和输出数据标准,将数据挖掘模块拆分为数据采集,数据离散化,算法演算和成果展示4个子模块,设计并最终完成了数据挖掘模块的开发工作,在一定程度上降低了空间数据挖掘研究中的人工成本投入与操作失误机率。

毛莹^[3]（2019）在《基于医疗信息系统的数据挖掘算法研究》文中研究表明随着科技的进步和发展,数据呈现爆炸式增长,如今的社会是快速发展的社会,也是数据社会,随着数据库技术的不断发展和普及,数据存储已经成为可能,海量的数据实现了存储,数据库转化为数据仓库。数据的存储已经不再成为问题,数据的分析和处理逐渐成为学者的研究对象,数据挖掘这门学科诞生。它是研究数据更高级的形式,海量的数据中有不完整,有噪声但是价值极高的数据,针对这些数据,数据挖掘这门学科进行高度智能化分析,通过归纳总结,发掘到数据间一抹的关联,数据挖掘研究两个方面的内容,第一个方面从数据中寻找有用信息,建立初步模型。第二个方面,随着数据的不断加入,可以改善数据挖掘的方法,改善新的模型。随着经济的发展,医疗技术得到了不断的发展,医学需要大量有效的信息和知识,帮助医生可以进行快速的诊治。目前医院已经实现了数字化系统,全世界成千上万的海量数据产生于这些数字系统。本文主要结合医院医疗信息系统使用现状,对数据挖掘技术开展了深刻的研究。主要内容有:一、分析了数据挖掘技术的国内外研究现状。二、研究医院信息系统的发展和体系机构,分析医院系统的主要缺陷。三、研究了数据挖掘技术的方法、流程和常用技术。四、重点研究了Apriori算法在医疗信息系统中的应用。主要完成工作如下:第一,建立数据挖掘基本理论,结合实际分析医疗信息系统的特点,结合基本理论找出数据挖掘的特点,找到适用于医院的数据挖掘算法;第二,对医院的具体数据表结构进行分析,找出数据表的关联关系,根据实际需求建立与医院数据库对应的事实表,对所需的数据进行数据准备操作。第三,建立数据库,为后续的工作打下坚实的基础;第四,利用SQL集成环境创造环境,基于医院的数据库管理系统,建立适用于医院新系统的挖掘模型,选择合适的算法和工具;第五,利用数据模型分析历史医疗数据,并得到其中有价值的信息用来为临床诊断和管理者决策提供依据。最后对研究的结果和问题进行了总结,并且展望未来的研究方向和目标。

梅铮^[4]（2011）在《商业数据流降维方法及其聚类算法研究》文中认为20世纪末,数据流作为一种新的、更切合实际的数据模型广泛出现在众多商业领域。它们具有数据量大、可无限、漂移特征、变化快、要求快速响应、适合于线性扫描、随机存取代价高等特点,且蕴含着企业的运行规律、管理要求、影响因素、变化趋势等价值极高的信息,更能反映企业运行、服务内容、服务对象等动态变化情况,但与此同时,这些具有多变性和无限性的数据流也给计算机带来了存储空间、计算速度和通信能力等方面的挑战。尽管数据挖掘技术在挖掘静态数据集方面已经取得了很多成果,但将它扩展到动态数据流挖掘中,尤其是动态商业数据流挖掘中仍具有很大的挑战性。在动态数据流环境中,快速增长的数据集和数据维数的升高,导致现有针对小数据量及低维空间中的算法性能迅速下降,甚至低维空间中的距离、相似度度量将不复存在。本文采用滑动窗口作为数据流统一管理模型,在此基础上首先针对数据降维,从特征选择和特征抽取两方面对高维数据降维研究现状进行全面细致的综述与分析,并分析了最新关于数据降维的六点研究趋势。同时针对数据聚类,从传统静态和动态数据流两方面对聚类算法进行了比较分析。接着在第二章对前人研究进行综述的基础上提出了两种数据降维方法,第一种是基于粗集理论的数据降维方法,它从事务项和维度两方面对数据进行压缩,一方面在保持维特征的前提下,对事务项进行压缩,增强事务项之间的可识别性能力；另一方面通过对维间相关关系进行假设检验,有效去掉对决策结果无影响的维。第二种是基于粗糙等价类的商业数据预处理方法,它利用决策表中条件属性间相对独立性特点对数据维度进行约简处理,是一种全新降维算法,并对顾客评价表中部分数据进行了实例分析,以此表明该算法能够在保留原始信息的基础上有效进行降维。最后研究了在有限资源约束下的数据流聚类方法,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法。它采用两阶段模型进行聚类操作,使用概要数据进行二次聚类并更新聚类簇。通过实验表明,PDStream算法显现出处理海量数据的优越性以及聚类质量高的特点。并依据数据挖掘全生命周期将PDStream算法应用于某商业领域,取得了预期效果。

宋旭东^[5]（2010）在《企业集团数据仓库系统关键技术研究》文中研究说明企业集团信息化运营过程中积累了大量的设计、生产、库存、销售、采购和财务等业务数据,如何将企业集团海量业务数据转化为决策信息已成为目前企业集团信息化难点和热点问题,数据仓库系统被认为是最好的解决方案。企业集团数据仓库系统是一个复杂的系统,涉及众多复杂的概念和技术。本文就企业集团数据仓库系统中的几个关键技术进行了研究,本文的研究成果为企业集团实施数据仓库系统提供了很好的借鉴作用,有着重要的理论和现实意义。本文的主要工作如下：（1）企业集团数据仓库系统的概念及体系结构的研究。给出了企业集团数据仓库系统的定义,提出了统一视图模型的基本概念,提出了一个基于统一视图模型的数据仓库系统体系结构。（2）数据仓库系统ETL技术的研究。给出了一种新的基于统一视图模型的数据仓库ETL体系结构,提出了一种基于统一视图模型的ETL过程建模和实现方法。同时,针对数据仓库ETL任务调度问题,以数据仓库总的ETL执行时间最短为调度目标,建立了ETL任务调度模型,提出基于同层划分的遗传算法进行模型求解的算法流程。（3）企业集团数据仓库技术的研究。给出了企业集团分布式数据仓库分层结构,提出了一种面向企业集团的分布式数据仓库模型,并总结了分布式数据仓库的实施策略及其关键技术,同时将模型驱动的方法应用到数据仓库模型开发中。（4）企业集团OLAP技术的研究。将模型驱动体系架构的软件开发方法应用到OLAP开发中,该方法在数据仓库系统统一建模框架下,将OLAP设计从逻辑层提升到概念层,在概念层实现OLAP的PIM建模,通过PIM模型到PSM模型及PSM模型到SQL代码转换实现OLAP开发。（5）企业集团数据挖掘技术的研究。提出了一种基于抽样的决策树分类改进算法,使得这种算法在大数据集的情况下也能挖掘出正确的分类规则。将该算法应用到企业生产成本关键工序挖掘上,挖掘出工艺路线中的关键工序和影响钢铁企业成本的分类规则。同时,针对大数据集下的关联规则挖掘,提出了有向项集图的三叉链表式存储结构和基于有向项集图的关联规则挖掘改进算法,通过东北特钢钢企业集团的客户数据关联规则挖掘应用,挖掘出的客户的购买行为和潜在需求规律。（6）企业集团决策支持技术的研究。给出了基于分布式数据仓库的企业集团决策支持系统整体框架,通过定义决策方案层和决策任务模型层,采用分层策略,降低了决策支持系统的复杂性,采用面向对象的软构件方法,将数据和决策算法有效集成,增强了系统的重用性和扩展性。

安康,韩兆洲^[6]（2010）在《对统计学领域数据挖掘研究的反思》文中研究说明数据挖掘是一门新兴交叉学科,近年来受到各界的广泛关注。统计学者从统计学视角开展了数据挖掘理论及应用研究,并取得了一定的研究成果。文章对相关着作和论文进行了分析研究,并在此基础上展望了数据挖掘的研究趋势。

席景科^[7]（2010）在《时空孤立点检测算法研究》文中指出相对于数据采集技术的飞速发展,数据挖掘技术的进展相对缓慢,这种情况在时空孤立点检测方面显得尤为突出,也就出现了“空间数据爆炸而知识贫乏”的现象,急需开发空间数据挖掘技术以发现隐藏在海量空间数据背后的知识。时空孤立点检测作为空间数据挖掘中的一个重要研究分支,是为了找到与时空邻居对象有显着差别的时空对象,它们的数量很少或几乎没有,非常容易被当作数据噪声而被忽略。然而识别时空孤立点能够发现一些意想不到的、有意义的时空模式。论文以空间数据挖掘理论为基础,对空间孤立点检测及时空孤立点检测等问题进行了深入的研究,将信息熵理论、LLE降维算法引入到空间孤立点及时空孤立点检测研究中,弥补了现有空间孤立点检测及时空孤立点检测算法的不足。提出了一种基于图的空间权重孤立点检测算法。多数空间孤立点检测算法源于传统聚类方法或孤立点检测方法,使用空间对象的空间属性确定空间邻居对象,使用空间对象的非空间属性评价空间对象间的差异,从而发现空间孤立点。这种做法忽略了空间对象的空间属性与非空间属性间的内在联系,没有充分挖掘空间属性对空间对象间差异计算的贡献。本文提出了一种基于图的空间权重孤立点检测算法。通过引进信息熵理论计算空间属性重要因子,为空间邻居分配权重系数的方法,将空间属性和非空间属性结合起来对空间对象间的差异进行评价,并使用基于图的方法检测空间孤立点。该算法充分考虑了空间属性在评价空间对象间差异过程中的作用,解决了在空间孤立点检测过程中将空间属性和非空间属性割裂使用的问题。提出了一种基于改进型LLE的时空孤立点检测算法。时空孤立点检测作为一个较新的研究课题,面临时空邻居界定、算法效率低、传统孤立点检测方法不适用等问题。针对上述问题,本文提出了一种基于改进型LLE的时空孤立点检测算法。首先使用改进的LLE算法将高维时空数据映射为低维数据,其次应用时空异常系数的方法检测时空孤立点。该算法充分考虑了时空对象各种属性的作用,能够有效的将高维数据映射为低维数据,并保持数据的局部拓扑结构不变,从而解决了从高维时空数据集中发现孤立点的难题。设计开发了时空孤立点检测原型系统。针对时空孤立点检测研究和应用的需求,遵循软件工程规范设计开发了时空孤立点检测原型系统,该系统具有较为先进的体系架构、较强的可扩展性和实用性,基本实现了对空间孤立点和时空孤立点的检测分析,并使用真实数据集进行了测试。

马修强^[8]（2009）在《多水平模型和关联规则联合研究胃食管反流病影响因素》文中研究指明研究背景:胃食管反流病（Gastroesophageal reflux disease,GERD）以烧心和反酸为主要的特征性症状,在西方国家人群中是一种常见的胃肠疾病。已有研究结果表明,亚洲人群的GERD发病率较西方人群低,但目前西方及亚洲人群的GERD发病率都呈现增长的趋势。GERD患者不仅容易合并其他食管合并症,而且患食管腺癌的危险也大大增加。GERD不仅使患者的生活质量受到显着影响,还给患者造成了较大的经济负担。因此,西方多个国家的研究者对于GERD发病情况及其影响因素进行了流行病学调查研究。然而,在中国,人们对于GERD的认知程度还比较低,对其危害还没有足够的认识;而针对GERD的基于中国一般人群采用国际标准化量表进行的高质量流行病学调查也非常有限。为了调查GERD在中国一般人群的症状患病情况,研究其影响因素的相关信息,我们在中国大陆进行了一项大规模的GERD流行病学调查。本调查采用多阶段分层随机抽样的方法和自填式的问卷调查方式,共在上海、北京、武汉、西安和广州五个城市获得有效调查问卷16078份。本调查收集的资料丰富,且数据存在明显的层次结构特征,并包含一定的缺失值。而传统统计方法对于此类数据的处理存在明显的局限性,如要求各观察值相互独立、无缺失值等。研究目的:为了克服传统统计方法的局限性,本研究探讨了联合应用关联规则和多水平模型,以更加科学、合理的分析和挖掘中国大陆GERD流行病学调查资料,研究和筛选GERD的影响因素,以提高人们对GERD的认知程度,为GERD的早期预防和治疗提供一定的理论依据。研究方法:关联规则挖掘算法作为数据挖掘中的一种经典算法,具有较强的处理不完整数据的能力,可以充分发现隐藏在数据中的未知的、新颖的模式,对数据的整体理解和进一步分析提供参考。采用关联规则挖掘算法不仅可以减少缺失值的影响,而且还可以发现那些潜在的影响因素,及其相互之间的关系和对GERD的联合作用,并为随后的多水平模型建模时解释变量的选择提供依据。多水平模型是国外近些年发展起来的处理多水平数据的一种多元统计方法,已广泛应用于多个领域。多水平数据的组群间具有一定的组间异质性,即存在一定的组内同质性,不符合多元线性回归等传统统计方法要求各观察单位相互独立的假设,而多水平模型则克服了传统统计方法的局限性,减少了估计偏倚。因此,本研究在关联规则初步挖掘出的GERD影响因素的基础上,采用多水平模型建模,以解决传统统计方法因忽略数据的层次结构所带来的问题,更科学的揭示GERD的影响因素。研究结果:本研究系统总结了关联规则挖掘的基本理论和主要算法,以及规则有趣性的度量方法。然后,利用SAS/EM中经典的Apriori算法进行了关联规则挖掘。规则产生后,首先采用模板匹配的方式进行规则的初步筛选,再通过将可信度的提高倍数定为0.05的方法进行多项规则的剪除,最后根据常用的客观度量指标的相关性分析结果,选择了Lift值、PS值、Interest值、Fitness函数、列联系数、Fisher确切概率6个度量指标进行规则有趣性的度量。根据最终选取的规则,本研究发现调查点、调查区域（城市、农村）、性别、年龄、吸烟、饮酒、婚姻状况、家庭月收入、职业、健康状况、文化程度、精神状况、体力活动或体育锻炼、胃肠疾病或肿瘤家族史等被调查者基本信息,部分既往患病史（如消化不良、慢性胃炎、风湿性关节炎、慢性咽喉炎、腹部手术史等）,以及肠易激综合征、吞气症、非特异性肠功能紊乱等现患疾病对胃食管反流症状有影响。总之,本研究利用关联规则挖掘算法,不仅对GERD的影响因素有了初步的了解,而且为后续的多水平模型建模时解释变量的选择提供了参考。然后,本研究系统回顾了多水平模型的基本理论和建模步骤,以及残差自助法多水平模型的建模方法。通过对GERD流行病学调查数据结构特征的分析,最终确定以街道（乡镇）为水平2单位,以居民为水平1单位,拟合两水平的多水平模型。本研究通过“拟合空模型→将水平2解释变量“调查点”纳入空模型→采用前进法筛选纳入水平1解释变量→检验水平1解释变量的随机斜率→检验跨层交互作用”这五个步骤,建立了本研究的最终模型。另考虑到本研究水平2组群数相对较少,且水平1残差e ij不服从正态分布,不符合最大似然法的应用假设,故本研究又基于最终模型分别采用非参数和参数残差自助法进行模型拟合,以减少模型拟合造成的偏倚。研究结果表明,非参数法和参数法的拟合结果多数与原始样本比较接近,只是参数法的标准误相对较非参数法稍大,尤其是水平1残差方差σ? 2的标准误远远大于非参数法和原始样本,与我们的理论假设是一致的。原因在于,原始样本的水平1残差eij不服从正态分布,非参数法考虑了这一点,而参数法则假设其服从正态分布。总之,多水平模型分析结果显示,与广州相比,上海、北京和西安居民的GERD总评分没有明显的差异,而武汉居民的GERD总评分则相对较高,即表示武汉的GERD发病率在5个调查城市中相对较高;居民的总体健康状况越差,其GERD总评分越高,且其对GERD总评分的影响受到武汉与广州之间地域差异的影响;农村居民、文化程度越低、精神状况越差者更容易患GERD;另外,那些有胃肠道疾病或肿瘤家族史,既往患有胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,患GERD的可能性更大,而性别、年龄等因素,本研究未发现其与GERD有显着的关系。而上述结论中,除了未发现城市居民和农村居民在GERD发病方面有显着差异之外,非参数法和参数法的其他结论与原始样本基本一致。研究结论:本研究采用国际规范的标准化量表,在中国大陆进行了截至目前为止规模最大的一次GERD流行病学调查,建立了中国大陆GERD流行病学调查数据库,并深入分析了GERD的影响因素。结果表明,在调查的五个城市中武汉的GERD发病情况最重;农村居民、文化程度越低、健康状况和精神状况越差者,以及有胃肠道疾病或肿瘤家族史的人更可能患GERD;而那些既往患有慢性胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,同样也更可能患GERD。而性别、年龄、吸烟、饮酒、家庭收入、婚姻状况、职业、体力活动或体育锻炼等因素,以及慢性咽喉炎、腹部手术史和非特异性肠功能紊乱等疾病可能也与GERD有关联关系。总之,本研究首次将关联规则挖掘技术和多水平模型联合应用于GERD流行病学调查资料的分析,克服了传统统计方法的局限性,更科学的研究和评价了GERD的影响因素,提高了人们对于GERD的认知程度,为更好地防治GERD提供了一定的理论依据。而本研究所进行的多水平模型和关联规则挖掘技术的联合应用研究对于其他流行病学调查资料的分析在方法学方面亦有一定的参考价值。

田政雄^[9]（2008）在《基于小波变换的时间序列挖掘研究》文中研究表明时间序列是按时间顺序排列的,随时间变化且相互关联的数据序列,在金融、科学观测和工程等各个领域都广泛存在。如何有效的管理和利用这些数据,发现这些数据背后隐含的规律和知识,是人们广泛关注,具有重要意义的理论和实际应用课题。数据挖掘的方法主要有统计方法、机器学习方法、神经网络方法和数据库方法。本文主要研究了小波变换应用到时间序列挖掘中的方法,包括小波变换在时间序列属性约简,时间序列相似性匹配,时间序列奇异点检测中的应用,根据小波变换的多分辨性提出了基于小波变换的聚类算法,重点研究了时间序列挖掘中的多层次相似性匹配和多层次频繁模式挖掘问题。主要研究成果如下:1.小波变换改进传统聚类算法针对传统聚类算法如k-Means算法中初始聚类中心是随机选择的,不太合理的问题,提出了基于小波分析的时间序列聚类算法W-kMeans算法,一算出时间序列的Haar分解系数,就在这些系数上运用k-Means聚类算法,从第二个层次开始,再渐渐的进行到更高的层次上。2.时间序列的多尺度相似性模式匹配改进了现有的时间序列多尺度相似匹配算法,现有算法中序列的片段相似标准仅仅考虑了两个片段的倾角而没有考虑长度,本文结合时间序列的KL相似性度量提出了一种更好更合理的多尺度时间序列相似模式匹配算法。并根据小波变换的多尺度性提出一种更有效,更合理的方法来解决时间轴伸缩问题,进行更长时间的模式匹配。3.时间序列的多尺度频繁模式挖掘时间序列本身有长期和短期之分,挖掘时间序列的多尺度模式有着重要的现实意义,本文首次提出了多尺度频繁模式挖掘的概念,并根据小波变换的多分辨性,提出了基于小波变换的时间序列多尺度频繁模式挖掘算法,本算法首先对原序列进行小波变换,然后在变换后的序列上挖掘频繁模式,并结合了基于重要点分段方法和互关联后继树方法,能挖掘出不同尺度的频繁模式。

张佳民^[10]（2008）在《基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用》文中指出近年来,数据仓库系统在电信业、银行业、零售业、政府机关等都有广泛的应用。数据仓库系统数据量迅速增长和对数据仓库系统需求的发展,对当代数据仓库系统有了新的要求,因此对数据仓库系统及其相关技术的研究有着重要的现实意义。本文通过对实现数据仓库系统的数据仓库、OLAP、数据挖掘三方面技术进行研究,最后以某市公安信息系统为例,设计实现了公安数据仓库系统。在数据仓库设计技术方面,主要包括实时数据仓库架构的设计和维护数据仓库中缓慢变化维的代理键的研究。实验表明:基于系统数据日志的实时ETL算法和混合型实时数据仓库架构,实现了实时数据仓库与业务系统数据零延时的要求;在数据仓库中,代理键自增序列算法的使用,除了可以维护缓慢变化维,还可以极大的缩减数据仓库的存储容量。在OLAP研究方面,主要研究了OLAP的实现技术与数据存储技术,提出了MOLAP基于Cuboid的数据立方体压缩存储算法,和基于该存储结构的解压缩算法和语义查询算法。实验表明:该算法在压缩稀疏数据的同时,改进了以往多维数组压缩算法对非稀疏数据的敏感性,解决了索引维信息冗余问题。在数据挖掘研究方面,介绍了数据挖掘在数据仓库中的应用,提出最大模糊后验假设,对朴素贝叶斯分类算法进行改进,并与OLAP结合,设计了基于数据立方体的改进朴素贝叶斯分类算法,实验通过对模糊系数的调整,明显提高了朴素贝叶斯分类算法的准确率。在公安数据仓库系统设计方面,结合了公安现有的信息管理系统、全国刑侦联查系统数据接口,设计实现了行政治安和全国刑事侦查两个数据集市组成的实时数据仓库系统。

二、数据挖掘中事务性数据库的压缩及其应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据挖掘中事务性数据库的压缩及其应用（论文提纲范文）

（1）5G网络技术对提升4G网络性能的研究（论文提纲范文）

引言

1 4G网络现处理办法

2 4G网络可应用的5G关键技术

2.1 Msssive MIMO技术

2.2 极简载波技术

2.3 超密集组网

2.4 MEC技术

3 总结

（2）基于空间关联规则的数据挖掘应用研究 ——以成都市TOD站点选址为例（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 TOD模式应用现状

1.2.2 GIS在选址决策中的应用现状

1.2.3 空间数据挖掘研究现状

1.3 研究目标及内容

1.4 论文组织结构

第2章相关理论及技术路线

2.1 空间数据对象及关系

2.1.1 空间对象的概念

2.1.2 关联规则基础知识

2.1.3 空间对象的关联规则

2.2 空间数据挖掘

2.2.1 数据挖掘的三要素

2.2.2 空间数据挖掘方法分类

2.2.3 空间关联规则挖掘过程

2.3 空间关联规则挖掘算法

2.3.1 Apriori算法

2.3.2 FP-tree算法

2.4 本章小结

第3章数据处理及事务数据库构建

3.1 采样点介绍

3.1.1 成都市的轨道交通发展

3.1.2 成都市TOD建设规划

3.1.3 采样点选定

3.2 空间特征数据库建立

3.2.1 空间特征选取

3.2.2 空间基础信息数据采集

3.2.3 空间数据的检查和清洗

3.2.4 数据的空间特征提取

3.3 构建布尔型事务数据库

3.3.1 量化规则挖掘中的缺陷

3.3.2 数据离散化处理及结果

3.3.3 事务数据库构建

3.4 本章小结

第4章空间数据挖掘及知识模式构建

4.1 空间数据挖掘

4.1.1 软件准备

4.1.2 Apriori算法参数筛选

4.1.3 数据挖掘结果收集

4.2 知识模式构建

4.2.1 TOD选址知识模式

4.2.2 特征组合知识模式

4.3 本章小结

第5章基于空间特征的数据挖掘模块实现

5.1 模块开发的需求分析

5.1.1 重复统计数值工作的减负

5.1.2 数据挖掘流程的精细管理

5.1.3 规划行业数据挖掘的需求

5.2 数据挖掘模块设计

5.3 模块开发技术

5.4 模块功能实现

5.4.1 空间特征统计子模块

5.4.2 数据离散化分区子模块

5.4.3 数据挖掘子模块

5.5 本章小结

结论

致谢

参考文献

（3）基于医疗信息系统的数据挖掘算法研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景

1.1.1 选题目的

1.1.2 选题意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 论文结构

2 相关概念与技术介绍

2.1 数据挖掘概念

2.1.1 数据挖掘模型

2.1.2 数据挖掘方法

2.1.3 数据挖掘一般流程

2.1.4 数据挖掘功能

2.1.5 数据挖掘研究方向

2.2 常用数据挖掘技术

2.3 医疗数据挖掘算法对比分析

3 关联规则算法分析

3.1 关联规则算法概述

3.2 Apriori算法分析

3.2.1 算法概述

3.2.2 Apriori算法性能分析

3.3 关联规则应用举例

4 关联规则数据挖掘在HIS中应用

4.1 项目背景

4.2 医院管理系统简介

4.2.1 医院管理系统发展

4.2.2 医院管理体系结构

4.2.3 医学数据挖掘意义

4.3 医学数据挖掘基本过程

4.4 医疗数据处理模型

4.5 数据挖掘在医院管理系统应用实例

4.5.1 算法实现过程分析

4.5.2 数据分析

4.5.3 数据提取

4.5.4 数据处理

4.5.5 数据集成

4.5.6 实验结论

4.5.7 算法实际应用

总结与展望

参考文献

附录程序关键代码

致谢

（4）商业数据流降维方法及其聚类算法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景

1.2 研究目的和意义

1.3 研究现状

1.4 本文研究内容及组织结构

第2章数据流降维方法及其聚类算法研究综述

2.1 数据流降维方法研究综述

2.1.1 特征选择

2.1.2 特征抽取

2.1.3 降维算法分析与展望

2.2 聚类算法研究综述

2.2.1 传统聚类算法

2.2.2 传统聚类算法分析

2.2.3 数据流聚类算法

2.2.4 数据流聚类算法分析

2.3 本章小节

第3章基于粗集理论的数据降维方法

3.1 引言

3.2 问题描述与研究现状

3.3 基于粗集理论的事务项压缩及降维方法

3.3.1 基于粗集的事务项压缩方法

3.3.2 基于相关关系的属性压缩方法

3.4 基于粗糙等价类的商业数据预处理方法

3.4.1 数据预处理

3.4.2 粗糙等价类属性约简模型

3.4.3 算法实例分析

3.5 本章小结

第4章基于密度的数据流聚类算法及其商业实例应用

4.1 问题描述

4.2 数据流管理模型及算法架构

4.3 主成分和密度融合的数据流聚类模型

4.3.1 主成分分析模型

4.3.2 基于密度的聚类算法

4.4 PDStream算法设计

4.4.1 基本思想

4.4.2 算法设计

4.4.3 PDStream算法时间复杂度

4.4.4 算法分析

4.5 性能分析与测试

4.5.1 执行时间比较

4.5.2 聚类质量比较

4.5.3 参数影响

4.6 PDStream算法商业实例分析

4.7 本章小结

第5章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

附录

（5）企业集团数据仓库系统关键技术研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 课题的研究背景及意义

1.2 课题的国内外研究现状

1.3 目前存在问题

1.4 本文主要工作

1.5 论文结构

2 数据仓库系统基本概念

2.1 数据仓库系统定义

2.2 数据仓库系统体系结构

2.2.1 统一视图模型基本概念

2.2.2 基于统一视图模型的数据仓库系统体系结构

2.2.3 面向领域工程的统一视图模型的确立

2.3 数据仓库系统相关技术概述

2.3.1 ETL技术

2.3.2 数据仓库技术

2.3.3 联机分析处理技术

2.3.4 数据挖掘技术

2.3.5 决策支持技术

2.4 本章小结

3 企业集团ETL技术

3.1 基于统一视图模型的ETL体系结构

3.2 基于统一视图模型的ETL过程建模与实现

3.2.1 基于统一视图模型的ETL过程建模方法的提出

3.2.2 基于统一视图模型的ETL过程元模型

3.2.3 基于统一视图模型的ETL过程建模

3.2.4 基于统一视图模型的ETL过程实现

3.3 数据仓库系统ETL任务调度模型

3.3.1 数据仓库ETL任务调度问题的提出

3.3.2 数据仓库ETL任务调度问题描述

3.3.3 ETL调度模型建立

3.3.4 ETL调度模型求解

3.3.5 ETL任务调度实例

3.4 本章小结

4 企业集团数据仓库技术

4.1 企业集团分布式数据仓库体系结构

4.1.1 企业集团数据环境特性

4.1.2 企业集团数据仓库体系结构

4.1.3 东北特钢集团数据仓库应用框架

4.2 企业集团分布式数据仓库建模

4.3 企业集团数据仓库模型驱动开发方法

4.3.1 模型驱动体系架构简介

4.3.2 基于MDA的数据仓库模型驱动开发框架

4.3.3 基于MDA的数据仓库模型驱动开发过程

4.3.4 基于MDA的数据仓库PIM和PSM元模型

4.3.5 基于MDA的数据仓库模型转换

4.3.6 基于MDA的数据仓库模型驱动实现

4.3.7 企业集团数据仓库模型开发实例

4.4 企业集团分布式数据仓库实施

4.4.1 企业集团数据仓库实施策略

4.4.2 企业集团数据仓库实施技术

4.5 本章小结

5 企业集团联机分析处理技术

5.1 基于MDA的OLAP开发方法的提出

5.2 基于MDA的OLAP集成开发框架

5.3 基于MDA的OLAP开发

5.3.1 OLAP模型开发过程

5.3.2 OLAP PIM元模型定义

5.3.3 OLAP PSM元模型定义

5.3.4 PIM模型到PSM模型转换

5.3.5 PSM模型到SQL代码的转换

5.3.6 基于MDA的OLAP模型实现

5.4 OLAP开发应用实例

5.5 本章小结

6 企业集团数据挖掘技术

6.1 基于抽样的决策树分类改进算法及应用

6.1.1 基于抽样的决策树分类改进算法的提出

6.1.2 基本概念和相关技术

6.1.3 基于抽样的决策树分类改进算法

6.1.4 决策树数据挖掘应用研究

6.2 关联规则挖掘改进算法及应用

6.2.1 关联规则改进算法的提出

6.2.2 有向项集图的三叉链表式存储结构

6.2.3 基于有向项集图的关联规则挖掘算法

6.2.4 关联规则数据挖掘应用研究

6.3 本章小结

7 企业集团决策支持技术

7.1 企业集团决策支持信息模型

7.2 企业集团决策支持系统结构

7.2.1 企业集团决策方案

7.2.2 企业集团决策支持系统层次结构

7.2.3 企业集团决策支持系统流程

7.2.4 企业集团决策方案执行流程

7.3 企业集团决策支持系统应用研究

7.3.1 企业集团建模体系结构

7.3.2 企业集团决策支持系统应用框架

7.3.3 东北特钢集团决策支持系统应用实例

7.4 本章小结

结论

参考文献

创新点摘要

攻读博士学位期间发表学术论文情况

致谢

作者简介

（6）对统计学领域数据挖掘研究的反思（论文提纲范文）

1 统计学领域对数据挖掘研究的现状

1.1 研究成果

1.2 研究阶段

1.3 研究内容

2 统计学领域数据挖掘研究兴起的原因

2.1 社会支持

2.2 学术支持

3 统计学领域数据挖掘研究的定位

3.1 研究内涵

3.2 研究对象和方法

4 统计学领域数据挖掘研究的趋势

4.1 数据挖掘应用领域研究将深入化、全面化

4.2 空间数据挖掘

4.3 Web数据挖掘

4.4 图像挖掘和视频挖掘

4.5 数据挖掘语言的标准化

4.6 数据挖掘中的隐私保护和信息安全

（7）时空孤立点检测算法研究（论文提纲范文）

致谢

摘要

Abstract

Extended Abstract

图清单

表清单

1 绪论

1.1 研究背景及意义

1.2 孤立点检测研究现状

1.3 研究动机与目的

1.4 研究内容

1.5 论文结构

2 空间数据挖掘技术与计算模型

2.1 空间数据挖掘技术

2.2 空间数据预处理

2.3 空间关系计算模型

2.4 本章小结

3 孤立点检测理论与方法

3.1 传统孤立点检测

3.2 空间孤立点检测

3.3 时空孤立点检测

3.4 本章小结

4 基于图的空间权重孤立点检测算法

4.1 空间孤立点定义

4.2 基于图的空间孤立点检测算法

4.3 基于图的空间权重孤立点算法检测

4.4 应用实例

4.5 本章小结

5 基于改进型LLE 的时空孤立点检测算法

5.1 孤立点的时空邻居特征

5.2 时空孤立点检测

5.3 LLE 降维算法

5.4 基于改进型LLE 的时空孤立点检测算法

5.5 应用实例

5.6 本章小结

6 时空孤立点检测原型系统

6.1 空间数据挖掘系统的发展

6.2 时空孤立点检测需求分析

6.3 原型系统设计与实现

6.4 应用实例

6.5 本章小结

7 结论与展望

7.1 主要工作

7.2 创新点

7.3 展望

参考文献

作者简历

学位论文数据集

（8）多水平模型和关联规则联合研究胃食管反流病影响因素（论文提纲范文）

摘要 ABSTRACT 缩略词表第一部分前言

一、研究背景

（一）胃食管反流病

（二）关联规则挖掘

（三）多水平模型

二、研究内容与方法

（一）研究内容

（二）研究方法

（三）研究目的与意义

（四）资料来源、分析工具第二部分中国大陆GERD 流行病学调查

一、调查内容

（一）被调查者的基本信息

（二）反流性疾病问卷

（三）简化的ROME II 组合问卷

二、调查过程

（一）准备工作

（二）抽样

（三）质量保证机制第三部分关联规则挖掘基本理论、实现及规则有趣性的度量

一、关联规则挖掘基本理论

（一）关联规则挖掘的基本概念

（二）关联规则挖掘的分类

（三）关联规则挖掘的主要算法

二、关联规则挖掘的实现

（一）数据的预处理

（二）参数的设置及规则的产生

（三）规则的显示

三、关联规则的有趣性度量

（一）主观度量

（二）客观度量

（三）常用的客观度量指标第四部分关联规则挖掘应用于GERD 影响因素分析

一、数据来源及数据的预处理

（一）数据来源

（二）数据的预处理

二、规则的产生及初步筛选

（一）规则的产生

（二）规则的初步筛选

（三）多项规则的裁剪

三、规则有趣性的度量

（一）度量指标的相关性分析

（二）利用度量指标选取有趣的规则

四、小结第五部分多水平模型的理论框架

一、多水平模型的基本理论

（一）多水平数据的基本形式

（二）多水平模型的基本形式

（三）模型估计及假设检验

二、多水平模型的建模步骤

（一）运行空模型

（二）将组水平解释变量纳入空模型

（三）将水平1 解释变量纳入随机截距模型

（四）检验水平1 解释变量的随机斜率

（五）检验模型中的跨水平交互作用

三、自助法多水平模型

（一）非参数残差自助法多水平模型

（二）参数残差自助法多水平模型第六部分多水平模型研究GERD 影响因素

一、数据来源和变量描述

二、多水平模型的拟合

（一）运行空模型

（二）将水平2 解释变量纳入空模型

（三）将水平1 解释变量纳入随机截距模型

（四）模型中随机斜率的检验和确定

（五）检验跨层交互作用，确定最终模型

三、残差自助法多水平模型的拟合

四、小结第七部分讨论

一、中国大陆GERD 流行病学调查的意义和必要性

二、关联规则挖掘进行胃食管反流症状影响因素分析

三、多水平模型研究应用于GERD 影响因素分析

四、GERD 影响因素综合分析

五、研究的特色和创新点

六、尚待继续探讨的问题参考文献致谢综述

综述一：关联规则挖掘算法综述

综述二：多水平模型研究综述附录1：反流性疾病问卷附录2：简化的ROME Ⅱ组合问卷附录3：SAS 程序附录4：博士研究生期间公开发表的文章

（9）基于小波变换的时间序列挖掘研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景和意义

1.1.1 数据挖掘概述

1.1.2 频繁模式挖掘的基本概念

1.1.3 时间序列挖掘中的关键问题

1.2 国内外研究现状

1.2.1 传统的时间序列分析方法

1.2.2 时间序列频繁模式挖掘

1.3 本文的主要工作和结构

第二章时间序列数据挖掘概述

2.1 时间序列相似性查询

2.1.1 时间序列数据表示

2.1.2 时间序列数据分割

2.1.3 相似性度量

2.2 时间序列模式挖掘

2.2.1 时间序列主题模式挖掘

2.2.2 时间序列周期模式挖掘

2.2.3 时间序列关联规则，序列模式的挖掘

2.3 时间序列的分类，聚类和异常检测

2.3.1 时间序列分类问题

2.3.2 时间序列聚类问题

2.3.3 时间序列异常检测

2.4 多时间序列和多维时间序列的挖掘

2.5 本章小结

第三章小波变换及其在时间序列挖掘中的应用

3.1 小波分析基本理论

3.2 小波分析在时间序列挖掘中的应用

3.2.1 小波分析与时间序列特征提取

3.2.2 小波分析与时间序列奇异点检测

3.2.3 小波分析与时间序列聚类

3.3 本章小结

第四章基于小波变换的多尺度相似模式的匹配

4.1 相关工作

4.2 特征提取

4.3 时间序列的斜率表示法与KL表示法

4.4 线性模式的KL相似性度量与动态模式匹配距离

4.5 多尺度匹配算法

4.5.1 总体算法

4.5.2 多尺度形状特征提取

4.5.3 多尺度序列片段斜率和长度的计算

4.5.4 多尺度形状的逼近匹配

4.5.5 多尺度匹配算法的一个改进

4.6 本章小结

第五章基于小波变换的时间序列频繁模式挖掘

5.1 时间序列频繁模式挖掘概念

5.2 时间序列频繁模式挖掘的相关工作

5.3 传统的时间序列频繁模式挖掘方法

5.4 基于小波变换的时间序列多尺度频繁模式挖掘

5.4.1 时间序列多尺度模式挖掘的概念

5.4.2 基于小波分析的时间序列多尺度模式挖掘

5.5 实验与分析

5.6 本章小结

第六章总结与展望

6.1 全文总结

6.2 研究展望

参考文献

发表论文和科研情况说明

致谢

（10）基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用（论文提纲范文）

提要

第一章绪论

1.1 数据仓库系统发展的背景

1.1.1 数据仓库起源

1.1.2 数据仓库与OLAP及数据挖掘的关系

1.2 国内外发展现状

1.3 本文的研究工作

第二章数据仓库体系结构设计

2.1 数据仓库系统的数据组织形式

2.2 数据仓库的关键技术

2.3 数据仓库维度建模技术

2.3.1 星型模型

2.3.2 雪花模型

2.4 混合型架构的实时数据仓库

2.4.1 引入ODS构建实时数据仓库

2.4.2 构建实时数据仓库体系架构

2.4.3 缓慢变化维

2.4.4 代理键自增序列算法设计

2.5 实时增量ETL设计

2.5.1 增量数据的ETL方法研究

2.5.2 基于系统日志的实时增量ETL算法设计

2.6 实验

2.6.1 代理键自增序列算法性能分析与实验

2.6.2 基于系统日志实时增量ETL实验

2.7 小结

第三章 OLAP 相关技术研究

3.1 OLAP的基本多维分析操作

3.2 OLAP的体系结构

3.3 OLAP的实现技术

3.4 基于MOLAP数据立方体压缩存储设计

3.4.1 Cuboid重复数据压缩结构

3.4.2 维层次及成员编码设计

3.4.3 基于Cuboid的压缩DataCube生成算法

3.5 基于压缩Cuboid的DataCube查询

3.5.1 多维数据查询语句分解

3.5.2 基于Cuboid的压缩数据解压缩算法

3.5.3 多维数据的点查询以及语义查询

3.6 实验

3.7 小结

第四章数据挖掘算法研究与应用

4.1 数据挖掘与传统分析方法的区别和处理步骤

4.2 数据挖掘的研究内容

4.3 OLAM技术研究

4.4 基于数据立方体的贝叶斯数据挖掘分类算法设计

4.4.1 朴素贝叶斯分类

4.4.2 基于数据立方体的改进朴素贝叶斯分类算法

4.5 数据挖掘其他应用

4.5.1 关联规则算法获取关联知识

4.5.2 时间序列算法获取预测知识

4.6 基于数据立方体的改进朴素贝叶斯分类算法实验

4.7 小结

第五章公安数据仓库系统设计实现

5.1 背景与需求分析

5.2 公安数据仓库系统总体设计

5.3 公安数据仓库设计实现

5.3.1 公安数据集市维度建模

5.3.2 公安混合型实时数据仓库架构

5.3.3 使用代理键更新数据

5.4 公安数据仓库系统功能设计

5.4.1 公安数据仓库系统实时警情通报

5.4.2 公安数据仓库系统多维分析

5.4.3 公安数据仓库系统报表统计功能

5.4.4 公安数据仓库系统挖掘预测功能

5.5 小结

第六章总结与展望

参考文献

摘要

Abstract

致谢

四、数据挖掘中事务性数据库的压缩及其应用（论文参考文献）

[1]5G网络技术对提升4G网络性能的研究[J]. 刘奕. 数码世界, 2020(04)
[2]基于空间关联规则的数据挖掘应用研究 ——以成都市TOD站点选址为例[D]. 潘文. 成都理工大学, 2020(04)
[3]基于医疗信息系统的数据挖掘算法研究[D]. 毛莹. 内蒙古科技大学, 2019(03)
[4]商业数据流降维方法及其聚类算法研究[D]. 梅铮. 浙江工商大学, 2011(07)
[5]企业集团数据仓库系统关键技术研究[D]. 宋旭东. 大连理工大学, 2010(09)
[6]对统计学领域数据挖掘研究的反思[J]. 安康,韩兆洲. 统计与决策, 2010(10)
[7]时空孤立点检测算法研究[D]. 席景科. 中国矿业大学, 2010(04)
[8]多水平模型和关联规则联合研究胃食管反流病影响因素[D]. 马修强. 第二军医大学, 2009(10)
[9]基于小波变换的时间序列挖掘研究[D]. 田政雄. 天津大学, 2008(09)
[10]基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用[D]. 张佳民. 吉林大学, 2008(11)

标签：数据挖掘论文; 时间序列论文; 关联规则论文; 数据仓库论文; 大数据论文;

数据挖掘中事务型数据库的压缩及其应用

一、数据挖掘中事务性数据库的压缩及其应用（论文文献综述）

二、数据挖掘中事务性数据库的压缩及其应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、数据挖掘中事务性数据库的压缩及其应用（论文提纲范文）

（1）5G网络技术对提升4G网络性能的研究（论文提纲范文）

（2）基于空间关联规则的数据挖掘应用研究 ——以成都市TOD站点选址为例（论文提纲范文）

（3）基于医疗信息系统的数据挖掘算法研究（论文提纲范文）

（4）商业数据流降维方法及其聚类算法研究（论文提纲范文）

（5）企业集团数据仓库系统关键技术研究（论文提纲范文）

（6）对统计学领域数据挖掘研究的反思（论文提纲范文）

（7）时空孤立点检测算法研究（论文提纲范文）

（8）多水平模型和关联规则联合研究胃食管反流病影响因素（论文提纲范文）

（9）基于小波变换的时间序列挖掘研究（论文提纲范文）

（10）基于数据仓库体系结构的OLAP和数据挖掘技术的研究与应用（论文提纲范文）

四、数据挖掘中事务性数据库的压缩及其应用（论文参考文献）

猜你喜欢