一、基因识别计算方法的回顾与展望(论文文献综述)
尚海霞[1](2021)在《基于生物分子网络的致病基因识别方法研究》文中研究指明重大疾病的致病机理非常复杂。从遗传角度来看,复杂疾病是由基因-基因、基因-环境交互作用导致的结果,因此寻找致病基因是复杂疾病研究中的核心问题。基于高通量技术获得的多组学数据,能从不同层面反映复杂疾病分子变化图谱,有助于揭示复杂疾病致病机理。因此,开发高效的生物信息学方法,从多组学数据中识别出复杂疾病的致病基因成为非常关键的科学问题。现有研究方法大多基于连锁分析和全基因组关联分析,不能有效确定致病基因,同时存在成本高和假阳性多的问题。在细胞中,分子之间通常以相互作用网络的形式发挥具体的生物学功能,因此需从分子网络角度来识别致病基因。在分子网络中识别致病基因应用最广泛的是随机游走算法,尤其是PageRank算法。该算法虽在识别致病基因方面取得一定的研究进展,但在整合多组学数据、对应多层分子网络数据和遗传信息先验知识方面仍有较大的提升空间。本论文基于随机游走算法,同时整合多组学数据、对应多层分子网络和遗传信息先验知识,在不同应用背景下结合生物分子网络对致病基因、致病模块的识别方法进行了系统研究,分别提出了双层异质分子网络的双层排序算法、多层生物分子网络的整合排序算法、高维分子网络的张量排序算法和基于表型驱动的模块检测及排序算法,为整合不同组学数据和网络数据识别病致病基因、致病模块提供了可行的研究思路。本论文研究内容概述如下:(1)目前,基于PageRank算法识别致病基因在单层生物分子网络中的研究较多,而在双层分子网络中的研究相对较少。本论文针对双层异质分子网络中的致病基因识别问题,提出了基于双层异质分子网络的随机游走算法——双层排序算法。该算法基于权重整合疾病两种组学数据和对应双层分子网络,并加入遗传信息来创建特异性双层异质分子网络;基于双层排序算法,获得节点双层排序特征值,进而衡量节点重要性,并将其用于Ⅱ型糖尿病致病基因的识别。结果表明,双层排序算法能有效识别致病基因,该算法为整合两种组学数据和对应双层分子网络识别致病基因提供了参考。(2)将多组学数据与对应多层生物分子网络结合用于识别致病基因已成为研究热点,现有方法大多基于整合多个网络结构或部分组学数据和网络,没有把对应的组学数据与网络进行有效整合。本论文针对多层生物分子网络中的致病基因识别问题,提出了基于整合的有约束随机游走算法——整合排序算法。该算法基于权重整合疾病多组学数据和对应多层分子网络,加入遗传信息来构建多层特异性分子网络,以约束的形式嵌入多层网络的信息流向;基于整合排序算法,获得节点整合排序特征值,进而衡量节点重要性,并将其用于肝癌和前列腺癌致病基因的识别。结果表明,整合排序算法能有效识别多层分子网络中的致病基因,与其他算法相比具有显着优势。该算法以约束的形式嵌入了遗传信息先验知识,为整合多组学与对应多层分子网络识别致病基因提供了借鉴。(3)在识别复杂疾病致病基因时,存在异源多组学数据,如何将这些数据和分子网络进行有效整合用于识别致病基因已成为研究关键。现有方法大多基于整合多个单层网络中心度结果,忽略了数据的整体性。本论文针对高维分子网络中的致病基因识别问题,提出了基于张量的随机游走算法——张量排序算法。该算法基于权重整合疾病异源多组学数据和多属性分子网络创建高维特异性分子网络,用张量表示:基于张量排序算法,获得节点张量排序特征值,进而衡量节点重要性,并将其用于识别Ⅱ型糖尿病和阿尔兹海默症的致病基因。结果表明,张量排序算法能有效识别高维分子网络中的致病基因,效果优于其他方法。该算法将运算从矩阵空间提升到张量空间,为从多维异质异源高通量组学数据中识别致病基因提供了一般性的方法框架。(4)在生物分子网络中,分子一般组成网络模块或通路来发挥其具体功能,因此致病模块的识别尤其重要。现有方法大多基于网络聚类或基因集分析,鲜有算法将二者结合。本论文针对生物分子网络中的致病模块识别问题,提出了基于表型驱动的模块检测和排序算法——模块排序算法。该算法基于权重整合疾病单组学数据和对应单层分子网络构建特异性分子网络,利用有指导的网络模块检测策略;以模块为节点,建立网络超图,基于超图的模块排序算法识别致病模块,将其用于肝癌致病模块的识别。结果表明,模块排序算法能有效识别致病模块,与其他算法相比具有优势。该算法结合了有指导的模块检测策略,实现了从识别网络中单节点模式特征到网络局部特征的拓展。
钱剑培[2](2021)在《客票数据驱动的道路客运出行行为模式辨识及规律研究》文中进行了进一步梳理新型城镇化重塑了城市空间格局,也深刻影响了城市居民日常交通出行。不仅如此,在其推动下,新的移民不断流向城市,流动范围扩大、流动过程复杂,城际出行行为模式也产生了新的变化。多年来,道路客运凭借灵活、廉价等优势承接着为新型城镇化衍生的交通需求提供运输服务的任务。但随着高铁和私人轿车的快速发展,道路客运面临着多重冲击。因此探索道路客运高质量转型发展是构建健康、高效综合立体交通网的基本要求,而研究旅客出行行为模式则是实现其转型发展的关键。本文利用道路客运客票数据,从个体和团体双重视角出发研究城际出行行为模式,包括针对出行语义模式和出行间隔模式的辨识模型及规律分析。首先,从出行目的辨识研究、出行模式辨识研究和出行规律及机理研究三方面梳理国内外研究方法与体系,阐述本文研究方法的思想来源及在研究体系中所处的位置;其次,立足于客票数据重构结果,分别从个体和团体两个视角揭示城际旅客特征;在此基础上,提出两种改进的概率图模型(PGM)分别解决结伴旅客出行语义模式辨识问题及个体常旅客出行间隔模式辨识问题;最后,以模式识别结果为对象,借助面板回归、多元线性回归等计量模型定量分析考虑出行目的的出行量演化机制及考虑出行间隔模式的出行行为波动机制,为综合立体交通网资源优化配置等实践工作提供理论支持。本文的主要研究成果包括:1、以道路客运为例,提出了面向实名制客票数据的清洗流程及重构算法。基于数据处理结果,在个体视角下研究发现,客流总量分布存在六个典型时段,在空间上符合幂律,同时各个时段返回原籍比例存在一定差异;个体总出行次数、到访目的地数量符合幂律,而出行间隔符合泊松分布并存在以一周和一年为周期的波动。在团体视角下研究发现,道路客运出行存在明显的结伴现象,且结伴出行比例在不同时段、不同目的地存在差异;团体成员数、潜在同伴数均符合幂律。2、以结伴旅客为对象,解决了无标签和低空间分辨率条件下基于客票数据的出行目的补全问题,并考虑出行目的的模糊性和多义性将其扩展为“出行语义模式”。一方面,从团体视角出发,增加对同伴及同行关系的考虑,使得对客票数据的利用更加充分。具体而言,通过将团体、团体成员出行特征及出行目的与自然语言处理中文档、词和主题的概念类比,将出行语义模式辨识问题定义为主题挖掘问题,并构建嵌入出发时间的主题模型(TTM)。另一方面,考虑客票数据特性,提取了包括人口统计、历史出行和同行网络在内的多个特征,并提出其离散化及文本化处理方法。基于补充出行调查,验证了TTM和所设计特征的有效性,并发现TTM相对基准模型可以获得更为准确、稳定、均衡的结果。最终,在案例研究中,根据Gibbs采样算法得到出行特征分布和出发时间分布聚类并标注出公务商务、放假返乡、旅游休闲和一般私务四种主要类型出行目的,同时检测出无法用既有知识概括的非常规模式。出行目的补全有助于提升客票数据在出行需求建模等方面的应用深度。3、以个体常旅客为对象,揭示了城际出行时间模式及其规律。针对阳历和阴历同时通行导致不同年份出行时间无法逐天对齐的问题,本文采用出行间隔替代出发时刻,既保留了有关出行频率的信息,又实现了时间尺度的统一;同时从绝对时钟和相对时钟两种视角出发计算出行间隔,确定了出行间隔模式内禀形成机制的存在性。针对微观层面出行间隔模式辨识问题,采用词袋法表示个体出行特征,并构建双层高斯混合模型(BLGMM),利用预聚类初始化、扩展期望极大(EM)算法精细优化相结合的两步法进行参数估计。通过将辨识结果与年龄、性别、出发日期、出发时段及同伴人数等特征交叉分析,发现不同模式在特征分布上存在显着差异。出行间隔模式的揭示有助于在微观层面掌握旅客出行时间规律,支撑个性化、需求响应式的出行服务,充分实现增量旅客向存量旅客的转化。4、以基于PGM的模式识别结果为基础,进一步采用计量分析的方法研究城际出行行为模式规律性。在年出行量演化机制方面,首先构建以区县客流为对象的面板数据集,其中以出行目的为场景分解总出行量,并以高铁是否开通为条件对区县分组;其次引入18个面板回归模型,探索不同场景下出行量影响因素及其滞后效应;模型结果及稳健性检验最终表明,提升二级公路密度对增加务工返乡、旅游休闲出行量有明显促进作用。在出行间隔模式波动性产生机制方面,首先提出混合模型下的局部标准差及局部变异系数;进而引入多元线性回归,探索出行波动性产生机制。
陈秭宜[3](2021)在《基于转录组数据的组织免疫细胞预测模型构建和应用》文中认为组织中浸润的免疫细胞在各种生理或病理状态中发挥着非常重要的作用。对组织中免疫细胞组分进行定量检测,对于机体正常生理或疾病的机制研究十分重要。传统的组织免疫细胞定量方法,主要通过对不同免疫细胞特异性表达的蛋白分子进行标记,从而实现对不同细胞类型进行数量检测。随着高通量转录组检测技术的快速发展,利用不同免疫细胞的转录组数据,已有多种基于计算的组织免疫细胞分析模型被开发,可用于从组织转录组数据中预测得到组织中不同免疫细胞的组成比。在我们实验室前期的研究工作中,利用小鼠DNA芯片和RNA-Seq平台的转录组数据,分别构建了针对这两个转录组平台的组织免疫细胞比例计算模型。然而,在已有的模型中,用于建模的免疫细胞基因表达数据往往来源于不同的组织类型。由于各个组织内部环境的不同,不同组织来源的免疫细胞在表达谱水平上也存在一定的差异,这使得基于单一组织来源的表达谱数据训练得到的计算模型在实际应用过程中可能存在偏差。随着scRNA-Seq技术的快速发展,利用该技术我们可以很容易获得组织中不同细胞类型的表达谱。这使得我们可以通过不同组织的免疫细胞转录组数据,发展一套组织特异性的免疫细胞组分预测模型,从而对传统计算模型中存在的组织系统性偏差进行较正。本研究中,基于小鼠不同组织的scRNA-Seq数据,发展了一套组织特异性的免疫细胞组分预测工具tissue-ImmuCC。首先,利用小鼠不同组织的scRNA-Seq数据,抽提出组织中不同免疫细胞的表达谱数据,构建不同组织的组织特异性特征矩阵。然后,为了获取最佳的适用条件,通过对不同免疫细胞特征基因集合和不同基因定量方式下模型的计算性能进行比较发现,基于seqImmuCC模型中使用的162个特征基因以及基于FPKM和TPM的基因定量方式能够获得更好的计算性能。最后,通过将tissue-ImmuCC与传统计算非组织特异性模型seqImmuCC进行比较发现,tissue-ImmuCC在多个组织样本中的预测性能得到了提高。除了对模型的性能进行优化以外,我们进一步希望对模型的实际应用进行拓展。由于不同组织和疾病之间在免疫细胞的组成上面存在一定的不同,获取不同状况下的组织内免疫细胞组成信息,将有助于增加我们对不同条件下组织免疫微环境的了解。此外,在现有的研究中,尚无可用于对不同疾病或组织条件下的组织免疫细胞数量进行便捷查询的数据库。因此,利用从GEO数据库中收集得到的关于266种组织类型和706种疾病类型的人类样本和143种组织类型、61种疾病类型和206种基因型的小鼠样本的表达谱数据,并借助CIBERSORT和arrayImmuCC这两个计算工具,获得了人和小鼠在不同条件下的组织免疫细胞组成比例。最后,将各个样本的组织和疾病信息、基因表达谱以及免疫细胞组成谱整合成数据库ImmuCellDB,方便用户查询。综上所述,在本论文的研究工作中,首先利用小鼠不同组织的单细胞测序数据,构建得到了一个组织特异性的组织免疫细胞定量模型。通过计算工具的构建,可以帮助我们更好地认识不同组织内免疫细胞基因表达水平的差异以及这些差异对模型计算的可能影响。然后,利用已有的计算工具和公共数据库中的转录组数据,构建了一个关于人和小鼠多种组织、疾病或基因型的组织免疫细胞组成和基因表达信息的数据库。利用此数据库,我们可以快速查询、比较不同条件下的组织内免疫细胞数量和基因表达差异以及不同基因的表达值与免疫细胞数量之间的相关性,从而丰富我们对免疫细胞在不同条件下组织中作用的认识。总之,本研究不仅为模型构建提供了许多有价值的探索,而且丰富了我们对不同条件下组织内免疫细胞组成的认识。
涂佳娟[4](2021)在《基于高斯图模型的肿瘤异质性解析方法研究》文中研究指明肿瘤是一种复杂的异质性疾病。肿瘤的异质性不仅体现在同一类型肿瘤不同患者之间病理特征间的差异(肿瘤间异质性),还体现在同一肿瘤组织内不同区域之间的差异(肿瘤内异质性)。解析肿瘤异质性对癌症的诊断、治疗及预后有非常重要的意义。肿瘤异质性不仅是由基因突变或基因差异表达引起的,还与基因之间交互作用关系的变化有关。研究基因之间交互作用在不同肿瘤状态之间的变化模式有助于解析肿瘤的异质性和揭示癌症的发生机制。鉴于高斯图模型能刻画基因间的直接关系,我们研究了以下两方面内容:1.同一类型癌症样本可以被划分为多种不同的亚型,肿瘤样本组织是由非癌细胞和癌细胞混合组成。目前,基于bulk转录组测序技术获得的基因表达值是肿瘤组织中不同类型细胞的平均表达值。如果在推断基因网络时忽略肿瘤异质性,就无法刻画癌症亚型或细胞类型特异的基因交互作用。现有的大多数网络重构研究方法并没有同时考虑肿瘤间和肿瘤内的异质性。为了同时揭示肿瘤间和肿瘤内异质性,我们提出了一种基于高斯图模型的基因网络联合构建方法。对于一个观测的基因表达数据,我们使用潜变量模型将肿瘤样本分为癌细胞成份和非癌细胞成份,再使用不同的高斯图模型对不同亚型肿瘤成份分别建模并且使用同一高斯图模型对不同亚型非肿瘤成份建模,最后提出了一个期望极大化算法求解优化模型。模拟实验表明了该方法的有效性。我们将提出的方法应用于乳腺癌数据集重构非癌症和亚型特异的癌症基因网络,分析了基因网络在不同亚型间的异同和网络中的枢纽节点对乳腺癌发展和亚型分类相关生物学功能的影响。我们的方法为从网络水平剖析肿瘤异质性提供了方法与工具。2.差异网络分析是研究肿瘤间异质性的重要工具。由于基因网络重布线可能是由单个基因的差异表达驱动的,在推断差异网络时应考虑网络的层次条件,即如果两个基因之间的交互作用发生了变化,那么这两个基因中至少有一个基因是差异表达的。已有的差异网络分析方法在估计基因网络时并未考虑基因的差异表达,导致推断的差异网络没有层次结构。通过同时考虑基因相互作用变化和基因表达水平变化,我们提出一个具有层次结构的差异网络分析模型。首先,基于高斯图模型的性质,使用偏相关系数的差异定义差异网络,提出了一种新的检验统计量量化基因对之间偏相关系数的变化。然后,使用学生t检验统计量用于量化基因表达水平的变化。最后,使用一个优化框架将这两个检验统计量结合起来,并求解优化模型的闭解。模拟实验结果表明了我们的方法优于对比的方法。我们将该方法分别应用于乳腺癌和急性髓系细胞白血病的基因表达数据,发现估计的差异网络中的枢纽节点具有重要的生物学功能。本文提出的模型为识别与肿瘤间异质性相关的网络标志物提供了方法与技术基础。
王翼飞[5](2021)在《黑龙江省乡村聚落形态基因研究》文中认为乡村聚落空间承载着地域性自然、经济、历史与文化特征,是乡村生活与生产的物质载体与宝贵的乡土景观风貌资源。乡村聚落空间在长期演化过程中形成相对独特与稳定的“自然—人—空间”形态基因,蕴含乡村约定俗成的空间营造“法式”与“规律”,以及在农耕生产与乡村生活中凝结的“取自然之利,避自然之害”的乡村空间营造智慧,是原真与生动的“山—水—田—居”乡村空间风貌景观的衍生代码。“法式”、“规律”与“智慧”在乡村聚落空间衍生、撤村并村建设与新村建设中得以充分借鉴、改良与进化,使乡村性与本土性的形态基因得以传承与延续。美丽乡村建设、乡村振兴战略等乡村发展战略的提出与实施,加速了乡村的建设、发展与更新进度。与此同时,盲目与过度地追赶城市发展水平,将乡村建设引入误区,乡村空间风貌的乡土性、原真性与独特性特征逐渐丧失,“城乡一貌”与“千村一面”等问题日益突出。随着“自然—人—空间”的协调关系失衡,乡村空间与自然环境、乡村生活、乡村居民之间的有机联系开始减弱,长久共生法则在乡村空间产生颠覆性变化的同时也随之瓦解。黑龙江省在乡村空间风貌保护与人居环境质量提升方面发展缓慢,“重发展、轻传承”是当下黑龙江省乡村发展的主要基调。面对盲目发展建设、乡村特色空间风貌破坏、乡土特色景观流失等问题,采取客观与深入的乡村空间形态与空间风貌认知方法、获取准确与全面的乡村空间风貌信息,制定合理可行的乡村空间风貌应对措施,是黑龙江省乡村聚落空间风貌保护、优化与更新的重要诉求。论文以乡村聚落形态基因作为认知乡村空间风貌与空间形态的出发点,以乡村形态基因条目识别与提取,以形态基因相关信息挖掘为具体方法,以形态基因信息图谱与形态基因信息平台为具体应用技术手段,为乡村空间风貌规划、保护与更新,以及乡村人居环境优化等领域探索新的视角、思路与方法。论文核心研究内容包括:(1)根据乡村聚落体系与乡村空间形态体系的要素构成与层次构成,结合形态基因理论将乡村聚落形态基因体系分解为形态基因条目、形态基因片段、形态基因序列与形态基因地图等层次,建立乡村聚落形态基因识别、提取与挖掘的信息框架。(2)根据自然环境差异性、文化习俗多样性、生产景观典型性与空间覆盖均衡性等原则,在黑龙江省域范围内选取270个乡村聚落研究样本,并利用地理信息系统构建黑龙江省乡村聚落形态基因研究的数据平台,为形态基因条目的识别与提取奠定数据资源基础。通过对黑龙江省大量乡村实地调研与收集所获取的空间形态与空间风貌数据资料进行综合梳理分析,总结黑龙江省乡村聚落空间形态特征与形态差异性决定因素。(3)运用质性数据挖掘与分析方法,对海量的乡村聚落形态数据与资料(遥感图像、实地拍摄影音与图像文件、调研数据与面板数据、乡村访谈记录等)进行综合分析处理。通过多次编码与归类形成形态因子与形态表征两类节点,并根据节点之间的表意关联关系识别能够表达乡村聚落空间的形态基因单位—形态基因条目。(4)结合空间形态量化方法、聚类统计方法、复杂网络分析方法与空间分析方法,从形态基因量化基础数据中挖掘形态基因片段信息、形态基因序列信息与形态基因地图信息。(5)汇总乡村聚落形态基因量化信息与质性数据建立乡村聚落形态基因信息的矩阵框架,形成黑龙江省乡村聚落形态基因信息图谱。(6)结合数据库、数据分析与数据可视化等技术,将乡村聚落形态基因信息图谱架构为信息平台的具体应用工具,实现乡村聚落空间形态与空间风貌信息的存档、关联与高效调用功能。论文的研究成果,在理论与方法层面上对形态基因在乡村聚落空间形态研究上进行深入,包括完善乡村聚落形态基因的识别与提取方法、形态基因信息挖掘路径、形态基因图谱构建方式等。在应用与实践层面上为乡村聚落空间风貌的规划、保护与更新提供“精准化”信息参考与技术工具,对于黑龙江省乃至全国范围内的乡村空间规划、设计与建设提供参考依据与实践思路。
邱明[6](2020)在《一种基于网络整合的复杂疾病风险基因识别方法》文中研究说明
魏丕静[7](2020)在《基于癌症组学数据网络分析的驱动基因识别算法研究》文中认为癌症本质上与基因变异有关,目前人们普遍认为,有一小部分发生变异的基因具有选择生长优势,对癌症发生发展过程有促进作用,一般称之为驱动基因。大部分发生变异的基因对癌症发生发展没有促进作用,称之为乘客基因。在众多的乘客基因中识别驱动基因是癌症研究的热点问题。围绕这一目标,很多驱动基因识别算法应运而生,特别地,鉴于基因之间存在相互作用关系,且从网络角度可以更加系统地研究癌症特点,因此,已有很多基于网络的方法被用来挖掘癌症驱动基因。但是仍然有很多特征对驱动基因识别有影响,例如基因长度对突变概率的影响、先验知识的影响以及网络拓扑结构特征的影响等。另外,除了对单一癌症识别驱动基因外,有研究表明不同癌症之间可能存在相同的特点和致病基因。本文针对上述问题开展了系统性研究,主要工作如下:(1)提出了一种基于基因长度校正突变概率的驱动基因识别算法LNDriver,本算法考虑了基因长度对基因突变概率的影响。对于体细胞突变数据,通过广义加性模型,根据突变基因长度,对其突变概率进行校正,从而过滤由于长度过长产生的假阳性基因。然后根据蛋白质-蛋白质相互作用网络,将筛选后的基因突变数据与表达数据整合并构建二分图,最后用贪婪算法识别驱动基因。在几种不同数据上的实验结果表明,该算法对癌症驱动基因识别性能优于一些经典算法,并且能够有效减少由于基因长度导致的假阳性驱动基因。(2)针对先验蛋白质相互作用网络的不完整性以及基因表达在癌症样本和正常样本分布中的差异现象,在LNDriver算法基础上,提出了Driver Finder算法。除了考虑基因长度的影响外,本算法主要利用癌症基因表达数据构建基因共表达网络,再与已知蛋白质-蛋白质相互作用网络整合,对不同癌症构建特异性网络,避免由于先验网络不完整造成的基因信息缺失。此外,根据基因表达在癌症样本和正常样本中的分布差异,确定离群基因,最终构建二分图,利用贪婪算法识别驱动基因。在不同癌症数据集上的实验结果表明Driver Finder算法可以有效识别癌症驱动基因。(3)提出了一种基于转移偏向性的随机游走算法Driver_IRW,用来识别癌症驱动基因。在传统随机游走算法中,游走者以等概率选择下一步要访问的节点。但是在实际情况中,游走者往往具有选择偏向性,即在选择下一步访问的节点时,更偏向于选择度更大的点。此外,本算法可以根据不同癌症已知的驱动基因,利用其拓扑结构特征计算随机跳转概率。实验表明,Driver_IRW对癌症驱动基因的识别具有明显优势。(4)提出了一种基于多层网络的联合非负矩阵分解算法Driver-Mul JNMF,用来识别不同癌症中共同的致病基因。不同癌症可能存在相同的特征和致病模式,DriverMul JNMF算法针对疾病相似性较高、且较为多发的几种妇科癌症,构建了一个多层差异共表达网络,同时利用已知蛋白质-蛋白质相互作用网络信息作为约束条件,实现同时对多个网络进行分解,从而得到不同癌症中共同的模块。对模块中的基因分析表明,本算法识别出的基因可以显着富集到与所研究癌症相关的Hallmark和重要通路中,并且生存分析表明,其中包含的部分基因具有良好的预后价值。
马雨盈[8](2020)在《基于单细胞测序数据的胶质瘤基因标志物识别算法》文中提出胶质瘤约占脑组织肿瘤的50%,其特征表现为高死亡率,然而胶质瘤基因标志物的识别仍然有待探索。肿瘤的引发因素包括多类,其中基因表达水平的扰动会直接影响机体功能。单细胞基因表达数据以单细胞为分辨率反映基因表达,有助于更深入地理解潜在的分子变化如何改变细胞行为和疾病过程。转录调控关系的扰动也会影响基因表达水平进而影响肿瘤的发生发展,然而目前很多单细胞基因表达数据的研究中没有考虑调控关系的影响。本文充分利用单细胞基因表达数据的优势,并合理融合转录调控关系,提出一个识别肿瘤基因标志物的算法框架。将该算法框架应用于胶质瘤,为胶质瘤分子机制、药物靶向治疗等提供帮助。算法框架的核心要素包括:共识基因识别、特异调控网络构建、混合聚类识别细胞类型以及肿瘤标志基因识别。首先,考虑到肿瘤恶性细胞在不同样本之间的明显差异性,本文首先通过主成分分析、细胞特异网络构建、Louvain聚类、差异基因识别等探索单个样本内恶性细胞的表达状态,然后根据各个样本之间差异基因的重叠度识别肿瘤共识基因。从基因和样本两个角度分析共识基因的趋同性,结果表明共识基因反映了不同样本间恶性细胞的共表达模式。然后,为全面分析肿瘤特性,本文将多样本合并分析并合理融合转录调控关系进行肿瘤细胞类型识别。首先根据转录因子与靶标基因之间的调控关系构建初始调控网络,然后根据共识基因、整个单细胞基因表达数据和前反馈回路结构不断增加网络特异性构建特异调控网络。接着以该特异调控网络为基础,识别调控元模块并构建特异调控表达矩阵。最后在特异调控表达矩阵中使用一种混合聚类方法识别胶质瘤的细胞类型,并对细胞类型进行基因本体和生物通路富集分析。富集分析表明细胞类型具有明显的功能性,并且细胞类型的标志基因可能与肿瘤有着密切关系。最后,本文将细胞类型的标志基因作为候选基因,提出基于肿瘤特征向量识别肿瘤标志基因方法。为分析肿瘤标志基因的可靠性,本文分析了OS和PFI两种生存数据,以肿瘤标志基因作为分类特征,使用7种二分类算法分别构建风险预后分类模型。14种风险预后分类模型均表现出较好的分类效果,其中以随机森林构建的模型表现最优。同时本文还采用相关性度量、PubMed文献以及Kaplan-Meier生存曲线进一步分析肿瘤标志基因,结果表明这些基因与胶质瘤关系密切。另外结果分析发现肿瘤标志基因中有4个基因(NDUFS5、NDUFA1、NDUFA13和NDUFB8)均属于NADH泛醌氧化还原酶亚基基因家族,这表明该基因家族可能与胶质瘤的相关性较强。实验结果表明了本文算法框架的有效性,揭示了胶质瘤恶性细胞的6种细胞类型状态,预测了20个肿瘤标志基因,对胶质瘤的病理机制和精准治疗具有重要意义。
孟凡祥[9](2020)在《面向序列分类问题的机器学习算法集成及其应用》文中研究说明分类问题是统计学、管理学研究的重要问题。科学分类是进行数据挖掘、统计预测和科学决策的重要基础。在分类问题中,序列数据是重要的研究对象。在当今信息社会和大数据时代,人类在生产、生活和科学研究中,不断产生并积累着海量的序列数据资源。充分挖掘序列数据背后的信息,对科学认识自然世界和经济社会发展规律、更好地指导和管理经济社会活动、更好地进行统计预测和管理决策都具有重要的意义。由于机器学习具备强大的数据处理和自学习能力,能够处理传统方法难以应对的海量、高维、复杂序列数据挖掘问题,因此近年来针对机器学习的相关研究成为管理科学与工程、计算机等学科的重要研究方向。随着新一代高通量基因测序技术的发展,基因序列数据出现了爆炸性增长。过去主要依靠生物学的方法对其进行研究具有很大的局限性,造成目前人类对许多基因问题还缺乏准确的科学认知。今年春节前后,一种未知的新型冠状病毒(COVID-19)引发了重大肺炎疫情,对全球经济社会发展造成了重大影响,使得基因问题成为近期跨学科研究的热点。今年1月,国家自然科学基金委员会紧急发布“新型冠状病毒(2019-n Co V)(1)溯源、致病及防治的基础研究”专项项目指南,鼓励学科交叉,用新的科研范式理念系统解决科学问题。在基因问题研究中,对基因序列进行准确分类是重要基础和前提。为此,本文基于机器学习的理论和方法研究序列分类问题,所要解决的关键科学问题主要有三个:一是非数值型序列数据映射转换及其频谱信息挖掘的算法优化问题;二是面向序列分类的机器学习算法集成创新问题;三是不同分类算法模型的性能评价和分类结果的可信度评价问题。在应用研究层面,全文聚焦基因序列分类问题,给出了几类基因序列分类判别方法和机器学习算法集成模型,并通过构建AAA综合模糊评价模型,对各类算法模型的分类性能进行了对比评价。本文从序列分类问题、机器学习理论和生物信息理论入手,系统梳理了当前机器学习算法在数据挖掘和生物信息领域的研究进展,从现有研究存在的不足角度思考,找到了从机器学习算法集成的角度研究序列分类问题的这个切口。通过对研究问题和研究方法的进一步梳理分析,明确了本文的研究目标、研究内容和研究思路。本文从理论和应用两个层面开展研究。理论层面,本文聚焦机器学习算法的集成优化和建模问题,采用层层递进、逐步深入的研究方法,系统研究了序列数据特征表示与频谱信息挖掘算法的优化问题、靴带抽样与SVR的集成学习问题、隐马尔科夫模型与离散时间动态贝叶斯网络的集成及其预测概率的可信度评价问题、BP神经网络与遗传算法的集成问题。应用层面,本文聚焦基因序列外显子分类判别这一基础问题,通过理论研究层面构建的模型和优化的算法,针对不同基因序列进行分类判别,并对不同模型的分类性能进行对比评价分析。本文的创新点主要体现在以下四个方面:一是针对非实值型序列的映射转换方法及其频谱信息的挖掘问题,首先对3种“域变换”的映射转换方法进行了对比分析和理论证明。通过域变换,可以更好地挖掘序列数据的频谱信息,从而更直观地利用频谱信号研究序列数据的规律。在此基础上提出了一种基于稀疏优化思想的基因序列频谱信息挖掘快速算法。该算法在基因序列数据存储和频谱信息计算两个方面的性能都有较为显着的改进。在数据存储方面,理论上最高可压缩50%的计算机存储单元。在频谱信息挖掘运算方面,降低了算法的复杂度,提高了运算效率。仿真结果显示功率谱和信噪比的运算时间分别压缩了83.18%和61.33%。二是针对具有显着周期性规律的序列数据分类问题,研究了基于阈值判别的序列分类集成算法模型。构建了基于靴带抽样与SVR交互式集成学习算法模型。通过交互式集成学习,不仅可以降低对样本数量的要求,而且能够避免或改善由于训练集的选择不当而导致的支持向量机回归模型训练不佳的问题,从而实现在样本较少的情况下仍然能够得到较好的训练模型和分类预测结果。为了论证该算法模型的性能,本文将其应用到不同物种基因外显子最优频谱阈值的求解中,为此建立了多目标最优阈值判别模型。通过仿真实验,结果表明该算法模型可行有效,测试结果的平均准确率达到90%以上。三是针对不具备显着周期性规律的序列数据分类问题,研究了基于预测概率的序列分类集成算法模型。构建了动态贝叶斯网络与隐马尔可夫模型集成算法模型。该算法模型考虑了隐马尔可夫模型预测概率和分类结果的可信度评价问题。首先,借鉴事件树和故障树风险重要度指标,设计了预测概率的综合可信度评估模型。其次,构建了一种三状态基因外显子隐马尔科夫模型。最后,通过将离散时间贝叶斯网络与隐马尔可夫模型的集成,实现对基因序列分类性能的进一步提升。在模型求解和仿真中,设计了前向算法与Em算法的混合算法,进行了仿真实验。结果表明,通过该算法模型,能够得到较为准确的基因外显子起止点位置,实现了对基因外显子单个碱基的定位和判别,使得分类结果的准确性更高。四是针对特征指标多的复杂序列数据分类问题,研究了基于全局搜索优化的集成算法模型。与基于阈值判别和预测概率的方法相比,该算法模型无需精确的逻辑推理即可进行全局搜索求解优化。基于BP网络初始参数选择不当容易陷入局部最优陷阱问题,构建了基于BP神经网络与遗传算法集成学习的算法模型。通过遗传算法的优化,改进了BP神经网络最为关键的连接权值和阈值参数的取值方法和取值优化问题,从而提高了学习效率,规避了BP神经网络容易陷入局部最优解陷阱的问题,真正实现了全局搜索求解,使得分类结果准确性更高。通过仿真实验,证明通过该算法模型得到的分类结果更优。
尹晓尧[10](2019)在《面向复杂疾病诊疗的组学大数据分析方法及应用》文中提出以癌症为代表的复杂疾病严重威胁人类的生命健康,其形成包含复杂的分子间相互作用和调控过程。以患者临床表现出来的少数几种特征对疾病进行划分,然后对每一类辅以特定的治疗手段往往会在不同个体上有不同的反应,治疗效果难以预测。复杂疾病往往是由遗传因素、环境因素、生活习惯等多种因素之间相互作用导致的,并不遵循孟德尔遗传定律,因而家族病史和遗传相关信息只能说明个体存在患病的概率,但并不意味着就一定会患病,这些都使得复杂疾病的诊断和治疗更加棘手。随着测序技术的不断发展,测序成本呈现超摩尔定律的下降趋势,目前一个成人全基因组的测序成本在1000美元左右,组学数据的获取变得更为容易,基因组学、转录组学、蛋白质组学等数据大量出现。组学大数据的爆发使得研究人员从更为全面和准确的患者体内实际情况出发,对复杂疾病进行诊断,并在此基础上有针对性的进行特异性治疗成为可能。然而,目前对复杂疾病的诊断和治疗主体上仍然是基于传统临床特征和医生的经验来完成,几乎不会用到患者的多组学数据中所包含的信息,尤其是每一个患者所特有的组学信息。精准医疗概念的出现推动着相关研究者们对个体化医疗的研究,期望临床医生能够根据患者的实际情况,识别出对该患者更为适用的治疗靶点或作用通路,从而量体裁衣的定制最合适的治疗方案。但是,目前基于组学大数据对复杂疾病进行诊疗的相关方法的研究还尚有不足,急需根据生物学数据特点和临床复杂疾病诊疗需要,设计鲁棒、高效的机器学习方法。本文从复杂疾病诊疗过程中重要的三个环节——亚型分类、靶点识别和药物重定位出发,循序渐进地提出了相应的组学大数据分析方法来解决五个相关问题。具体来说,1.在疾病诊断方面,本文首先提出了基于多模态矩阵联合分解方法来实现对癌症的亚型分类,通过引入相似性矩阵和组稀疏约束的概念,设计了含义清晰的目标函数,推导了优化求解算法并证明了该算法的收敛性。在模拟数据和多种癌症数据上对算法的性能进行了评估,得到了比现有方法更好的亚型分类结果,并对分类相关的重要组学特征进行了分析。进一步在单一组学数据亚型分类和多组学整合亚型分类两个方面对所提出的模型的性能进行了评估。2.在靶点识别方面,提出了基于多源组学数据置信的靶点识别方法,综合考虑候选基因的差异表达、DNA甲基化水平变化、对患者生存预后影响、基因功能和药物可靶向性等多源信息,提高预测靶点的置信度,减少假阳性结果在后续实验中导致的验证失败问题。对乳腺癌的4个亚型识别出了共计11个亚型特异的高置信度靶点。3.在靶点识别方面,建立了亚型分类和亚型特异性靶点识别的统一框架,提出了新的非负矩阵三分解模型,引入正交约束和稀疏约束来适应生物学先验知识并提高模型可解释性,在肝癌数据上得到了比现有方法更好的亚型分类结果并识别出亚型特异的基因靶点,并结合药物靶标数据和KEGG信号通路数据对靶点的基因功能和可靶向性进行了分析。4.在药物重定位研究方面,针对乳腺癌等癌症存在放疗抗性的问题,结合e IF4G1蛋白在乳腺癌细胞中过量表达并可以修复电离辐射带来的DNA损伤的先验知识,从大规模细胞反应数据出发,对乳腺癌放疗增敏剂进行了药物重定位研究。细胞实验结果显示,博舒替尼可以显着抑制小鼠的肿瘤增长、减小肿瘤体积、提升小鼠生存率,并且可以显着诱导肿瘤组织的细胞凋亡,且无毒副作用,可以用作乳腺癌放射治疗的增敏剂。5.在药物重定位研究方面,对于当前药物重定位研究中,只使用少数出现显着变化的基因特征印迹,忽略大部分基因特征的情况,本文提出了可以从全基因组表达谱特征的带正交约束的非负矩阵分解方法和适用于该方法的表达谱特征印迹计算技巧,并对抗乙肝病毒药物进行了重定位研究。体外实验结果显示,西他列汀可以显着抑制乙肝病毒的复制和相关蛋白的表达水平,且是美国食品药品监督管理局批准的治疗糖尿病的药物,可以直接应用于临床实验。
二、基因识别计算方法的回顾与展望(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基因识别计算方法的回顾与展望(论文提纲范文)
(1)基于生物分子网络的致病基因识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略语注释表 |
第—章 绪论 |
1.1 研究背景和意义 |
1.2 致病基因识别方法研究进展与现状 |
1.2.1 复杂疾病的致病基因 |
1.2.2 致病基因的识别方法 |
1.2.3 致病模块的识别方法 |
1.3 研究内容和章节安排 |
1.3.1 主要研究内容 |
1.3.2 论文章节安排 |
第二章 生物分子网络中致病基因识别的基本方法 |
2.1 基于随机游走算法的基本策略 |
2.1.1 PageRank算法 |
2.1.2 PageRank算法收敛性和计算复杂度 |
2.1.3 加权PageRank算法 |
2.2 单一组学数据和单层分子网络 |
2.3 基本方法结果与分析 |
2.3.1 致病基因的排序 |
2.3.2 致病基因PR值的分类性能 |
2.3.3 所识别基因的功能分析 |
2.3.4 与HITS算法的比较研究 |
2.4 本章小结 |
第三章 双层异质分子网络中致病基因识别方法 |
3.1 引言 |
3.2 两种组学数据和双层分子网络 |
3.3 双层排序算法 |
3.3.1 特异性双层异质分子网络创建 |
3.3.2 基于双层异质分子网络的PageRank算法 |
3.4 结果与讨论 |
3.4.1 致病基因的排序 |
3.4.2 致病基因bPR值的分类性能 |
3.4.3 整合网络和组学数据的合理性分析 |
3.4.4 排序的鲁棒性分析 |
3.4.5 所识别基因的功能分析 |
3.5 本章小结 |
第四章 多层生物分子网络中致病基因识别方法 |
4.1 引言 |
4.2 多组学数据和多层分子网络 |
4.3 整合排序算法 |
4.3.1 特异性多层分子网络创建 |
4.3.2 基于多层分子网络的有约束PageRank算法 |
4.4 结果与讨论 |
4.4.1 致病基因的排序 |
4.4.2 致病基因iPR值的分类性能 |
4.4.3 与其他方法的比较研究 |
4.4.4 其他癌症数据集上的分类结果 |
4.4.5 所识别基因的功能分析 |
4.5 本章小结 |
第五章 高维分子网络中致病基因识别方法 |
5.1 引言 |
5.2 多分子组学数据和多属性分子网络 |
5.3 张量排序算法 |
5.3.1 特异性高维分子网络创建 |
5.3.2 基于张量的PageRank算法 |
5.3.3 张量排序算法收敛性和计算复杂度 |
5.4 结果与讨论 |
5.4.1 致病基因的排序 |
5.4.2 致病基因tPR值的分类性能 |
5.4.3 排序靠前基因的分类性能 |
5.4.4 与其他方法的比较研究 |
5.4.5 所识别基因的功能分析 |
5.5 本章小结 |
第六章 生物分子网络中致病模块识别方法 |
6.1 引言 |
6.2 单一组学数据和单层分子网络 |
6.3 模块排序算法 |
6.3.1 特异性分子网络创建 |
6.3.2 基于表型驱动的模块检测算法 |
6.3.3 基于超图的模块排序算法 |
6.4 结果与讨论 |
6.4.1 模块的网络结构 |
6.4.2 模块分类结果和表型得分 |
6.4.3 与其他方法的比较研究 |
6.4.4 所识别模块的功能分析 |
6.4.5 独立数据集中的验证 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 主要贡献 |
7.2 工作展望 |
参考文献 |
致谢 |
博士期间发表的学术论文 |
博士期间授权的专利 |
博士期间参与的科研项目 |
学位论文评阅及答辩情况表 |
(2)客票数据驱动的道路客运出行行为模式辨识及规律研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 研究内容 |
1.4 研究方法及技术路线 |
1.4.1 研究方法 |
1.4.2 技术路线 |
1.5 本文基础术语说明 |
2 国内外研究综述 |
2.1 出行目的辨识研究 |
2.1.1 研究方法比较 |
2.1.2 出行特征选取 |
2.1.3 出行目的划分 |
2.1.4 既有研究评述 |
2.2 出行时空模式辨识研究 |
2.2.1 出行特征表示 |
2.2.2 基于相似度的聚类方法 |
2.2.3 基于概率图模型的聚类方法 |
2.2.4 既有研究评述 |
2.3 出行行为模式规律及机理研究 |
2.3.1 出行行为模式规律性指标 |
2.3.2 出行行为模式形成机理及演化特性研究 |
2.3.3 既有研究评述 |
3 个体及团体视角下的旅客出行特征分析 |
3.1 数据处理 |
3.1.1 数据描述 |
3.1.2 数据清洗 |
3.2 客票数据重构 |
3.2.1 目的地重构 |
3.2.2 个体重构 |
3.2.3 团体重构 |
3.3 个体视角下旅客特征分析 |
3.3.1 个体旅客画像 |
3.3.2 个体旅客出行时空分布 |
3.3.3 个体旅客出行特性的统计力学规律 |
3.4 团体视角下旅客特征分析 |
3.4.1 团体旅客画像 |
3.4.2 团体旅客出行时空分布 |
3.4.3 团体旅客出行特性的统计力学规律 |
4 结伴旅客出行语义模式辨识研究 |
4.1 团体视角下结伴旅客出行语义模式辨识问题 |
4.1.1 相关背景 |
4.1.2 共轭先验 |
4.1.3 问题描述 |
4.2 团体视角下结伴旅客出行语义模式辨识主题模型 |
4.2.1 主题模型 |
4.2.2 嵌入出发时间的主题模型构建 |
4.2.3 基于Gibbs采样的模型推断 |
4.3 模型验证 |
4.3.1 面向客票数据的特征设计 |
4.3.2 模拟客票数据的出行调查 |
4.3.3 基于调查数据的特征对比实验 |
4.3.4 基于调查数据的模型对比实验 |
4.4 TTM应用研究 |
4.4.1 基于客票数据的模型标定 |
4.4.2 出发时间预测 |
4.4.3 出行目的标注 |
4.5 本章小结 |
5 个体旅客出行间隔模式辨识研究 |
5.1 个体旅客出行间隔特征表示 |
5.1.1 不同时钟下出行间隔计算方法 |
5.1.2 不同时钟下出行间隔特征对比 |
5.2 基于混合模型的出行间隔模式聚类问题 |
5.2.1 高斯混合模型及EM算法 |
5.2.2 双层高斯混合模型及扩展EM算法 |
5.3 基于K均值++的出行间隔模式预聚类 |
5.3.1 特征构建及序列变换 |
5.3.2 预聚类结果 |
5.3.3 初始聚类中心确定 |
5.4 基于BLGMM的出行间隔模式精细聚类 |
5.4.1 精细聚类结果 |
5.4.2 结果分析 |
5.5 本章小结 |
6 旅客出行行为模式规律性研究 |
6.1 考虑出行目的的结伴旅客出行量演化机制研究 |
6.1.1 演化现象分析 |
6.1.2 面板数据构建 |
6.1.3 理论分析与假设 |
6.1.4 面板回归模型设定 |
6.1.5 基准模型估计 |
6.1.6 稳健性检验 |
6.2 考虑出行间隔模式的个体常旅客出行波动机制研究 |
6.2.1 波动性指标 |
6.2.2 宏观波动性分析 |
6.2.3 微观波动性分析 |
6.3 本章小结 |
7 结论与展望 |
7.1 主要研究成果 |
7.2 主要创新点 |
7.3 研究展望 |
参考文献 |
附录 道路客运团体旅客出行调查 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(3)基于转录组数据的组织免疫细胞预测模型构建和应用(论文提纲范文)
摘要 |
Abstract |
缩略词表 |
第1章 前言 |
1.1 转录组检测技术简介 |
1.1.1 DNA芯片技术 |
1.1.2 Bulk RNA-Seq技术 |
1.1.3 单细胞RNA-Seq技术 |
1.2 组织免疫细胞组分定量方法 |
1.2.1 基于流式分选的分析方法 |
1.2.2 基于免疫组化的方法 |
1.2.3 基于计算的分析方法 |
1.3 本论文研究目的和研究内容 |
第2章 组织特异性组织免疫细胞预测模型构建 |
2.1 数据与方法 |
2.1.1 数据代码来源 |
2.1.2 模型构建流程概述 |
2.1.3 免疫细胞注释方法 |
2.1.4 组织免疫细胞特征基因筛选 |
2.1.5 基于组织scRNA-Seq数据的Bulk转录组模拟数据构建 |
2.2 结果与分析 |
2.2.1 不同组织scRNA-Seq数据注释方法比较 |
2.2.2 不同组织scRNA-Seq数据细胞注释 |
2.2.3 不同组织scRNA-Seq数据免疫细胞提取 |
2.2.4 不同组织scRNA-Seq数据注释结果验证 |
2.2.5 不同组织免疫细胞差异性高表达基因分析 |
2.2.6 外周血免疫细胞与其它组织免疫细胞基因表达差异分析 |
2.2.7 不同实验室来源的免疫细胞scRNA-Seq数据一致性分析 |
2.2.8 不同转录组平台的免疫细胞基因表达值相关性分析 |
2.2.9 不同特征基因选择方式评估 |
2.2.10 不同基因表达值定量方式评估 |
2.2.11 组织特异性训练矩阵构建 |
2.2.12 模型在不同组织中的表现性能评估 |
2.2.13 组织特异性模型与非组织特异性模型计算性能的比较 |
2.3 小结 |
2.4 讨论 |
第3章 人和小鼠组织免疫细胞组成数据库构建 |
3.1 材料与方法 |
3.1.1 数据库构建概述 |
3.1.2 数据检索 |
3.1.3 组织和疾病层级树构建 |
3.1.4 DNA芯片数据预处理 |
3.1.5 组织免疫细胞组成计算 |
3.1.6 网站设计 |
3.2 结果与分析 |
3.2.1 数据库数据预处理结果 |
3.2.2 数据库网站简介 |
3.2.3 Search模块简介 |
3.2.4 Analysis模块简介 |
3.2.5 Tools模块简介 |
3.3 小结 |
3.4 讨论 |
第4章 总结与展望 |
4.1 论文总结 |
4.2 后期展望 |
参考文献 |
附录 |
附录1 第一章组织特异性模型分析结果 |
文献综述 基于计算的组织免疫细胞预测方法研究进展和应用 |
参考文献 |
致谢 |
博士期间参与发表论文 |
(4)基于高斯图模型的肿瘤异质性解析方法研究(论文提纲范文)
内容摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 肿瘤的生物医学背景 |
1.1.2 肿瘤研究的公共数据库 |
1.1.3 肿瘤研究的图模型方法 |
1.2 研究内容以及创新性 |
1.3 本文的组织结构 |
第二章 同时捕获肿瘤间和肿瘤内异质性的基因网络重构 |
2.1 引言 |
2.2 方法 |
2.2.1 定义问题 |
2.2.2 估计 |
2.2.3 算法 |
2.2.4 调优参数的选择 |
2.3 模拟实验数据分析 |
2.3.1 模拟数据的生成 |
2.3.2 模拟实验结果 |
2.3.3 运行时间比较分析 |
2.4 真实数据的应用 |
2.4.1 乳腺癌数据的获取 |
2.4.2 乳腺癌基因网络的分析 |
2.4.3 真实数据的对比实验 |
2.4.4 基于TCGA乳腺癌数据集的调优参数的敏感性分析 |
2.4.5 肿瘤纯度信息对模型性能的影响 |
2.5 总结 |
第三章 同时考虑基因交互作用和基因表达变化的差异网络分析 |
3.1 引言 |
3.2 方法 |
3.2.1 定义问题 |
3.2.2 量化基因交互作用变化的检验统计量的构建 |
3.2.3 量化基因表达水平变化的检验统计量的构建 |
3.2.4 层次差异网络分析模型 |
3.2.5 调优参数的选择 |
3.3 实验数据分析 |
3.3.1 模拟实验数据分析 |
3.3.2 模拟实验结果 |
3.4 在TCGA乳腺癌数据中的应用 |
3.4.1 乳腺癌数据的获取 |
3.4.2 基因网络重布线分析 |
3.4.3 乳腺癌数据的对比实验 |
3.5 在急性髓细胞白血数据中的应用 |
3.5.1 急性髓细胞白血数据的获取 |
3.5.2 基因网络分析 |
3.5.3 急性髓细胞白血病数据的对比实验 |
3.6 总结 |
第四章 总结与展望 |
攻读学位期间已发表和投稿的学术论文 |
插图 |
表格 |
参考文献 |
致谢 |
(5)黑龙江省乡村聚落形态基因研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的和意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 相关概念界定 |
1.3.1 乡村聚落 |
1.3.2 形态基因 |
1.4 国内外相关研究概况 |
1.4.1 国外相关研究 |
1.4.2 国内相关研究 |
1.4.3 国内外文献综述简析 |
1.5 研究内容与方法 |
1.5.1 研究内容 |
1.5.2 研究方法 |
1.6 论文框架 |
第2章 研究基础 |
2.1 理论基础与技术支撑 |
2.1.1 理论基础 |
2.1.2 技术支撑 |
2.2 乡村聚落空间形态体系构成 |
2.2.1 乡村聚落系统与空间形态 |
2.2.2 乡村聚落形态层级 |
2.2.3 乡村聚落形态要素 |
2.2.4 乡村聚落形态表征 |
2.3 乡村聚落形态基因研究框架 |
2.3.1 乡村聚落形态基因认知框架 |
2.3.2 乡村聚落形态基因信息框架 |
2.3.3 乡村聚落形态基因应用框架 |
2.4 本章小结 |
第3章 黑龙江省乡村聚落形态现状调查与分析 |
3.1 黑龙江省乡村聚落调查与数据收集 |
3.1.1 乡村聚落研究样本选择与数据获取 |
3.1.2 乡村田野调查 |
3.1.3 数据查询与处理 |
3.2 黑龙江省乡村聚落空间形态要素分析 |
3.2.1 边界形态要素分析 |
3.2.2 街道形态要素分析 |
3.2.3 建筑群形态要素分析 |
3.2.4 开放空间形态要素分析 |
3.2.5 庭院形态要素分析 |
3.3 黑龙江省乡村聚落空间形态表征分析 |
3.3.1 形态表征相似性分析 |
3.3.2 形态表征多样性分析 |
3.3.3 形态表征非线性分析 |
3.3.4 形态表征变异性分析 |
3.4 黑龙江乡村聚落空间形态差异成因分析 |
3.4.1 自然环境因素分析 |
3.4.2 产业类型因素分析 |
3.4.3 民族文化因素分析 |
3.4.4 城乡关系因素分析 |
3.5 本章小结 |
第4章 乡村聚落形态基因识别与信息挖掘 |
4.1 形态基因条目识别 |
4.1.1 形态基因条目识别原则与方法 |
4.1.2 形态因子与形态表征节点挖掘 |
4.1.3 基于节点关联的形态基因条目识别 |
4.2 形态基因条目提取 |
4.2.1 形态基因条目遴选 |
4.2.2 形态基因条目提炼 |
4.2.3 形态基因条目汇总 |
4.3 形态基因条目量化表达 |
4.3.1 形态基因条目量化方法 |
4.3.2 形态基因条目量化结果 |
4.3.3 形态基因条目数据可视化 |
4.4 形态基因信息挖掘 |
4.4.1 形态基因片段信息挖掘 |
4.4.2 形态基因序列信息挖掘 |
4.4.3 形态基因地图信息挖掘 |
4.5 本章小结 |
第5章 乡村聚落形态基因信息图谱建立 |
5.1 形态基因信息图谱组构框架 |
5.1.1 图谱体系内容 |
5.1.2 图谱体系关联 |
5.1.3 扩展信息关联 |
5.2 形态基因片段图谱构建与解析 |
5.2.1 形态基因片段图谱构建 |
5.2.2 “界”基因片段图谱解析 |
5.2.3 “架”基因片段图谱解析 |
5.2.4 “图”基因片段图谱解析 |
5.2.5 “底”基因片段图谱解析 |
5.2.6 “点”基因片段图谱解析 |
5.3 形态基因序列图谱构建与解析 |
5.3.1 形态基因序列图谱构建 |
5.3.2 自然环境类型图谱解析 |
5.3.3 乡村产业类型图谱解析 |
5.3.4 城乡关系类型图谱解析 |
5.4 形态基因地图图谱构建与解析 |
5.4.1 形态基因地图图谱构建 |
5.4.2 地形地貌分区图谱解析 |
5.4.3 产业类型分区图谱解析 |
5.4.4 民族文化分区图谱解析 |
5.4.5 城乡关系分区图谱解析 |
5.5 本章小结 |
第6章 乡村聚落形态基因信息平台构建与应用 |
6.1 乡村聚落形态基因信息平台构建 |
6.1.1 信息层构成 |
6.1.2 前端层构成 |
6.1.3 功能层构成 |
6.2 乡村聚落形态基因信息平台应用领域 |
6.2.1 乡村聚落空间风貌资源整合 |
6.2.2 乡村聚落空间风貌特质识别 |
6.2.3 乡村聚落空间风貌传承导引 |
6.3 乡村聚落形态基因信息平台应用实证 |
6.3.1 乡村聚落空间风貌传承与优化导引 |
6.3.2 乡村聚落传统空间风貌传承与保护 |
6.3.3 乡村聚落健康人居空间环境优化 |
6.4 本章小结 |
结论 |
参考文献 |
附录A 黑龙江省乡村空间与人居环境调查问卷 |
附录B 形态因子与形态表征共现关联系数测算结果 |
附录C 乡村聚落样本形态基因条目量化测算数据 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(7)基于癌症组学数据网络分析的驱动基因识别算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 引言 |
1.2 课题研究背景及意义 |
1.3 国内外研究现状 |
1.3.1 基于突变频率的驱动突变/基因识别算法 |
1.3.2 基于功能影响的驱动突变/基因识别算法 |
1.3.3 基于结构基因组的驱动突变/基因识别算法 |
1.3.4 基于通路和网络分析的驱动基因识别算法 |
1.3.5 驱动通路或驱动模块识别算法 |
1.4 本文的研究内容和安排 |
第二章 相关知识概述 |
2.1 引言 |
2.2 驱动基因与乘客基因 |
2.3 TCGA数据库 |
2.4 多组学数据 |
2.4.1 基因组数据 |
2.4.2 转录组数据 |
2.4.3 蛋白质组数据 |
2.5 复杂网络 |
2.5.1 网络的定义 |
2.5.2 网络的表示方法 |
2.5.3 网络的分类 |
2.5.4 网络的一般属性 |
2.5.5 网络的中心性 |
2.6 本章小结 |
第三章 基于二分图的驱动基因识别 |
3.1 引言 |
3.2 Driver Net算法 |
3.3 基于基因长度校正的癌症驱动基因识别算法 |
3.3.1 算法流程 |
3.3.2 实验数据 |
3.3.3 实验结果 |
3.3.4 总结与讨论 |
3.4 基于基因长度校正及共表达网络的驱动基因识别算法 |
3.4.1 算法流程 |
3.4.2 实验数据 |
3.4.3 实验结果 |
3.4.4 总结与讨论 |
3.5 本章小结 |
第四章 基于随机游走算法的驱动基因识别 |
4.1 引言 |
4.2 随机游走算法相关知识简介 |
4.2.1 传统随机游走算法 |
4.2.2 重启动随机游走算法介绍 |
4.3 算法流程 |
4.3.1 癌症相关网络的构建 |
4.3.2 种子基因的选择 |
4.3.3 网络节点中心性计算 |
4.3.4 改进的随机游走算法 |
4.4 实验结果 |
4.4.1 实验数据 |
4.4.2 对已知癌症基因预测性能评估 |
4.4.3 转移矩阵改进分析 |
4.4.4 种子节点选择的分析 |
4.4.5 前10个候选驱动基因分析 |
4.5 本章小结 |
第五章 基于多层网络的驱动基因识别 |
5.1 引言 |
5.2 传统NMF算法简介 |
5.3 算法流程 |
5.3.1 多层网络的构建 |
5.3.2 Driver-MulJNMF算法介绍 |
5.3.3 算法评估 |
5.3.4 参数选择 |
5.4 实验结果 |
5.4.1 实验数据 |
5.4.2 Hallmark富集分析及比较 |
5.4.3 文献检索分析 |
5.4.4 通路和功能富集分析 |
5.4.5 生存分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
(8)基于单细胞测序数据的胶质瘤基因标志物识别算法(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.3 论文主要工作及组织结构 |
第二章 相关理论基础 |
2.1 图论 |
2.2 复杂网络 |
2.3 分类算法 |
2.3.1 朴素贝叶斯算法 |
2.3.2 逻辑回归算法 |
2.3.3 K近邻算法 |
2.3.4 支持向量机算法 |
2.3.5 决策树算法 |
2.3.6 AdaBoost算法 |
2.3.7 随机森林算法 |
2.4 本章小结 |
第三章 基于单细胞基因表达数据的基因标志物识别算法 |
3.1 算法框架概述 |
3.2 单细胞基因表达数据预处理 |
3.3 肿瘤共识基因识别 |
3.3.1 PCA分析 |
3.3.2 单样本细胞群初划分 |
3.3.3 共识基因识别 |
3.4 肿瘤细胞类型识别 |
3.4.1 特异调控网络构建 |
3.4.2 特异调控表达矩阵构建 |
3.4.3 混合聚类识别细胞类型 |
3.5 肿瘤标志基因识别 |
3.5.1 基于肿瘤特征向量的肿瘤标志基因识别方法 |
3.5.2 基于风险预后分类结果的验证分析 |
3.6 本章小结 |
第四章 实验结果与分析 |
4.1 实验数据 |
4.1.1 胶质瘤单细胞基因表达数据 |
4.1.2 初始调控关系 |
4.1.3 已知的胶质瘤相关基因 |
4.1.4 常规测序基因表达数据 |
4.2 单细胞基因表达数据预处理结果分析 |
4.2.1 单细胞基因表达数据的样本间差异性分析 |
4.2.2 单样本单细胞基因表达数据预处理结果 |
4.3 肿瘤共识基因结果分析 |
4.3.1 识别过程分析 |
4.3.2 趋同性分析 |
4.4 特异调控网络结果分析 |
4.4.1 调控网络数据分布 |
4.4.2 特异调控网络分析 |
4.5 细胞类型识别结果分析 |
4.6 肿瘤标志基因识别结果分析 |
4.6.1 风险预后分类结果分析 |
4.6.2 识别结果的具体分析 |
4.7 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 进一步工作展望 |
参考文献 |
致谢 |
作者简介 |
(9)面向序列分类问题的机器学习算法集成及其应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 研究背景与意义 |
一、研究背景 |
二、研究意义 |
第二节 研究目标与思路 |
一、研究目标 |
二、研究思路 |
第三节 研究内容与安排 |
一、研究内容 |
二、结构安排 |
第二章 理论基础与文献综述 |
第一节 引言 |
第二节 序列分类问题与文献综述 |
第三节 机器学习理论与文献综述 |
第四节 生物信息理论与文献综述 |
第五节 本章小结 |
第三章 基因序列数据转换处理及频谱信息的快速算法 |
第一节 引言 |
第二节 序列数据特征表示 |
一、序列数据特征表示方法 |
二、基因序列特征表示方法 |
第三节 序列数据映射转换 |
一、基于Voss映射转换 |
二、基于Z-curve映射转换 |
三、基于实数映射转换 |
第四节 序列频谱信息挖掘 |
一、基因识别原理 |
二、频谱信息计算 |
三、不同映射对比 |
第五节 频谱挖掘快速算法 |
一、稀疏优化原理 |
二、快速算法设计 |
三、复杂度的优化 |
四、优化效果评价 |
第六节 本章小结 |
第四章 基于阈值判别的基因序列分类机器学习算法集成 |
第一节 引言 |
第二节 靴带抽样与回归型支持向量机算法 |
一、靴带抽样 |
二、SVR算法 |
第三节 基于靴带抽样的最优阈值判别算法 |
一、推断原理 |
二、评价指标 |
三、推断模型 |
第四节 基于SVR学习的最优阈值判别算法 |
一、SVR学习步骤 |
二、SVR算法求解 |
第五节 基于集成学习的最优阈值判别算法 |
一、集成学习步骤 |
二、实验结果分析 |
第六节 分类结果可信度评价及其实验分析 |
一、基于给定阈值的分类结果可信度评价方法 |
二、基于ROC曲线的分类结果可信度评价方法 |
三、基于评级模型的分类结果可信度评价方法 |
四、模型求解及有效性探讨 |
第七节 本章小结 |
第五章 基于概率判别的基因序列分类机器学习算法集成 |
第一节 引言 |
第二节 动态贝叶斯网络与隐马尔可夫模型 |
一、动态贝叶斯网络 |
二、隐马尔可夫模型 |
三、参数估计和学习 |
第三节 基于动态贝叶斯网络的基因序列分类可信度评价 |
一、事件树向离散时间贝叶斯网络的转换 |
二、基因序列离散时间贝叶斯网络的构建 |
三、基因外显子预测概率可信度评估模型 |
第四节 隐马尔可夫判别模型及其综合可信度指标的引入 |
一、基因序列的隐马尔科夫模型构建 |
二、模型的算法设计与训练优化原理 |
三、分类结果的可信度综合评价方法 |
第五节 仿真实验与结果分析 |
一、实验结果 |
二、结果分析 |
第六节 本章小结 |
第六章 基于全局优化的基因序列分类机器学习算法集成 |
第一节 引言 |
第二节 BP神经网络模型的构建 |
一、建立指标体系 |
二、构建网络模型 |
第三节 与遗传算法的集成优化 |
一、遗传算法设计 |
二、集成学习步骤 |
第四节 仿真实验及其结果分析 |
一、有效性分析 |
二、准确性分析 |
第五节 在基因突变预警中的应用 |
一、基因突变概述 |
二、基因突变预警 |
第六节 本章小结 |
第七章 总结与展望 |
第一节 论文总结 |
第二节 研究展望 |
参考文献 |
附录一 |
附录二 |
附录三 |
致谢 |
个人简历及在学期间完成的研究成果 |
(10)面向复杂疾病诊疗的组学大数据分析方法及应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 复杂疾病威胁人类健康 |
1.1.2 组学大数据的爆发带来新的机遇 |
1.1.3 精准诊断与治疗的意义 |
1.2 相关研究工作 |
1.2.1 基于组学大数据的疾病诊断研究 |
1.2.2 基于组学大数据的靶点识别研究 |
1.2.3 基于组学大数据的药物重定位研究 |
1.2.4 基于组学大数据的复杂疾病诊疗面临的挑战 |
1.3 本文工作 |
第二章 基于多模态相似矩阵分解的癌症亚型分类方法研究 |
2.1 引言 |
2.2 M2SMF方法设计与分析 |
2.2.1 数据与预处理 |
2.2.2 带组稀疏约束的多模态矩阵联合分解 |
2.2.3 NAM指标定义与模拟数据生成 |
2.3 M2SMF方法的应用 |
2.3.1 模拟数据测试结果 |
2.3.2 基于多模态数据乳腺癌亚型分类结果与方法性能评估 |
2.3.3 多种癌症数据上的亚型分类方法性能评估 |
2.4 小结 |
第三章 基于多源组学数据的乳腺癌靶点识别方法研究 |
3.1 引言 |
3.2 方法设计与分析 |
3.2.1 数据来源 |
3.2.2 靶点识别方法 |
3.3 靶点识别方法的应用 |
3.3.1 对乳腺癌亚型基因表达模式的刻画 |
3.3.2 Luminal A亚型候选靶标识别 |
3.3.3 各亚型候选靶标的识别与排序 |
3.4 小结 |
第四章 基于矩阵三分解的肝癌亚型分类与特异性靶点识别方法研究 |
4.1 引言 |
4.2 NMTFOSC方法设计与分析 |
4.2.1 数据与预处理 |
4.2.2 带正交约束和稀疏约束的非负矩阵三分解模型 |
4.3 数值实验 |
4.3.1 基于模拟数据的指标评估 |
4.3.2 亚型分类结果分析 |
4.3.3 基因集富集分析 |
4.3.4 亚型特异性靶点预测与分析 |
4.4 小结 |
第五章 基于GSEA与细胞反应大数据的乳腺癌放疗增敏剂药物重定位研究 |
5.1 引言 |
5.2 方法设计与分析 |
5.2.1 数据来源与预处理 |
5.2.2 GSEA方法基本原理 |
5.2.3 基于GSEA的乳腺癌放疗增敏剂预测 |
5.3 实验验证 |
5.3.1 实验材料与试剂 |
5.3.2 实验方法 |
5.3.3 博舒替尼显着增强放疗对乳腺癌细胞的杀伤效果 |
5.4 小结 |
第六章 基于正交非负矩阵分解与细胞反应大数据的抗乙肝药物重定位研究 |
6.1 引言 |
6.2 方法设计与分析 |
6.2.1 数据处理 |
6.2.2 抗乙肝药物筛选方法与特征分析 |
6.3 实验验证 |
6.3.1 细胞内实验验证 |
6.4 小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 工作不足与展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
四、基因识别计算方法的回顾与展望(论文参考文献)
- [1]基于生物分子网络的致病基因识别方法研究[D]. 尚海霞. 山东大学, 2021(10)
- [2]客票数据驱动的道路客运出行行为模式辨识及规律研究[D]. 钱剑培. 北京交通大学, 2021(02)
- [3]基于转录组数据的组织免疫细胞预测模型构建和应用[D]. 陈秭宜. 北京协和医学院, 2021(02)
- [4]基于高斯图模型的肿瘤异质性解析方法研究[D]. 涂佳娟. 华中师范大学, 2021(02)
- [5]黑龙江省乡村聚落形态基因研究[D]. 王翼飞. 哈尔滨工业大学, 2021
- [6]一种基于网络整合的复杂疾病风险基因识别方法[D]. 邱明. 黑龙江大学, 2020
- [7]基于癌症组学数据网络分析的驱动基因识别算法研究[D]. 魏丕静. 安徽大学, 2020(01)
- [8]基于单细胞测序数据的胶质瘤基因标志物识别算法[D]. 马雨盈. 西安电子科技大学, 2020(05)
- [9]面向序列分类问题的机器学习算法集成及其应用[D]. 孟凡祥. 上海财经大学, 2020(04)
- [10]面向复杂疾病诊疗的组学大数据分析方法及应用[D]. 尹晓尧. 国防科技大学, 2019(01)