随机最近邻分类算法研究_汉语反向词典降重

一、随机近邻分类的算法研究（论文文献综述）

陈磊^[1]（2021）在《高压断路器振动信号特征提取及故障诊断方法研究》文中认为高压断路器是电力系统的关键组件,其在电力系统中起控制（投切负荷）和保护（切断故障）作用。高压断路器一旦发生故障,将直接危害整个电力系统的安全与稳定。国内外众多针对高压断路器可靠性的调查结果表明,机械故障是断路器失效的主要因素。因此,开展高压断路器机械故障监测与诊断方法研究,并据此制定合理的维护与检修策略,对于提高电力系统的可靠性具有重要意义。传统定期检修的维护方式已不符合高压断路器智能化发展要求。近年来,基于机器学习算法的高压断路器智能故障诊断方法得到了广泛研究与关注。该类方法在较为理想的诊断条件下普遍取得了良好的诊断效果,但是在实际的故障诊断情形中,仍有一些问题亟待解决。本文以高压断路器为研究对象,以振动信号为媒介,从信号特征提取与故障识别方面展开研究,针对常规机器学习算法在高压断路器实际故障诊断情形中的局限性,提出了相应的解决方案。论文主要内容及创新点如下:（1）针对高压断路器振动信号特征提取问题,提出了一种基于机构动作时间参数的特征提取方法。首先,基于短时Teager能量和短时二次方能量设计了动作事件增强参数,据此从振动信号中提取了机构动作时间参数;然后,利用所提取的机构动作时间参数对振动信号进行分段;最后,计算每段信号的能量熵作为机器学习算法的特征向量。与等时间分段和等能量分段所计算的特征向量相比,基于机构动作时间参数所计算的特征向量在空间中表现出更好的类别区分效果。（2）分析了不平衡数据（正常样本数量多于故障样本数量）和故障数据未标记（监测数据仅有正常样本或发生未知故障）两种情形对常规机器学习算法所建立的诊断模型性能的影响。实验结果表明,不平衡数据和故障数据未标记会使诊断模型性能下降,甚至出现失效情况。不平衡数据使得诊断模型偏向于正常状态,导致故障识别精度较低,且此问题随着数据不平衡程度的加重而愈加严重;故障数据未标记使得常规机器学习算法难以建立有效的诊断模型,无法识别出未被标记过的故障。基于以上两种实际故障诊断情形的分析,引出后续章节的研究。（3）针对高压断路器实际监测数据不平衡现象,提出一种过采样算法对数据再平衡。过采样算法通过合成新样本方式来增加少数类别样本数量,使得不同类别样本数量趋于平衡。然而,现有过采样算法在合成新样本时存在一定盲目性,没有充分考虑数据的分布特性,可能会导致无效合成或错误合成。为缓解此问题,本文提出一种新的过采样算法,即密度加权少数类别过采样算法（Density-weighted Minority Oversampling,DWMO）。DWMO 算法根据原始数据的分布特性,对不同区域样本设置不同的过采样权重,实现了新样本的高质量合成,有效缓解了不平衡数据所带来的分类偏差。实验结果表明,DWMO算法能够有效提高常规机器学习算法在高压断路器不平衡数据故障诊断中的诊断性能。（4）针对高压断路器不平衡数据故障诊断中,常规机器学习算法诊断精度低的问题,提出一种基于单分类极限学习机（One-class Extreme Learning Machine,OCELM）集成的不平衡数据分类算法（Multi-class Classification Algorithm Based on OCELM Ensemble,MC-OCELM）。MC-OCELM 算法中集成了多个 OCELM模型,OCELM模型数量根据训练集中类别数量自适应调整以保证每个类别均对应一个OCELM模型。训练时,MC-OCELM算法中的每个OCELM模型基于各自对应的类别单独训练。正是由于这一训练特点,MC-OCELM算法有效规避了不平衡数据的影响。实验结果表明,MC-OCELM算法在高压断路器不平衡数据故障诊断中取得了比常规机器学习算法更好的诊断效果。（5）针对高压断路器未标记故障识别问题,提出一种基于改进OCELM算法的高压断路器未标记故障识别方法。将未标记故障识别问题看作异常值检测问题,并尝试应用单分类算法解决。考虑到现有单分类算法在决策时普遍忽略了样本所在区域密度对决策边界的影响,将密度权重引入OCELM算法中,由此提出一种改进的OCELM算法,即密度加权单分类极限学习机（Denstiy-weighted One-class Extreme Learning Machine,DW-OCELM）。DW-OCELM 算法为高密度区域样本分配更高的权重,使得诊断模型倾向于拒绝低密度区域样本而尽可能接纳高密度区域样本。实验结果表明,DW-OCELM算法有效解决了高压断路器未标记故障识别问题,且取得了比其它常用单分类算法更好的未标记故障识别结果。

蔡瑞光^[2]（2021）在《伪近邻分类算法研究》文中指出分类问题是数据挖掘的主要任务之一。分类算法是指通过训练得到一个分类模型并对未知类别的样本进行预测,它在数据分析中的应用极其广泛。局部均值伪近邻算法（LMPNN）是将经典的局部均值K近邻算法（LMKNN）和伪最近邻算法（PNN）相结合,充分利用了数据集中每一个近邻样本的信息,减小了噪声点对分类准确率的影响。该算法的主要优点是简单、快速且易于实现。但是,该算法也存在着明显的缺陷。本文的主要工作就是针对LMPNN的缺陷进行改进,具体的研究内容和研究结果如下:针对局部均值伪近邻分类算法（LMPNN）对异常点和噪声点比较敏感的问题,提出了一种基于双向选择的伪近邻算法（BSPNN）。首先,利用邻近性度量选取k个最近邻,让测试样本和近邻样本通过互近邻概念进行双向选择;其次,通过计算每类中互近邻的个数及其局部均值的加权距离,从而得到测试样本到伪近邻的欧氏距离:最后,利用改进的类可信度作为投票度量方式,对测试样本进行分类。BSPNN算法在处理复杂的分类任务时,具有能够准确识别噪声点,降低近邻个数k的敏感性,提高分类器的性能等优势。在15个实际数据集上进行了仿真模拟实验,并与KNN算法、WKNN算法,LMKNN算法,PNN算法、LMPNN算法、DNN算法以及P-KNN算法进行了比较,仿真实验结果表明,基于双向选择的伪近邻分类器性能优于其它几种近邻分类算法。针对局部均值伪近邻算法（LMPNN）对k值比较敏感且忽略了每个属性对分类结果的不同影响等问题,提出了一种参数独立的加权局部均值伪近邻分类算法（PILWMPNN）。首先,利用差分进化算法的最新变体—SHADE算法对训练集样本进行优化得到最佳k值和一组与类别相关的最佳权重w;其次,利用得到的w计算测试样本与各类样本间的加权距离,并对测试集样本分类;最后,对15个实际数据集进行了仿真实验,并与其它8种分类算法KNN算法、FKNN算法、WKNN算法、LM PNN算法,LMKNN算法、MLMNN算法、WRKNN算法和WLMRKNN算法进行了比较,分类准确率和F1值大约提高了28%、23.1%;此外,Wilcoxon符号秩检验、Friedman方差秩检验以及Hollander-Wolfe两处理比较结果表明,参数独立的加权局部均值伪近邻分类算法在分类精度以及k值选择方面具有明显优势。

黄琦^[3]（2021）在《基于极限随机树的遥感影像的建筑物屋顶提取》文中指出随着社会的不断进步发展人口也不断增多,城市建设速度加快,建筑物也逐渐增加。建筑物是人类赖以生存的非常重要的物质条件,同时也对衡量人们生活水平和生活条件发挥着重要的作用,因此,建筑物信息作为地理数据库中的一种重要的数据源,建筑信息的收集尤为重要。科学技术的发展不断促进人类文明的进步,同时也不断推进了遥感技术的进步,遥感作为信息收集的一种非常重要的技术手段,在人类生活发挥着不可替代的作用。近几年多颗高分卫星发射升空促使卫星拍摄并返回地面的影像分辨率也不断升高,影像清晰度也不断升高,包含的地物信息越来越丰富,出现了高空间分辨率遥感影像（High Spatial Resolution Remote Sensing Image,HSRRSI）,HSRRSI包含丰富的建筑物信息如:光谱信息、几何信息以及纹理信息等,这些信息的存在使得使用自动化的方式来进行地理数据库中建筑物信息的更新成为可能。本文主要从建筑物屋顶（Rooftop,RFT）信息的提取展开讨论,使用面向对象的多尺度分割（Multi-scale segmentation,MSS）方法进行RFT的自动化提取。主要从以下几个着眼点入手展开对RFT提取的研究:（1）基于适应度函数的最优分割参数选择。本文主要使用面向对象的方法进行建筑屋顶的提取,本文使用的面向对象MSS方法进行HSRRSI分割,首先要进行MSS参数的选择,本文使用e Cognition9.0平台结合适应度函数进行RFT最优分割尺度参数的评价,找出MSS参数的最优的尺度参数、紧致度因子、以及形状因子。（2）基于极限随机树的特征选择。HSRRSI包含丰富的特征信息。充分利用这些信息有助于提高RFT的提取精度,但是过的多的特征加入到其中会引发“维数灾难”,使得提取效率下降,提取精度降低,因此本文利用极限随机树和皮尔逊相关系数进行特征选择和去冗余,找出对RFT贡献度最高的且冗余性较低的特征集合,进行RFT的提取。（3）基于最近邻分类特征的样本选择。样本选择作为屋顶提取的重要一个环节,在屋顶提取中占据非常重要的位置,样本选择的好坏会直接影响到RFT提取的结果,好的样本可以提高屋顶提取的精度和效率。本文采用最近邻分类特征的样本选择进行样本的选取,该种方法首先选择部分样本对HSRRSI进行分类,然后将错分的影像对象加入到样本当中,该种方法可以区分出难以识别和分类的影像对象。可以提高RFT提取精度。屋顶提取的精度不仅依赖于样本的选择和特征的选择,算法对样本的拟合程度和分类精度,也是非常重要的一个方面,因此本文从算法进行讨论选出针对本文最优的算法进行屋顶提取,主要从算法的精度、拟合时花费的时间、预测时花费的时间三个方面来评价机器学习算法的优劣程度,本文选择的机器学习算法主要有逻辑回归算法（Logistic Regression,LR）、K最近邻特征分类器算法（K-Nearest Neighbor,KNN）、决策树算法（Decision Tree Classifier,CART）以及随机森林算法（Random Forests,RF）。本文以章贡区的QuickBird HSRRSI数据为数据源,选择了Q1和Q2两个区域进行讨论,其中Q1区域处于城市较远的边缘区域,属于城市化进程中的过渡地带,该地区工业厂房较多,民用住宅较少,RFT分布较为分散,未利用地较多。Q2区域属于城市中心地带,居民区较多,RFT分布较为密集,整体空间分布较为紧密。本文选择Q1、Q2地区进行试验,通过最近邻特征选出最优的样本,并使用极限随机树算法和皮尔逊相关系数进行去冗余,选出最优的特征,然后根据样本和选出的特征,加入到选择的算法当中,找出和数据拟合度最高的分类器算法,并选用该算法进行建筑屋顶的提取。本文主要使用混淆矩阵来对提取的屋顶进行精度评价,其中选择的评价指标主要有生产者精度（Producer accuracy,PA）、用户精度（User accuracy,UA）以及总体分类精度（Overall accuracy,OA）RFT的提取精度进行评价,Q1、Q2最终的RFT提取的PA、OA、UA精度分别为85.2%、97.6%、89.03%和89.23%、91.3%、77.06%。

孙聪慧^[4]（2021）在《非独立同分布下异构数据KNN算法研究》文中指出数据挖掘顾名思义就是从海量数据中挖掘出对于企业或者个人来说有用的信息,因为数据挖掘能够为企业创造出更大的利益,所以数据挖掘的相关算法与技术层出不穷,并且已经广泛应用到了许多领域,成为推动大数据发展不可或缺的动力。分类分析是数据挖掘算法中的经典算法之一,其中KNN算法因其原理简单易懂又易于实现等特点被广泛的应用到数据挖掘领域。但因其也存在一些缺陷,如训练样本不均衡问题、冗余特征等会对分类结果产生影响,故而众多学者对其提出改进。然而传统KNN算法及众多改进算法均基于独立同分布,而现实生活中的数据大多数是以非独立同分布的形式存在的,也就是说数据对象之间、数据对象的属性之间以及属性值之间都会存在一定的相互联系,这些相互联系如果被忽略则会错失一些重要信息,从而导致分类结果不准确。因此本文基于非独立同分布思想对KNN算法进行了相关改进。本文的主要研究工作包括以下三点:第一,针对数值型数据,为解决传统KNN算法中因为训练样本不均衡和易受单个属性影响导致分类结果不准确的问题,提出一种基于类隶属度和特征权重的CFW-KNN算法。该算法通过计算数据密度确定球中心点和半径建立最小包围球,并根据训练样本所处位置确定类隶属度,再通过Relief F算法思想进行特征权重的计算,最后根据训练样本的类隶属度和特征权重更新类别决策规则,从而确定待分类样本的类别。实验结果表明,CFW-KNN算法能够使分类结果更加准确,提高分类准确率。第二,针对数值型数据,在改进后的CFW-KNN算法中运用非独立同分布思想,通过对数据集中各类隐含关系的挖掘,提出一种非独立同分布下的NIID＿CFW＿KNN算法。该算法首先利用改进后的Pearson相关系数公式整合出数据对象的耦合相似度矩阵,将原始数据集转化为具有耦合关系的新数据集,并将新数据集应用于CFW-KNN算法进行分类分析。实验结果表明,NIID＿CFW＿KNN算法的分类准确率有进一步的提升。第三,针对异构型数据,在NIID＿CFW＿KNN算法的基础上运用非独立同分布思想对类别型数据和数值型数据进行全局耦合关系分析,提出一种非独立同分布下针对异构型数据的NIID＿MCFW＿KNN算法。该算法充分挖掘出存在于类别型数据内部、数值型数据内部以及类别型数据和数值型数据之间的耦合关系,并将具有耦合关系的新数据集应用于CFW-KNN算法进行分类分析。实验结果证明,NIID＿MCFW＿KNN算法对异构型数据具有较好的分类效果。

蒋鋆^[5]（2021）在《面向癫痫预警任务的脑电信号分析算法研究》文中研究说明癫痫是一种伴有脑神经元异常放电的慢性非传染性神经系统疾病。临床医生通过视觉检出患者24小时包含丰富生理病理信息的脑电图完成对癫痫的检测诊断。由于视觉检测耗时耗力、主观因素强等缺点及脑电图能总体反映脑神经细胞电生理活动的特点,联合信号处理和模式识别的癫痫分析技术成为研究的热点。为了降低癫痫发作造成的伤害,在癫痫发作后利用脑电信号对癫痫事件分类检测的前提和基础上,通过癫痫患者的长期脑电记录识别检测出视觉无法观察到的癫痫发作先兆特征可以完成对癫痫的预警任务。癫痫的突发性和高危性严重影响患者的身心健康、增加医护人员的工作负担以及加大社会风险指标,癫痫发作的早期预测是癫痫疾病治疗的瓶颈。已有研究表明,在癫痫发作前患者的大脑模式已经发生变化,通过在发作前特定时间区间内完成对神经活动异常变化的检测可以有效实现癫痫预警。因此,在癫痫发作之前完成对发作事件的预测,医护人员发现警报信号后及时进行给药或电刺激等介入控制,可以减少发作次数并提高生活质量,这对于癫痫疾病的早期干预治疗有着重大的研究意义和临床价值。基于脑电信号的癫痫预警算法研究正处于起步阶段,面向实际临床应用时存在虚警率高、普适性差等问题,此外复杂多样的脑电信号也为癫痫研究带来了挑战。本文在完成不同时期癫痫脑电信号的检测基础上,在特定时间区间完成对癫痫发作先兆特征的识别从而实现癫痫的预警分析研究。分别针对现有面向临床诊断的癫痫脑电信号检测算法稳定性、复杂度以及普适性问题展开研究,建立相应的模型并探索方法的有效性。本文主要研究工作和创新性成果如下:（1）针对算法对癫痫信号表征能力不足导致面向多种分类任务时识别结果差异较大的问题,提出了基于散射变换的癫痫脑电信号检测算法。散射变换融合小波域和复数域的分析特性,通过复小波分解的级联和局部加权平均方法得到具有时移不变性和局部稳定性的信号特征,在多个散射路径不同方向、尺度的迭代分解为提高表征能力的稳定性做出贡献。利用散射变换域的模糊熵和对数能量熵特征得到对多个不同时期癫痫脑电信号的互补表征,充分挖掘了能够区分癫痫发作期信号与其他时期信号的有效动力学特征。在德国波恩大学癫痫脑电数据集上,利用极限学习机分类器完成八种不同“癫痫发作-其他”任务的分类,均取得了不低于99.56%敏感性、99.50%特异性、99.50%准确率和0.99Matthews相关系数的评价指标。稳定的识别结果表明了所提算法对不同时期癫痫脑电信号的有效表征能力,癫痫发作信号的可区分度得到有效提高。（2）针对检测模型复杂度高且需要人为经验选择特征的问题,提出了基于辛几何的癫痫脑电信号检测算法。直接在辛空间中通过辛相似变换完成对不同类型癫痫脑电信号的自适应特征提取,避免了人工设计特征的缺陷。作为哈密顿体系中的一种正则变换,辛相似变换能够保持原始脑电信号的可测性和基本特性。得到的特征向量之间不仅具有相互正交性,非线性变换的本质也更适合于癫痫脑电信号的动态分析,在提高表征能力的同时大大降低了模型的复杂度。将辛特征送入K近邻分类器中,在波恩大学癫痫脑电数据集的十种临床多分类任务中,敏感性、特异性、准确率和Matthews相关系数分别不低于为99.17%、99.17%、99%和0.96;在波士顿儿童医院23名受试者的多导联头皮脑电数据库的“癫痫发作-非癫痫发作”任务中,上述评价指标的平均性能分别为97.17%、99.72%、99.62%和0.92。分别在长、短程数据集中得到的实验结果验证了所提检测模型的较高分类精度和较低复杂度,为癫痫发作辅助诊断系统的开发奠定了基础。（3）为了在癫痫发作发生前完成对病人的警告,在前期实现不同时期癫痫脑电信号检测算法稳定性和低复杂度研究的基础上,在特定的时间区间内继续对基于癫痫发作先兆特征的预警任务展开研究。针对在多个受试者上普适性较差的问题,提出基于同步提取线性调频小波变换的癫痫脑电信号预警算法。通过结合短时傅里叶变换可逆性和理想时频表示稀疏性的优势获得一种相对理想且具有较高分辨率的癫痫脑电信号时频表征。引入线性调频率参数得到高能量集中度的时频脊线。通过舍弃扩散模糊区域的时频能量后仅保留与信号时变特性最相关的时频信息。最后利用辛几何分解得到发作先兆状态的有效特征并通过支持向量机完成对癫痫发作的预警分析。1min癫痫发作预测期和30min癫痫发作发生期的条件下,在波士顿儿童医院17名受试者的头皮癫痫脑电数据集中,对共计83次的癫痫发作事件取得了90.92%的平均灵敏度和0.14/h的虚警率;在Kaggle癫痫预测竞赛数据集所有受试者的颅内脑电数据上,所提算法的平均灵敏度和虚警率分别为91.5%和0.16/h。在不同癫痫预测数据集中多名受试者的不同类型脑电信号上验证了所提预警算法的普适性,为面向临床的癫痫预警分析算法提供了新的解决方案。综上,本文在完成多种不同时期癫痫脑电信号的后验性癫痫发作检测的研究基础上,立足于基于癫痫脑电信号研究的实际临床应用需求,提出了面向预警任务的癫痫脑电信号分析算法模型,实现了在癫痫发作前对病人准确可靠的警告。本文的工作为基于脑电信号的癫痫预警算法奠定了理论基础,为下一步癫痫的临床预警治疗系统的开发提供了一种解决方案。

郭景诗^[6]（2021）在《基于机器学习的心电信号情绪识别研究》文中进行了进一步梳理情绪识别和情感计算是人机情感交互的关键环节,也是研究热点。目前的情绪识别主要是基于语音语调、面部表情、身体姿态、文本信息、生理信号等。其中,基于生理信号的情绪识别研究尤为突出,主要包含生理信号的采集、特征提取和特征识别三个方面的研究。论文主要围绕情绪诱发范式的实验设计、心电（Electrocatdiogram,ECG）信号采集与预处理、心电波形检测与心率变异性（Heart Rate Variability,HRV）信号获取、心电和心率变异特征提取以及不同情绪状态下的ECG和HRV信号情感识别等方面进行了相关研究,旨在利用ECG生理信号实现较高的机器情绪识别准确率。主要完成工作和研究内容如下:1).情绪诱发实验范式设计。针对高兴、自豪、恐惧、愤怒4种情绪,通过精心挑选视频片段并打分评价,作为情感诱发素材,采用Superlab软件设计情绪诱发实验范式,诱发被试产生对应的四种正负性情绪。2).心电信号采集与预处理。首先利用MIT-BIH Arrhythmia数据集进行异常心电分析,将病理性心电剔除;再采用Augsburg情感生理数据集中的心电信号进行预处理后,获得纯净的情感心电数据;此外,通过MP150生理信号测量仪,自采集了4种情绪状态下的心电信号,利用Acknowledge 4.4软件去除采集心电信号中的工频干扰、基线漂移和运动伪迹,建立情感心电数据集。3).心电波形检测与HRV信号获取。采用小波变换提取心电信号小波系数的模极值和过零点,设置合适的阈值,检测心电R波,计算其一阶差分,进而获得不同情绪状态下的心率变异性信号。4).情感生理信号的特征提取。采用峰值检测分析法,提取不同情绪状态下的心电信号的时域统计特征,获得7维ECG特征向量;然后,提取心率变异性信号的时域、频域、时频域和非线性域特征,获得14维HRV特征向量。5).机器学习情感特征分类。为了对心电信号和心率变异性信号进行对比,选取心电和心率变异性信号特征,利用不同分类器进行情感识别。对于7维心电和心率变异性信号特征,采用萤火虫算法改进的支持向量机分类器,设计了基于ECG特征以及HRV特征的机器学习情绪分类模型,分别取得了91.5%和93.5%的平均分类正确率;设计子空间K近邻分类器,实现心电和心率变异性信号的情绪识别,分别取得了87.16%和88.78%的平均分类正确率;利用随机森林的树模型分类器算法,对心电以及心率变异性信号特征进行情绪分类识别,分别取得了79.19%和92.97%的分类准确率。此外,融合所提取的14维心率变异性信号特征,采用萤火虫算法改进的支持向量机、子空间K近邻、随机森林三种机器学习分类方法,进行情绪识别,分别取得了95%、91.84%和94.22%的平均分类准确率。6).情绪识别分类器性能评价。对比分析了三种分类器用于生理信号情绪识别的性能,包括改进的支持向量机、子空间K近邻、随机森林方法的情绪识别效果。结果表明:采用三种不同分类器算法,心率变异性信号的情绪识别正确率均高于心电信号;萤火虫算法改进的支持向量机对情绪识别的准确率要高于随机森林和子空间K近邻算法。此外,基于萤火虫算法改进的支持向量机分类器的F1-Score较高,平均为0.94,表明该分类器情绪识别泛化能力较强。因此,提取心率变异性信号多维特征,利用萤火虫算法改进的支持向量机分类方法,可以获得较好的分类性能,更好的实现生理信号情感识别。论文的研究成果在情感机器人、医疗健康、心理学、情境学习、多媒体游戏开发、以及商业领域有着重要的科学与应用价值。

鲁新新^[7]（2021）在《基于Landsat的阿拉尔棉田生育期植被指数与产量相关性研究》文中提出第一部分,各生育期阶段棉田面积提取算法优选。本研究以南疆阿拉尔垦区Landsat 8系列多时相遥感图像数据为数据源,利用ENVI对遥感影像进行数据预处理,并对影像进行掩膜提取。而后分别利用最大似然、神经网络、随机森林和支持向量机等算法并结合参数调节手段,分别对四个生育期影像的棉田面积进行提取,并对精度误差加以比较。结果显示,最大似然算法在棉花苗期、蕾期和吐絮期可以获得最好的计算精度,误差比分别为:0.56%、5.75%和8.97%;神经网络在花龄期有较好的提取效果,误差比为7.85%。第二部分,归一化植被指数（NDVI）与棉田产量关系分析。在第一部分影像处理的基础上,利用ENVI波段计算工具计算出各个时相阿拉尔垦区的NDVI图。从可靠渠道获取阿拉尔垦区内各个团场及农场的行政划分边界,而后使用Arc GIS绘制相应的矢量图。利用ENVI将剩余两年遥感图像分类后提取出各个生育期阶段图像中棉田区域,进一步使用这些范围矢量文件制作为棉田掩膜提取文件。下一步,使用绘制的各个团场区域矢量文件制作掩膜文件。基于ENVI提取各个年份及生育期阶段的阿拉尔NDVI数值图,第一步利用获取的阿拉尔棉田掩膜文件提取出阿拉尔垦区棉田区域的NDVI数值图,第二步使用上面制作的各个团场的掩膜文件提取出各个年份及生育期的团场NDVI数值图,最后计算出每幅团场NDVI数值图的平均NDVI值和像元数。团场产量方面,从兵团年鉴查询出研究年份各个团场及农场的皮棉产量（吨）,使用产量/对应NDVI数值图像元数计算出单位像元产量以便与像元平均NDVI相对应,基于神经网络、K近邻回归和梯度提升回归树算法将各生育期阶段像元平均NDVI与平均产量做相关性分析。分别从单个生育期阶段与产量、全生育期与棉田产量两个方面构建算法模型,通过参数调节确定各个算法最佳模型,并对比各个模型的精度结果以确定NDVI与产量之间相关性最高精度。结果表明:单生育期与产量方面,K近邻回归算法在吐絮期取得了最佳的模型精度,其R2=0.87。在全生育期与产量的分析中,神经网络模型下精度取得了最高值,即绝对系数为0.68。对比单生育期与多生育期的模型精度,无疑单生育期的精度更高,故基于吐絮期NDVI的K近邻回归模型为最佳相关性模型,最适合用来构建阿拉尔垦区或南疆棉田估产模型。该研究从南疆阿拉尔垦区棉花生育期阶段入手,基于Landsat遥感图像进行算法选取,对南疆地区不同生育期阶段棉田面积提取算法优选有一定的实际意义;对于NDVI与棉田产量的相关性研究为构建南疆棉田估产模型以及选取估产模型参数提供重要的理论依据。

崔鑫^[8]（2021）在《面向不均衡数据集的分类算法研究》文中指出随着信息技术的快速发展,各行各业所创造的数据总量以惊人的速度快速增长。为了能从海量的数据中获得有效的信息,数据挖掘技术应运而生。目前,数据挖掘已被广泛应用于多个领域,在全球竞争、社会生活等方面均发挥了重要作用。但是在实际应用中,人们发现很多数据集的样本并不是均衡分布的。而且,传统分类算法是建立在数据分布均衡的基础上,处理不均衡数据会过多关注多数类样本,难以保证更有分类价值的少数类样本的分类性能。因此,不均衡分类问题成为了亟待解决的问题。不均衡数据的分类问题中,采样算法是较为有效且常见的解决方法,因此本文从采样算法入手进行了深入的研究。本文针对不均衡分类问题提出了三个方法,具体工作如下:（1）本文结合聚类算法提出了合成少数类过抽样算法（Synthetic Minority Over-sampling Technique,SMOTE）的改进算法CSMOTE（Clustered Synthetic Minority Over-sampling TEchnique）。CSMOTE算法抛弃了SMOTE在最近邻间线性插值的思想,在少数类聚类所得簇的范围内合成新样本,并根据样本间的欧氏距离对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在多个数据集上,将CSMOTE算法与多个算法进行了对比实验,结果表明CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。（2）本文从集成学习的多样性入手提出了两阶段采样,并在其基础上提出了一种集成分类算法（Imbalanced data ensemble classification algorithm based on sampling and feature selection,IDESF）。两阶段采样在保证所得数据集中样本合理性的基础上,增加数据集间的差异性以此隐式的提高基分类器的多样性,并且可以平衡数据分布。将IDESF与其他不均衡分类算法在多个不均衡数据集上进行了比较,结果表明该算法可以获得较高的AUCarea和G-mean值,具有较为优异的分类效果。（3）本文将第三章提出的CSMOTE算法与Ada Boost进行了融合,从而提出了一种新的分类算法CSMOTE-Ada Boost。Ada Boost算法可以在算法层面增加难分少数类样本的权重,从而提高少数类样本的识别效果。CSMOTE过采样算法可以增加少数类样本数量,在数据层面降低其不均衡性,从而提高少数类识别效果。因此,CSMOTE-Ada Boost算法可以在数据层面和算法层面同时提高分类器对少数类的关注,从而进一步提高其分类效果。将CSMOTE-Ada Boost在多个不均衡数据集上与其他分类算法进行了对比实验,验证了该算法的有效性。综上,本文提出的算法可以有效解决不均衡分类问题,提高少数类的识别效果。

苏智杰^[9]（2021）在《基于XGBoost优化算法的G型恒星分类研究》文中研究表明人类作为一个物种、一个文明,想要生存下去,避免悲惨的灭亡结局,就必须把视线和精力投向头顶的星辰大海,正如复活节岛的波利尼西亚人必须要把生的希望投向浩瀚的太平洋一样。所以,对太空的探索尤为重要,而对恒星的分类是探索太空的重要组成部分,恒星的分类研究除了在卫星导航、太空种植、开发能源等方面有重要意义,还可以帮助我们研究恒星的起源与演变过程并理解银河系乃至宇宙的演化过程。对恒星的分类通常采用摩根·肯那分类法,即利用恒星温度从高到低分类为O,B,A,F,G,K,M,R,S,N等类型,再细分为各子型恒星,如G型恒星可分为G0,G1,…,G9。然而,恒星的温度并不能直接测得,而是通过对可以通过望远镜观测得到的恒星光谱数据进行分析得到。目前,研究者们普遍使用模板匹配法来对恒星进行分类,但是LAMOST与SDSS等巡天计划正在以每天上万条的速度获取恒星光谱数据,巨大的数据量使得模板匹配法难以满足需求,因此探索自动化光谱分类具有重要研究意义。本文选取太阳所在的G类恒星的光谱数据进行分类研究,数据均来源于LAMOST DR5。在获取数据后,先对下载的数据进行预处理,包括缺失值处理、归一化处理以及平衡数据处理。然后,选取多分类评价指标加权平均F1得分作为对各类算法分类效果的评价指标,介绍K最近邻、XGBoost、随机森林、支持向量机、MLP等算法的原理并测试各类算法对处理前后数据的分类效果,发现XGBoost分类得分0.7265明显优于KNN分类得分0.5897。最后,利用网格搜索和Stacking等方法优化XGBoost算法得到其对处理后数据分类得分0.9171。对其分类结果进行分析,得出以下几点结论:（1）SMOTE过采样技术在G型恒星光谱分类中,并不能提升机器学习算法的分类性能,使用相同数量的平衡数据为训练集,原始随机数据为测试集,可以在不影响公平性的情况下提升算法学习性能。（2）在G型恒星光谱的分类问题上,XGBoost算法的分类效果优于高斯贝叶斯、逻辑回归、K最近邻、决策树、随机森林、极端随机树算法,集成算法分类效果也普遍优于传统机器学习算法。（3）网格搜索优化能在较大程度上提高XGBoost算法对G型恒星光谱的分类效果,Stacking优化也能在一定程度上提升包括XGBoost、随机森林、支持向量机、MLP在内的多种算法对G型恒星光谱的分类效果。本文最终模型对G型恒星分类加权平均F1得分为0.9171,对于10类的多分类问题来说,是个不错的得分,可作为G型恒星自动化分类的模型并进行优化研究。（4）在多种算法分类中,G1、G4类恒星存在分类精确率略低的问题,G2类恒星存在召回率略低的情况,可能是由于G2类恒星和G1、G4类恒星光谱存在较强相似性,导致G2类恒星的光谱在机器学习算法的学习中容易被划分为G1和G4类恒星,影响最后的分类效果。

闫家荣^[10]（2021）在《面向非平衡数据的AdaBoost改进算法研究》文中认为分类是数据挖掘领域中一个重要的分支,普通的分类模型通常假设数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等,而使用不平衡数据集训练传统的分类器会导致模型对于少数类的预测精度很低,因此不平衡数据的分类问题一直是机器学习领域的研究热点。本文针对面向不平衡数据的分类方法开展研究,引入了基于样本权值的欠采样方法,样本局部密度计算方法以及样本误分代价计算方法,提出了三种面向不平衡数据的AdaBoost改进算法。本文的主要工作如下:（1）提出了一种基于欠采样和代价敏感的不平衡数据分类算法USCBoost（Undersampling and Cost-sensitive Boosting）,算法旨在对多数类样本进行欠采样,并将代价矩阵引入到权重更新公式中,使得错分少数类的样本权重增加更快。实验结果表明USCBoost算法与其他对比算法相比,在F1-measure值和G-mean值上有了显着提高,该算法处理不平衡数据分类具有一定可行性。（2）提出了一种基于样本密度的AdaBoost算法,算法首先使用样本K近邻计算每个样本局部密度,并将两类样本局部密度分别归一化,赋予每个样本权重,然后将其作为AdaBoost算法中的初始值。同时对本文提出的算法进行实验验证,算法对于少数类样本有着更好的识别能力。（3）提出了一种基于孤立森林的AdaCost算法,算法使用孤立森林得到每个样本的异常分数,再根据异常分数计算每个样本的误分代价,算法通过分别计算两类样本的误分代价再进行归一化,使每类样本的误分代价之和都为1,有效的区分了类内样本和类间样本,降低了噪声数据的影响。（4）设计并实现了基于集成学习的不平衡数据分类系统,系统集成了多个面向不平衡数据的集成分类算法和基分类器算法,包括数据集描述,参数设置,分类算法选择,运行结果模块,方便了用户在对于不平衡数据建模时选择更加合适的分类算法以及提高了对于分类算法调参的效率。

二、随机近邻分类的算法研究（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、随机近邻分类的算法研究（论文提纲范文）

（1）高压断路器振动信号特征提取及故障诊断方法研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.2 高压断路器结构及类型

1.3 高压断路器状态监测与故障诊断国内外研究现状

1.3.1 信号采集与分析

1.3.2 高压断路器故障诊断方法

1.4 本文主要研究内容

第2章基于机构动作时间参数的高压断路器振动信号特征提取方法

2.1 引言

2.2 实验平台及其工作原理

2.3 振动信号中提取机构动作时间参数方法

2.3.1 Teager能量算子

2.3.2 短时能量比

2.3.3 定位时间参数

2.4 故障模拟与信号测量

2.5 振动信号中提取机构动作时间参数结果分析

2.6 特征向量提取

2.7 本章小结

第3章不平衡数据及故障数据未标记对故障诊断模型的影响分析

3.1 引言

3.2 核极限学习机算法

3.3 理想条件下故障诊断结果分析

3.4 不平衡数据对故障诊断模型的影响分析

3.5 故障数据未标记对故障诊断模型的影响分析

3.5.1 无故障样本数据

3.5.2 发生未知故障

3.6 本章小结

第4章基于数据过采样的高压断路器不平衡数据故障诊断方法

4.1 引言

4.2 SMOTE类过采样算法局限性分析

4.3 DWMO算法

4.4 实验验证

4.4.1 DWMO算法在KEEL数据集分类中的应用

4.4.2 DWMO算法在高压断路器不平衡数据故障诊断中的应用

4.5 本章小结

第5章基于单分类极限学习机集成的高压断路器不平衡数据故障诊断方法

5.1 引言

5.2 OCELM算法

5.3 MC-OCELM算法

5.4 实验验证

5.4.1 MC-OCELM算法在KEEL数据集分类中的应用

5.4.2 MC-OCELM算法在高压断路器不平衡数据故障诊断中的应用

5.5 本章小结

第6章基于改进单分类极限学习机的高压断路器未标记故障识别方法

6.1 引言

6.2 DW-OCELM算法

6.3 实验验证

6.3.1 DW-OCELM算法在KEEL数据集异常检测中的应用

6.3.2 DW-OCELM算法在高压断路器未标记故障识别中的应用

6.4 本章小结

第7章结论与展望

7.1 研究结论

7.2 创新点

7.3 研究展望

参考文献

攻读博士学位期间发表的论文及其它成果

攻读博士学位期间参加的科研工作

致谢

作者简介

（2）伪近邻分类算法研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 基于分类算法k值选取的研究现状

1.2.2 基于分类算法决策函数的研究现状

1.2.3 基于分类算法邻近性度量选择的研究现状

1.2.4 基于分类算法特征加权的研究现状

1.3 存在的问题

1.4 本文主要研究工作

1.5 本文组织结构

1.6 本章小结

2 预备知识

2.1 K近邻分类算法及其相关概念

2.1.1 基本概念

2.1.2 数据预处理

2.1.3 相似性和相异性度量

2.1.4 评价方法和指标

2.1.5 交叉验证法

2.2 差分进化算法概述

2.3 本章小结

3 基于双向选择的伪近邻算法

3.1 KNN算法分析

3.2 基于双向选择的伪近邻算法

3.2.1 符号说明

3.2.2 互近邻

3.2.3 改进的类可信度

3.2.4 基于双向选择的伪近邻算法

3.2.5 算法复杂度分析

3.2.6 算法流程图

3.3 实验结果与分析

3.3.1 数据集介绍

3.3.2 评价指标

3.3.3 实验设计和结果

3.3.4 结果分析

3.4 本章小结

4 参数独立的加权局部均值伪近邻分类算法

4.1 算法基本思想

4.2 SHADE算法

4.3 参数独立的加权局部均值伪近邻分类算法

4.3.1 目标函数

4.3.2 本文算法

4.3.3 算法流程图

4.4 实验结果及分析

4.4.1 评价指标

4.4.2 非参数检验

4.4.3 实验结果

4.4.4 实验结果分析

4.5 本章小结

5 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

攻读硕士学位期间主要研究成果

（3）基于极限随机树的遥感影像的建筑物屋顶提取（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 当前研究存在的问题和不足之处

1.4 本文研究的主要内容、技术路线和拟解决的关键问题

1.4.1 本文研究的主要内容

1.4.2 技术路线

1.4.3 拟解决的关键问题

1.5 论文的组织结构及安排

第二章研究区域及数据概况

2.1 研究区数据介绍

2.2 土地利用现状分类准则

2.3 本章小结

第三章 RFT最优MSS参数选取

3.1 MSS概述

3.2 基于异质性最小原则的区域合并MSS算法及流程

3.3 最优RFT分割参数选择

3.3.1 适应度函数

3.3.2 基于ESP2 算法优化的RFT最优尺度参数的确定

3.3.3 RFT最优形状因子的确定

3.3.4 RFT最优紧致度因子的确定

3.4 本章小结

第四章基于极限随机树的HSRRSI特征选择

4.1 基于最近邻规则分类的样本选择

4.2 高分辨率影像特征介绍

4.2.1 HSRRSI的RFT光谱特征

4.2.2 HSRRSI的RFT几何特征

4.2.3 HSRRSI的RFT纹理特征

4.3 基于极限随机树和皮尔逊相关系数算法的HSRRSI特征选择

4.3.1 基于sklearn库极限随机树算法原理

4.3.2 基于sklearn库极限随机树算法的特征选择

4.3.3 皮尔逊相关系数进行特征去冗余

4.4 本章小结

第五章基于分类器算法的HSRRSI房屋屋顶提取

5.1 分类器选择以及参数确定

5.2 RFT提取结果以及精度

5.3 本章小结

第六章结论与展望

6.1 结论

6.2 展望

参考文献

致谢

攻读硕士学位期间的研究成果

（4）非独立同分布下异构数据KNN算法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要内容

1.4 论文组织结构

第2章分类方法概述与分析

2.1 数据挖掘概述

2.2 分类分析技术概述

2.3 决策树分类

2.4 贝叶斯分类

2.4.1 朴素贝叶斯分类法

2.4.2 贝叶斯信念网络

2.5 支持向量机分类

2.5.1 线性可分支持向量机

2.5.2 非线性可分支持向量机

2.6 KNN分类算法

2.6.1 KNN分类算法的三大要素

2.6.2 KNN分类算法的主要流程

2.6.3 KNN分类算法的优缺点

2.7 人工神经网络

2.7.1 人工神经元

2.7.2 人工神经网络结构

2.7.3 学习过程

2.8 本章小结

第3章非独立同分布学习的相关知识

3.1 非独立同分布思想概述

3.2 非独立同分布学习框架

3.3 非独立同分布方法的相关研究

3.4 非独立同分布下的KNN算法

3.5 本章小结

第4章 CFW_KNN算法

4.1 CFW_KNN算法基本思想

4.2 CFW_KNN算法实现

4.2.1 计算类隶属度

4.2.2 计算特征权重

4.2.3 更新类别决策规则

4.3 CFW_KNN算法描述

4.4 实验结果与分析

4.4.1 算法评价指标

4.4.2 实验数据

4.4.3 实验结果分析

4.5 本章小结

第5章 NIID_CFW_KNN算法

5.1 非独立同分布下数值型数据耦合关系表示

5.1.1 改进Pearson相关系数公式

5.1.2 属性的内耦合表示

5.1.3 属性间耦合表示

5.1.4 数据对象的耦合表示

5.2 NIID_CFW_KNN算法描述

5.3 实验结果与分析

5.3.1 算法评价指标

5.3.2 实验数据

5.3.3 实验结果分析

5.4 本章小结

第6章 NIID_MCFW_KNN算法

6.1 非独立同分布下异构数据耦合关系表示

6.1.1 类别型数据的属性耦合表示

6.1.2 类别型属性与数值型属性的耦合表示

6.1.3 异构型数据对象的耦合表示

6.2 NIID_MCFW_KNN算法描述

6.3 实验结果与分析

6.3.1 算法评价指标

6.3.2 实验数据

6.3.3 实验结果分析

6.4 本章小结

第7章总结和展望

7.1 全文总结

7.2 工作展望

参考文献

致谢

在学期间主要科研成果

一、发表学术论文

二、获奖情况

（5）面向癫痫预警任务的脑电信号分析算法研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 癫痫脑电信号

1.1.3 研究意义

1.2 癫痫脑电信号检测方法的研究现状与发展趋势

1.2.1 癫痫预警的国内外研究现状

1.2.2 存在的主要问题

1.3 本文研究内容和章节结构安排

1.3.1 本文的研究内容

1.3.2 本文的章节结构安排

第2章癫痫脑电信号分析检测框架及数据来源

2.1 癫痫脑电信号分类算法框架

2.1.1 预处理

2.1.2 特征提取

2.1.3 分类识别

2.2 癫痫脑电数据集

2.2.1 德国波恩大学癫痫脑电数据集

2.2.2 美国波士顿儿童医院癫痫脑电数据库

2.2.3 Kaggle癫痫预测竞赛数据集

2.3 算法性能的评价指标

2.3.1 癫痫检测算法的评价指标

2.3.2 癫痫预测算法的评价指标

2.4 本章小结

第3章基于散射变换的癫痫脑电信号检测算法研究

3.1 引言

3.2 散射变换理论基础

3.2.1 小波变换

3.2.2 散射变换

3.3 基于散射变换的癫痫脑电信号检测算法

3.3.1 基于模糊熵和对数能量熵的脑电信号特征提取

3.3.2 极限学习机

3.4 实验结果与分析

3.4.1 实验结果

3.4.2 文献对比与分析讨论

3.5 本章小结

第4章基于辛几何的癫痫脑电信号检测算法研究

4.1 引言

4.2 辛几何基础

4.2.1 奇异谱分析

4.2.2 辛几何的分解与重构

4.3 基于辛几何的癫痫脑电信号检测算法

4.3.1 基于辛几何算法的癫痫脑电信号特征提取

4.3.2 K近邻分类算法

4.4 实验结果与分析

4.4.1 波恩大学数据集实验结果

4.4.2 波士顿儿童医院数据库实验结果

4.4.3 文献对比与分析讨论

4.5 本章小结

第5章基于同步提取线性调频小波变换的癫痫脑电信号预警算法研究

5.1 引言

5.2 同步提取线性调频变换

5.2.1 短时傅里叶变换

5.2.2 同步提取变换

5.2.3 同步提取线性调频小波变换

5.3 基于同步提取线性调频变换的癫痫脑电信号预警算法

5.3.1 基于同步提取线性调频小波变换的脑电信号特征提取

5.3.2 支持向量机

5.4 实验结果与分析

5.4.1 同步提取线性调频小波变换的性能仿真实验

5.4.2 波士顿儿童医院数据库实验结果

5.4.3 Kaggle癫痫预测竞赛数据集实验结果

5.4.4 文献对比与分析讨论

5.5 本章小结

第6章总结与展望

6.1 本文工作总结

6.2 研究展望

参考文献

在学期间研究成果

致谢

（6）基于机器学习的心电信号情绪识别研究（论文提纲范文）

缩略语表

中文摘要

ABSTRACT

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 情绪识别的研究现状

1.2.2 生理信号情绪识别研究现状

1.2.3 情绪识别的应用现状

1.3 目前存在的问题

1.4 主要研究内容与论文结构

1.4.1 主要研究内容

1.4.2 论文结构

第二章情绪模型及心电信号概述

2.1 情绪的生理机制和情感模型分类

2.2 生理信号概述

2.2.1 心电信号

2.2.2 心率变异性

2.3 本章小结

第三章数据来源与心电信号处理

3.1 MIT-BIH Arrhythmia数据集简介

3.2 Augsburg生理数据集

3.2.1 Augsburg数据集简介

3.2.2 ECG信号预处理

3.2.3 心电信号波形检测

3.2.4 HRV特征信号获取

3.2.5 数据集扩增

3.3 情绪诱发实验范式设计

3.3.1 情绪诱发方式与素材的选取

3.3.2 情绪诱发实验范式设计

3.4 心电数据采集实验设计

3.4.1 实验方法

3.4.2 心电数据采集

3.5 心电信号预处理

3.5.1 去除基线漂移与伪迹

3.5.2 去除工频干扰

3.6 本章小结

第四章特征提取与分析

4.1 引言

4.2 心律不齐心电特征提取与分析

4.2.1 特征提取

4.2.2 特征分析

4.3 情感生理数据的特征提取与分析

4.3.1 ECG时域特征提取

4.3.2 HRV时域特征提取

4.3.3 HRV频域特征提取

4.3.4 HRV信号时频特征提取

4.3.5 HRV非线性特征提取

4.3.6 特征分析

4.4 自采情绪心电数据特征提取与分析

4.4.1 心电特征提取

4.4.2 特征分析

4.5 本章小结

第五章基于机器学习的生理信号情绪识别

5.1 支持向量机

5.1.1 SVM基本理论

5.1.2 萤火虫算法改进的支持向量机

5.1.3 算法实现

5.1.4 模型测试与结果

5.1.5 结果分析

5.2 K近邻算法

5.2.1 KNN基本理论

5.2.2 子空间KNN

5.2.3 算法实现

5.2.4 模型测试与结果

5.2.5 结果分析

5.3 随机森林算法

5.3.1 决策树

5.3.2 随机森林基本理论

5.3.3 算法实现

5.3.4 模型测试和结果

5.3.5 结果分析

5.4 机器学习算法对比分析

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

（7）基于Landsat的阿拉尔棉田生育期植被指数与产量相关性研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究目标与意义

1.2 技术路线

1.3 研究内容

1.4 国内外研究进展

1.5 小结

第2章材料与方法

2.1 研究区概况

2.2 数据来源

2.3 算法原理

2.4 算法选取

2.5 评价标准

第3章棉田面积提取算法优选

3.1 遥感图像预处理

3.2 分类流程

3.3 融合图像精度对比

3.4 算法精度结果

3.5 小结

第4章 NDVI与产量相关性

4.1 植被指数简介

4.2 常见的植被指数

4.3 植被指数选取

4.4 图像预处理

4.5 数据预处理

4.6 单生育期阶段NDVI与产量相关性

4.7 全生育期阶段NDVI与产量相关性

第5章结论与展望

5.1 结论

5.2 不足与展望

附录

单生育期与产量分析部分源代码

多生育期与产量分析部分源代码

参考文献

致谢

作者简介

（8）面向不均衡数据集的分类算法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文章节安排

第二章相关理论知识

2.1 分类

2.1.1 分类的基本概念

2.1.2 分类常用算法

2.1.3 分类模型的评价指标

2.2 不均衡分类

2.2.1 不均衡数据的本质

2.2.2 不均衡数据分类难点

2.2.3 不均衡数据的解决方法

2.2.4 不均衡分类的评价指标

2.3 集成学习

2.3.1 集成学习的基本概念

2.3.2 多样性产生方式

2.3.3 基学习器训练方法

2.3.4 组合策略

2.4 本章小结

第三章面向不均衡数据集的过采样算法

3.1 问题描述

3.2 SMOTE算法

3.3 CSMOTE算法

3.3.1 算法设计思想

3.3.2 算法流程

3.3.3 算法复杂度分析

3.4 实验设计及结果分析

3.4.1 数据集和评价指标

3.4.2 实验步骤

3.4.3 聚类参数k的确定

3.4.4 不同算法性能比较

3.5 本章小结

第四章基于采样和特征选择的不均衡多分类集成算法

4.1 问题描述

4.2 IDESF算法

4.2.1 两阶段采样

4.2.2 IDESF算法

4.2.3 算法复杂度分析

4.3 实验

4.3.1 数据集和评价指标

4.3.2 阈值对分类性能的影响

4.3.3 IDESF算法性能研究

4.4 本章小结

第五章基于采样和Ada Boost的分类算法

5.1 问题描述

5.2 CSMOTE-Ada Boost算法

5.3 实验

5.3.1 实验环境和实验数据

5.3.2 算法结构研究

5.3.3 算法性能研究

5.4 本章小结

第六章结论与展望

6.1 主要结论

6.2 展望

致谢

参考文献

附录:作者在攻读硕士学位期间发表的论文

（9）基于XGBoost优化算法的G型恒星分类研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景与研究意义

1.1.1 研究背景

1.1.2 研究意义

1.2 文献综述

1.3 研究思路

1.4 创新点与不足

第2章 G型恒星光谱数据的获取和处理

2.1 LAMOST DR5 数据介绍

2.2 光谱文件的选取

2.2.1 光谱文件的基本信息

2.2.2 光谱文件的下载选择

2.3 G型恒星光谱数据的预处理

2.3.1 G型恒星光谱波长流量图

2.3.2 G型恒星光谱数据缺失值处理

2.3.3 G型恒星光谱数据归一化处理

2.4 数据类别不平衡及过采样

2.4.1 数据不平衡问题

2.4.2 SMOTE过采样

第3章基于XGBoost算法的G型恒星分类

3.1 分类效果指标的选取

3.2 K最近邻算法及分类效果

3.2.1 K最近邻算法介绍

3.2.2 K最近邻算法对G型恒星分类的效果

3.2.3 过采样后K最近邻算法对G型恒星分类的效果

3.3 XGBoost算法介绍

3.3.1 XGBoost算法原理

3.3.2 XGBoost算法损失函数

3.4 XGBoost算法对G型恒星分类的效果

3.4.1 XGBoost算法对原数据分类的效果

3.4.2 XGBoost算法对平衡数据分类的效果

第4章基于XGBoost优化算法的G型恒星分类

4.1 XGBoost算法优化原理

4.2 XGBoost算法参数解释

4.2.1 通用参数

4.2.2 助推器参数

4.2.3 学习任务参数

4.3 网格搜索及参数优化

4.3.1 网格搜索介绍

4.3.2 网格搜索参数选择

4.3.3 最优参数对G型恒星分类的效果

4.4 XGBoost算法的Stacking优化及分类效果

4.4.1 XGBoost算法的Stacking优化

4.4.2 Stacking优化后的XGBoost算法对G型恒星分类的效果

第5章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

（10）面向非平衡数据的AdaBoost改进算法研究（论文提纲范文）

中文摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 不平衡数据研究现状

1.2.1 数据重采样方法

1.2.2 算法层面

1.3 本文工作以及组织结构

第二章相关工作概述

2.1 不平衡数据概述

2.2 数据采样方法概述

2.2.1 欠采样

2.2.2 过采样

2.3 经典集成算法概述

2.3.1 Boosting算法思想

2.3.2 AdaBoost算法

2.3.3 RUSBoost算法

2.3.4 AdaCost

2.4 决策树生成算法

2.4.1 ID3 算法

2.4.2 C4.5 算法

2.4.3 CART算法

2.5 评价指标

2.6 本章小结

第三章基于欠采样和代价敏感的不平衡数据分类算法

3.1 基于样本权值的欠采样

3.2 算法思想

3.3 实验分析

3.3.1 实验数据集

3.3.2 实验设计与结果分析

3.4 本章小结

第四章基于样本密度的Adaboost算法

4.1 样本加权方法

4.2 算法描述

4.3 实验设计与结果分析

4.3.1 实验数据集

4.3.2 实验设计与结果分析

4.4 本章小结

第五章基于孤立森林的AdaCost算法

5.1 孤立森林介绍

5.2 算法思想

5.3 实验设计与结果分析

5.3.1 实验数据集

5.3.2 实验设计与分析

5.4 本章小结

第六章基于集成学习的不平衡数据分类系统

6.1 系统概述

6.2 系统模块介绍

第七章总结与展望

7.1 总结

7.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

四、随机近邻分类的算法研究（论文参考文献）

[1]高压断路器振动信号特征提取及故障诊断方法研究[D]. 陈磊. 华北电力大学(北京), 2021(01)
[2]伪近邻分类算法研究[D]. 蔡瑞光. 西安理工大学, 2021(01)
[3]基于极限随机树的遥感影像的建筑物屋顶提取[D]. 黄琦. 江西理工大学, 2021(01)
[4]非独立同分布下异构数据KNN算法研究[D]. 孙聪慧. 齐鲁工业大学, 2021(10)
[5]面向癫痫预警任务的脑电信号分析算法研究[D]. 蒋鋆. 吉林大学, 2021(01)
[6]基于机器学习的心电信号情绪识别研究[D]. 郭景诗. 山西大学, 2021
[7]基于Landsat的阿拉尔棉田生育期植被指数与产量相关性研究[D]. 鲁新新. 塔里木大学, 2021(11)
[8]面向不均衡数据集的分类算法研究[D]. 崔鑫. 江南大学, 2021(01)
[9]基于XGBoost优化算法的G型恒星分类研究[D]. 苏智杰. 江西财经大学, 2021(10)
[10]面向非平衡数据的AdaBoost改进算法研究[D]. 闫家荣. 山西大学, 2021(12)

标签：k近邻算法论文; 特征提取论文; 随机算法论文; 特征选择论文; 分类数据论文;

随机最近邻分类算法研究

一、随机近邻分类的算法研究（论文文献综述）

二、随机近邻分类的算法研究（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、随机近邻分类的算法研究（论文提纲范文）

（1）高压断路器振动信号特征提取及故障诊断方法研究（论文提纲范文）

（2）伪近邻分类算法研究（论文提纲范文）

（3）基于极限随机树的遥感影像的建筑物屋顶提取（论文提纲范文）

（4）非独立同分布下异构数据KNN算法研究（论文提纲范文）

（5）面向癫痫预警任务的脑电信号分析算法研究（论文提纲范文）

（6）基于机器学习的心电信号情绪识别研究（论文提纲范文）

（7）基于Landsat的阿拉尔棉田生育期植被指数与产量相关性研究（论文提纲范文）

（8）面向不均衡数据集的分类算法研究（论文提纲范文）

（9）基于XGBoost优化算法的G型恒星分类研究（论文提纲范文）

（10）面向非平衡数据的AdaBoost改进算法研究（论文提纲范文）

四、随机近邻分类的算法研究（论文参考文献）

猜你喜欢