一、K特征线法在文本分类上的应用(论文文献综述)
黄超[1](2020)在《基于商品名称的电商平台商品自动分类的研究与实现》文中研究表明随着大数据、云计算等新兴技术的不断涌现和我国电商平台的迅速发展,互联网中产生了大量的商品数据。伴随着时间的推移,商品的数量越来越多,如何在庞杂无章的海量商品中获取需要的商品,并且精细而准确地挖掘出自己所需商品的信息和对这些多种多样的商品进行分门别类的组织和管理就显得尤为重要。本文使用机器学习的流程将这些商品数据进行统计分析以获得规律,然后再运用这些规律对未知商品数据进行预测和分类。主要研究内容和结果如下:1.对原始数据集进行简单建模发现商品数据特征和数据类别存在数据不平衡的问题,研究爬虫方法、搜索策略和反爬策略,使用Python网络爬虫技术在电商平台采集数据生成新的数据集。对数据集进行数据清洗,包括简单数据清洗、重复值、缺失值、异常值处理,目的是为了保证数据的一致性、完整性、唯一性等,使其具有较高的“质量”。2.对数据进行预处理,包括中英文分词、特征向量化、特征降维、特征选择等处理,将数据转化成在建模阶段能够使用的数据。分词可以将句子或段落分解成词语,这样,计算机就可以将词语作为最小基本单位进行处理,理解其中的含义,而通过删除停用词、添加语料库等优化方法可以使分词更为准确。由于分类器只能处理数值型的数据,所以需要对数据进行特征向量化,但分词后的词语数量太多,生成的向量维度会很大。通过使用特征降维方法可以极大地降低向量值的维度,同时,使用特征选择中的前向选择特征和反向删除特征方法可以删除无关特征和冗余特征。3.研究了在Bagging算法的基础上扩展,将决策树作为基本单元的随机森林算法,对随机森林算法的生成流程和结合策略进行了分析和介绍。将传统的决策树算法与随机森林算法进行了对比,并结合了利用基尼系数选取特征和指定生成特征子集的大小对随机森林算法的特征选择方法进行了改进,提升了模型的分类性能。4.本文使用Python编程语言、Html语言、My SQL数据库实现了基于商品名称的电商平台商品自动分类系统。对系统各个模块进行了详细的设计和实现,最后对系统进行了功能测试,展示了系统的分类功能界面。系统完成了商品数据的分类任务,根据商品名称就可以比较准确的预测出该商品所属的类别,具有比较重要的现实意义。5.在实验阶段,通过实验数据验证了解决数据不平衡问题的实验效果,进行了决策树算法和随机森林算法对比实验和随机森林算法特征选择改进对比实验。首先使用留出法将数据集中的数据随机抽取20%的数据作为验证集,剩下80%的数据作为训练集,然后使用将交叉验证方法和模型评估方法结合的网格搜索算法调整决策树算法和随机森林算法中的超参数,最后利用性能评价指标评估模型的性能,对实验结果进行分析和对比,得出结论。
张斌[2](2020)在《基于LDA主题模型的《国家情报法》法律本体分析》文中研究表明近年来,在全球化趋势下,我国国家安全所面临的问题日趋复杂,信息化、技术化以及智能化的高速普及既给我国带来了发展的机遇,同时也带来了前所未有的挑战。而情报工作是国家安全领域的重要组成部分,更加需要制定合理的法律法规来进行约束、规范和保障,以期更好的发挥情报的“耳目、尖兵、参谋”的作用。本文的目的和意义在于通过分析《国家情报法》法律文本内部的逻辑关系,构建出一个逻辑意义上的模型和框架,既能够使这部法律的内涵和精神更加充分的体现出来,同时也对分析其他类似的法律法规起到借鉴和参考,还能够为在现实中将模型进行实现奠定了基础。为完成上述目的,从《国家情报法》的法律文本入手,对文本内容进行必要的处理之后,采用LDA主题模型对其进行文本分析,同时把分析出来的若干模型与本体框架中的若干要素进行以一一对应,确保模型在逻辑意义上是成立的。通过上述一系列方法和手段分析发现,《国家情报法》法律内部各部分之间的逻辑关系较为紧密,能够很好的体现以“国家领导”为核心的工作原则和“民本性”、“民族性”的工作理念;同时也为分析其他法律提供启示。
操然[3](2020)在《基于深度特征融合的高分辨率遥感图像场景分类》文中认为高分辨率遥感场景图像具有大范围、宽视野、数据量大且地物纹理信息丰富的特点。遥感图像场景分类旨在自动赋予遥感图像语义层面上的标签,在城市规划、地质勘探、土地资源管理和自然灾害检测等领域广泛应用。然而,高分辨率遥感图像中复杂的地物信息给遥感图像场景分类带来了巨大的挑战。近年来,卷积神经网络在计算机视觉领域取得了诸多出色成果,也被应用到遥感图像场景分类中。与传统的分类方法相比,基于卷积神经网络的遥感图像场景分类方法能够提取更深层次的视觉特征,有助于提高最终的分类效果,同时利用卷积神经网络的特性,大大减少了人工干预及计算代价。但是遥感场景图像的数据集很小且每张图像的分辨率很高,重新构建一个卷积神经网络结构可能会造成过拟合,分类效果不佳。针对这两个难点,本文提出了两种基于卷积神经网络的深度特征融合遥感图像场景分类方法。主要内容如下:1)本文针对遥感图像场景分类数据集小且图像分辨率高的特点,在卷积神经网络的基础上引入了迁移学习,利用预训练的模型对图像特征进行提取。这种方法由于不需要训练,既可以提取深层视觉特征,并且大幅降低了计算代价。在后续的研究中也验证此种特征提取方法的可行性与有效性。2)本文引入了注意力机制,提出了基于深度自注意力特征融合的遥感图像场景分类方法。遥感图像包含丰富的地物信息,对场景的分类具有重要的影响。为了充分利用这些地物信息,注意力机制将通过改变空间和通道权重的方式,获取包含更有利于场景图像分类的特征。其中采用的加权方式不包含任何参数也无需网络训练,仅利用预训练模型获取的卷积层特征即可计算。利用注意力机制将卷积层获得的深度特征进行加权融合,再将融合后的特征送入支持向量机进行分类。实验结果表明此种方法有效的提升了分类效果。3)为了实现端到端的加权融合策略,本文根据注意力机制提出了基于自适应特征加权融合的遥感图像场景分类,该方法则是利用循环神经网络进行显着特征权值的计算,完全无需人工干预,构建了端到端的网络结构。在三个公开数据集上的实验结果表明,该方法能够有效提升遥感场景分类的准确率。4)本文构建了遥感图像场景分类软件模块。并在该软件模块中嵌入本文提出的算法,能够实现遥感场景图像在线分类的功能。
彭博远[4](2020)在《基于海量新闻数据的重大事件趋势预测研究》文中指出重大事件趋势预测是指对影响国家或地区和平稳定的时政或军事事件演化规律的预测,是国际关系领域的一个热点研究问题。大数据时代的来临以及人工智能技术的发展,使得基于公开新闻数据的重大事件趋势预测成为可能。本文借鉴国际关系研究领域“事件数据分析法”的量化思想,为满足现有研究方法存在的特征指标构建以及事件趋势因果溯源上的需求,针对朝鲜核行为的趋势预测,南海争端中的征候事件检测与预测两方面开展研究。基于网络爬虫技术获取海量事件专题新闻数据,利用自然语言处理(Nature Language Processing,NLP)、机器学习等技术进行处理,构建预测模型并进行实验结果分析。论文主要内容如下:首先,由于当前基于海量新闻数据的重大事件趋势预测方法在特征指标构建方面严重依赖专家知识,这极大制约了相关方法的普适性与时效性。针对这一问题,本文提出一种融合语义与事件特征的重大事件趋势预测方法。分别利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型与基于模式匹配规则的事件抽取技术从语义及事件两方面进行相关特征指标的自动化构建,针对LDA主题模型在特征词提取上存在偏向性的问题,提出一种改进模型IDFLDA;对两类特征指标的互补性进行实验分析,验证了融合特征相比于单一特征的优越性;以朝鲜核行为趋势预测为例进行方法验证,提出方法的全时间段最佳预测准确率为86.2%,优于基于专家知识构建特征指标的传统方法预测结果。其次,为从事理层面对重大事件趋势预测结果进行合理性解释,本文对影响南海争端发展趋势中的征候事件检测与预测方法展开研究。将征候事件检测问题看作命名实体识别(Named Entity Recognition,NER)问题,提出一种基于Bi-LSTM-CNN-CRF的征候事件检测模型;将提出的检测模型作为数据标注模块,设计了一种基于LDA与多标签逻辑回归的征候事件预测方法;基于整理的南海专题新闻数据进行了征候事件检测与预测模型构建,对提出方法进行了验证。最后,对本文工作进行了总结与展望。
林毅[5](2020)在《基于特征融合和正则化的图像语义分析研究》文中进行了进一步梳理图像语义分析是填补图像低层特征和高层语义之间的语义鸿沟一系列方法的统称,是图像理解研究的重要分支,也是当前计算机视觉研究的热点之一。随着图像理解在当前互联网、多媒体等领域的应用日益广泛,图像、视频等多媒体数据与日俱增,相关应用对图像语义分析的需求也更加凸显。对图像语义分析的大量需求来自于两个方面:第一,对大量的图像数据在管理和检索需要对图像进行自动标注。第二,对图像内容的理解,需要对图像中的元素或物体进行识别、分割等处理。由于各种应用场景需求各异,图像语义分析问题的具体表现形式也复杂多样,加上图像语义分析问题本身的复杂性,导致现有图像语义分析方法不可能在所用的场景下都能良好完成语义标注任务和语义分割任务,在学术角度和工业发展方向都面临着许多的挑战。因此对图像语义分析的研究虽然一直在进步发展,但仍然有着众多未解决的问题和巨大的研究空间。对图像语义分析方法的研究,具有重要的理论意义和实际价值。本文深入研究了计算机视觉图像语义分析中两类方法的效用和性能提升,分别是特征融合方法和正则化方法。其中围绕特征融合方法,讨论了不同层面的特征融合:包括浅层特征融合深度模型、深度学习特征与浅层模型的融合。其次,针对图像语义分析中的模型泛化问题,讨论两类正则化方法在图像分类和图像分割中的应用。无论是特征融合方法,还是正则化方法,在图像语义分析中的应用都不是一蹴而就的,没有通用的范式遵循,需要针对具体问题和模型,解决如特征与模型的适配问题、不同特征的集成问题以及正则化手段的选取,误差函数和正则化项的设计等具体问题。因此针对这些具体问题和挑战,本文围绕图像语义分析从以下方面展开研究:本文研究了基于最大评价参数(Maximal Figure-of-Merit,MFoM)与深度神经网络系统融合的图像自动标注方法,基于MFoM学习框架,提出了 一种用于直接求解最大化平均精度均值(mean average precision,MAP)的方法,把每个单独的样本得分的AP近似为阶梯函数进行求解,与成对排序近似方法相比,我们的AP梯度近似方案显着降低了计算复杂度;鉴于深度神经网络(Deep Neural Networks,DNN)的分类器在图像分类方面具有很强的识别能力,本文提出的方法以MAP作为目标函数,通过深度神经网络的训练对其进行优化。将MAP方法与DNN技术相结合,将非线性元素引入到线性判别函数(Linear Discriminant Functions,LDF)中,以提高原基于MFoM训练的LDF分类器的灵活性和判别能力。实验结果表明,该方法相对于其他方案,取得了更好的结果。其次,本文提出了一种基于手工设计特征与深度学习特征融合的图像标注方法。把从原始图像中使用低层次的颜色特征和从卷积神经网络(Convolutional Neural Network,CNN)中学习的深度学习特征融合。将这两个特征的集合作为输入,到深度神经网络的图像自动标注(Automatic Image Annotation,AIA)系统中共同进行训练。在单标签数据集Cifar-10和多标签数据集Corel-5K的实验结果中可以得出结论,本文提出的方法能有效集成手工设计特征与深度学习特征提高标注性能。接下来,本文提出了一种示例嵌入正则化器,该方法通过将示例之间的关系作为正则化来学习更健壮的示例和包嵌入,来最大化示例嵌入中示例和示例标签的相似性之间的相关性。所提出的示例嵌入正则化器其使用包分类损失和示例分类损失以端到端的方式使用随机梯度下降方法进行优化,它同时提高了示例嵌入和包嵌入的学习性能。我们对药物分子活性预测、图像分类、文本分类和癌症预测的数据集进行了大量的实验。结果表明,该方法比以往的多示例网络有了显着的改进。最后,本文研究了图像分割算法,提出了一种基于深度神经网络的平滑正则化的图像语义分割方法。该网络集成了基于条件随机场(Conditional Random Fields,CRF)的整体嵌套边缘检测(Holistically-nested Edge Detection,HED)和全局平滑正则化。它是一个端到端、像素到像素的深度卷积网络,可以比基于HED的方法和使用CRF推理作为后处理的方法得到更好的结果。在三个视网膜血管图像数据集上的实验结果表明,本文提出的多层次特征融合可以更好的映射深层特性,而且CRF的全局正则化方法对其进行了优化,与其他先进的算法比较本文提出的深度监督平滑正则化网络(Deeply Supervised and Smoothed Regularized Network,DSSRN)获得了最佳性能。总而言之,本文针对图像分析中的图像语义标注和图像语义分割这两个研究问题,提出了几种基于不同特征融合策略和正则化手段的图像语义分析方法,在理论上有所创新,在性能上有显着提升,对图像语义分析的研究进展做出了一定的贡献。
罗灵鲲[6](2019)在《迁移学习技术及交互式图像分割相关问题的研究》文中进行了进一步梳理信息技术的快速发展使得人们可以通过越来越多的途径获得海量的信息,如何从这些信息和数据中提取有用的知识是非常重要的任务。传统的机器学习方法可以有效的挖掘数据、发现知识。但随着新数据量的激增,传统的机器学习方法遇到了缺乏足量的人为标注知识的问题。实际中学习数据和训练数据的概率分布差异使得很多机器学习方法失效。迁移学习是一种新的机器学习框架,该方法对于学习数据和训练数据不再需要严格的同分布的概率假设条件,可以使用不同概率分布下的学习数据去用于训练模型最终准确的判断和预测训练数据。交互式图像分割同样是机器学习的问题,通过对人为标记的先验知识学习最终实现未标记像素的分类。本文从迁移学习的理论入手,深入研究迁移学习方法并研究迁移学习和交互式图像分割的关系。提出的算法在迁移学习和交互式图像分割研究中都得良好的实验结果。本论文的主要研究工作如下:1、提出了流形结构保持的判别式迁移学习(Discriminant and Geometirc Aware Unsupervised Domain Adaptation,DGA-DA)算法。DGA-DA基于降维求解公共特征空间,考虑不同标签子域之间的判别式条件概率分布逼近。DGA-DA采用拉普拉斯图算法构建数据的关联结构图保持数据的几何特征分布,并对已标注的源域标签进行标签保持。DGA-DA实现了统计量的判别式概率分布逼近和知识传递,也解决了数据几何结构在不同维度空间中的统一的问题。通过8个数据库上的49组DA任务进行定量对比实验,实验结果表明DGA-DA算法的高效性和高精度。在仿真数据上的可视化实验结果论证了算法对几何结构有稳定的保持。2、考虑特征空间优化,通过对子空间进行良好分割和对齐不同的任务子空间。提出基于空间对齐的判别式迁移学习(Robust Data Geometric Structure Aligned Close yet Discriminative Domain Adaptation,RSA-CDDA)算法。该算法基于样本重构模型建模,采用无参统计估计和几何结构对齐的约束。通过对重构子空间的低秩和稀疏建模,解决了数据的局部几何结构保持以及不同子域的子空间分割和对齐的问题。仿真和实验结果初步讨论了RSA-CDDA的效率和可行性。通过对噪声和误差的建模约束,该算法进一步提升了DGA-DA算法的性能。通过数据库上的16组DA任务进行定量对比实验,结果比主流的DA算法有较大提升。3、提出基于样本重构和FLDA分类的交互式图像分割(Samples reconstruction and FLDA,SR-FLDA)算法。SR-FLDA是基于稀疏编码和分类思想构建的交互式图像分割算法。SR-FLDA采用迁移学习中的边缘概率分布逼近技术,实现了标记和未标记像素区域数据的分布统一。同时SR-FLDA采用稀疏编码构建了足够样本扩张标记数据的数据域,降低标签数据对于分割结果的影响。此外,SR-FLDA采用分类的思想结合超像素分割预处理,实现了非连通区域的分割。实验结果表明SR-FLDA对于弱交互的图像分割有明显的提升。同时SR-FLDA在MSRC和KIM数据库上的实验对比其余经典交互式图像分割算法都有较大提升。4、提出基于Fisher法则联合框架优化下的交互式图像分割(Samples reconstruction&binary and multiclass classificaiton,SR-BM)算法。SR-BM是基于样本重构和联合分类构建的交互式图像分割算法。该算法采用联合二分类和多分类的分类模型,解决了图像分割的语义任务和统计任务的统一的问题。在MSRC和KIM数据库上的实验结果表明SR-BM对于弱交互图像的分割有显着的提升。同时SR-BM对于超像素预处理和交互式标记有较高的鲁棒性。
吴绿[7](2018)在《基于局部特征和弱标注信息的图像分类和识别》文中认为为了实现图像内容类似文本化的表达,建立图像内容与文本之间不确定性的关联关系是机器视觉研究的难点问题。概率理论为解决这种不确定性推理问题提供了坚实的数学基础。近年来,随着各种推理计算复杂度快速下降算法的涌现,概率理论得到了迅速发展,由此也带动了基于概率图模型的理论方法在视觉信息处理中的广泛应用,进而使得基于概率图模型的图像分割、立体视觉、运动检测与跟踪、目标识别,以及需要对各种因素进行综合考虑的场景理解成为可能。本文在已有的图像分类和对象识别方法的基础上,深入研究如何在小样本数据条件下,提取有效的图像特征以实现图像的精准分类;针对像素级图像标注信息的缺乏,考虑加入一定的约束信息,联合概率主题模型建模,解决同类别条件下相似对象的发现和识别问题;针对复杂场景进行主题建模,引入对象的上下文语义信息,为多区域多对象的场景分割与对象识别问题提供一种解决方案。主要研究内容有:(1)针对支持向量机(Support Vector Machine,SVM)对数据缺失的不敏感性和对非线性问题无通用的解决方案,从“化繁为简”的思路出发,拆分已知图像类别信息的图像集为多个子集进行计算,引入线性直方图核函数取代传统高斯核方法,以避免核函数选择的不确定性和计算过程中非线性数据易陷入局部极小值问题,利用线性核函数较好的可扩展性和泛化性能,建立特征空间到线性空间映射的线性分类器,实现小样本数据快速准确的分类。(2)针对局部特征组合中金字塔硬划分方式造成的边界特征语义模糊性问题,提出一种区块特征软分配方法---sSPM(soft Spatial Pyramid Matching),通过在金字塔不同层级上建立硬划分边界特征的候选区域,构建候选区域与邻近图像块特征之间的距离函数关系,分析边界特征与区块特征的相似性,规范特征向量的空间表示,生成鲁棒的多尺度局部特征描述,利用拉格朗日乘子法和强对偶原理,设计优化的SVM多核分类器,面向sSPM描述的不同组合系数表示的局部特征设计分类实验,证明”sSPM+MKL”方法在削弱边界特征语义模糊性的同时还能提高图像的分类性能。(3)针对图像类内相似性大和类间相似性小导致的特征区分不明显问题,提出弱标注信息下共享部位特征的目标定位方法,利用主题模型聚类相似特征的思想,引入图像的标签语义,构建联合概率分布的“特征-部位-目标”的层次化结构模型,分析“特征-目标”之间的部位表示关系,建立“目标-特征”的部位共享池,学习不同比例共享部位特征构成的目标,实现弱监督学习方式下同类目标的智能检测;为消除噪声图片的干扰,利用信息熵衡量图像的相似性,定义无共享部位特征调用的为噪声图片,从不同角度验证提出方法的有效性,为实现同类图像下相似目标的准确发现和定位提供理论指导。(4)针对图像样本像素级标注缺乏造成的场景内容语义表达不清的问题,提出语义化的“Context+Focus”场景语义分割模型,利用广泛存在且容易获取的大量弱标注图像信息,建立“特征-部位-对象-场景”的层次结构模型,分析“自顶向下”的场景到对象的语义先验信息表达以及“由下至上”的特征到对象的概率描述关系,关联语义对象和特征对象之间的对应关系,根据语义标签权重的不同,形成语义化“focus”对象聚焦下的关联语义上下文“context”的多区域多对象的分布态势,结合Blocked-gibbs算法和后验概率的表达,推理场景各区域的语义信息,从而实现场景多区域语义联动分割和区域对象识别。
郑文静[8](2016)在《基于图的半监督情感分类算法研究》文中认为在互联网快速发展的今天,“大数据”的存储和使用,已经成为信息技术领域急需解决的问题。文本数据作为人类知识的载体,意义非凡,如何运用大量未标记样本来提升文本情感分类的精度,也变得愈发重要。本文主要研究了基于图的半监督情感分类算法,创新工作如下。(1)将半监督学习中重要的聚类核算法应用到情感分类问题中,给出了基于聚类核的半监督情感分类算法。首先在标记样本和未标记样本上,建立加权无向图后,求解聚类核。然后将该核函数用于SVM情感分类器的训练上,完成分类工作。该方法直接将未标记样本所蕴含的信息融合到核中,不需要建立多个分类器。实验表明,该算法在分类精度上明显优于基于Self-learning SVM和Co-training SVM的半监督情感分类算法,且在不同数据集上都有较好的适应性。(2)将聚类核算法同图最小分割法相结合应用到情感分类问题中,建立了基于图聚类核的半监督情感分类算法。首先在所有样本上进行构图,对邻近标记点和未标记点分别给予不同的权重。然后,求解出基于该图的聚类核,将通过聚类核从新表示后的数据带入到图最小分割法中,得到更好的分类效果。该算法更好的满足半监督学习的基本假设,有效利用了未标记样本中蕴含的信息。实验表明,该算法在分类精度上明显优于其他半监督情感分类算法,且不同数据集上都有较好结果。(3)将Graph-of-words文本表示模型引入半监督情感分类问题中,提出了两种基于Graph-of-words的半监督情感分类算法。在文本预处理过程中,使用Graph-of-words模型进行文本向量化,然后将上述模型与前面提出的分类算法想结合,完成情感分类问题。该算法考虑了文本表示方法对于情感分类算法的影响,进一步了提高半监督情感分类算法的分类精度。实验表明,基于Graph-of-words模型的半监督情感分类算法在分类精度上明显优于前面列举出的算法,改进效果明显。
杨欢[9](2016)在《基于文本分类的微博情感倾向研究》文中指出近年来,人们越来越依赖于社交软件来表达自己的观点,如使用微博、论坛、贴吧等渠道发表意见,表达情感。而人们对于热点事件和话题的各种各样的情感信息,则通过上述方式直观的反映了出来。因此,通过挖掘和研究大众对各类事件的情感倾向,可以达到对热点舆论的监控和大众看法的感知,为国家、企业等作出决策提供着重要依据。以往的信息检索及采集技术,多数是以关键词为基础,难以支持情感倾向的挖掘,信息提取和文本分类通常没有进行深层次的语义挖掘,因而对文本中所表达出的情感倾向无法进行深层次的挖掘。因此在大数据时代,有效地利用数据挖掘及文本挖掘的相关知识,挖掘微博热点信息以及评论中的情感倾向,将在商品智能推荐、政府舆情监控、文本自动分类等方面有广阔的发展前景。本论文的主要研究内容如下:(1)对情感倾向分析和文本分类的相关概念和技术做了分析,包括微博短文本情感倾向分类以及文本分类的国内外研究现状、文本分类常用的几种算法:支持向量机(SVM),最大熵、决策树、人工神经网络算法等,并重点分析了传统的k最近邻算法,研究算法的基本思路以及该算法在文本分类当中的应用。(2)基于传统的k最近邻算法,并结合一定的关联规则,本文提出了一种对于k最近邻算法的改进:基于主题--情感相关联的k最近邻算法,在文本分类时主题与情感相关联,进行特征值的组合,能够更好的确定k值,提高分类效率。(3)将改进后的基于主题--情感的k最近邻算法在微博热点信息数据集中加以应用,进行情感倾向正向、负向、中性三种分类实验,同时也利用传统的k最近邻算法进行对比实验。在实验前完成微博短文本预处理、特征频繁项集建立等工作。实验结果表明,较传统的k最近邻算法,本文改进的算法在查准率、查准率以及F1值等各项测评指标中都有所提高,降低了算法的时间复杂度,提高了情感分类的效率,有利于更加准确的挖掘微博热点信息中的情感倾向,在处理海量包含主题的中文热门微博时具有一定的可行性。
陈钊[10](2016)在《面向中文文本的情感分析方法研究》文中研究表明互联网的快速发展催生了各种网络社交平台。用户在网络社交平台上发表个人观点、评价产品等行为逐渐成为了日常生活的一部分。利用自然语言处理和机器学习技术对海量的用户文本数据进行分析,挖掘用户对特定事件、人物或产品的态度和评价,成为网络舆情监控和产品售后信息反馈的重要途径。因此,面向文本的情感分析方法研究具有很高的实用意义和商业价值。本文分别对中文文本情感分析研究中的文本情感特征提取和表示以及迁移学习这两个方面进行了研究。首先,现有的文本情感分析技术在文本的情感特征提取及表示方面,缺乏对深度学习模型和情感计算资源进行有效整合的方法。针对这个问题,本文研究了结合卷积神经网络和词语情感序列特征的中文情感分析方法。该方法以词语为研究单位,结合卷积神经网络和已有的情感计算资源,实现文本数据到文本情感特征向量的映射过程。在COAE2014微博情感倾向性判别的数据集上的实验结果显示,该方法相比于基线系统在正面情感倾向性判别和负面情感倾向性判别的F-Score上分别获得了0.97%和1.58%的提升。这一工作为融合深度学习模型和情感计算资源提供了一种可行的思路,有望成为文本情感分类研究的新方向。文本情感分析数据大量存在领域相关性和样本选择偏置的问题,影响了最优分类模型的构建。为此,本文从构建符合测试数据分布的训练数据集的角度出发,分别研究了基于k近邻的实例迁移学习方法、基于分类器迭代选择的实例迁移学习方法和基于高斯过程的知识迁移学习方法。在COAE2014微博情感倾向性判别的数据集上的实验结果显示,这三种迁移学习方法相比于基线系统,在文本的情感倾向性判别的整体性能上均获得了提升。其中,基于高斯过程的知识迁移学习方法取得最好效果,在正面情感倾向性判别和负面情感倾向性判别上的F-Score分别获得了5.01%和2.94%的提升。这一工作有效地降低了文本情感分析数据的领域相关性和样本选择偏置问题给分类模型带来的负面影响。
二、K特征线法在文本分类上的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、K特征线法在文本分类上的应用(论文提纲范文)
(1)基于商品名称的电商平台商品自动分类的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 本文组织结构 |
第2章 理论基础及相关技术 |
2.1 Python编程语言 |
2.2 Python网络爬虫 |
2.3 MySQL数据库 |
2.4 Jieba分词工具 |
2.5 Numpy |
2.6 Pandas |
2.7 Matplotlib |
2.8 Scikit-Learn |
本章小结 |
第3章 商品数据采集及数据清洗 |
3.1 数据采集 |
3.1.1 引入Python网络爬虫的目的 |
3.1.2 电商平台分析 |
3.1.3 爬虫方法 |
3.1.4 搜索策略 |
3.1.5 反爬策略 |
3.1.6 爬虫流程 |
3.2 数据清洗 |
3.2.1 数据清洗目的 |
3.2.2 数据清洗方法 |
本章小结 |
第4章 商品数据预处理 |
4.1 分词方法 |
4.1.1 英文分词方法 |
4.1.2 中文分词方法 |
4.2 分词优化方法 |
4.2.1 建立分词语料库 |
4.2.2 建立停用词库 |
4.3 特征向量化 |
4.3.1 词袋模型 |
4.3.2 TF-IDF模型 |
4.4 特征降维 |
4.4.1 主成分分析算法 |
4.5 特征选择 |
4.5.1 前向选择特征 |
4.5.2 反向删除特征 |
本章小结 |
第5章 决策树算法和随机森林算法研究及优化 |
5.1 Bagging算法 |
5.1.1 Bagging算法流程 |
5.2 决策树算法 |
5.2.1 决策树算法介绍 |
5.2.2 划分选择方法 |
5.3 随机森林算法 |
5.3.1 随机森林算法介绍 |
5.3.2 随机森林算法生成流程 |
5.3.3 结合策略之投票法 |
5.3.4 性能评价指标 |
5.3.5 随机森林算法特征选择改进 |
5.3.6 随机森林算法超参数优化 |
本章小结 |
第6章 商品自动分类系统实现 |
6.1 系统实现的意义 |
6.2 系统需求分析 |
6.3 系统模块详细设计与实现 |
6.3.1 数据清洗模块的设计与实现 |
6.3.2 数据预处理模块的设计与实现 |
6.3.3 分类模块的设计与实现 |
6.3.4 结果展示模块的设计与实现 |
6.3.5 数据存储模块 |
6.4 系统测试 |
本章小结 |
第7章 实验与结果分析 |
7.1 概要介绍 |
7.2 实验环境 |
7.2.1 硬件环境 |
7.2.2 软件环境 |
7.3 数据来源 |
7.4 实验结果与分析 |
7.4.1 数据不平衡对比实验 |
7.4.2 决策树算法和随机森林算法对比实验 |
7.4.3 随机森林算法特征选择改进对比实验 |
本章小结 |
结论与展望 |
1. 研究结论 |
2. 不足与展望 |
致谢 |
参考文献 |
(2)基于LDA主题模型的《国家情报法》法律本体分析(论文提纲范文)
中文摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.2.1 理论意义 |
1.2.2 现实意义 |
1.3 国内外研究文献简述 |
1.3.1 国内研究现状 |
1.3.2 国外研究现状 |
1.3.3 评述 |
1.4 研究内容 |
1.5 研究方法与技术路线 |
1.6 预计创新点 |
1.7 本章小结 |
2 相关概念和理论基础 |
2.1 相关概念 |
2.1.1 短文本的概念和特点 |
2.1.2 LDA主题模型概念和特点 |
2.1.3 本体的概念 |
2.1.4 文本挖掘的概念和特点 |
2.1.5 文本相似的概念 |
2.2 理论基础 |
2.2.1 TF-IDF算法 |
2.2.2 LDA主题模型在“短文本”挖掘领域的优点 |
2.2.3 词袋理论 |
2.2.4 文本向量化理论及其特点 |
2.2.5 文本分类算法 |
2.3 本章小结 |
3 本文研究方法设计 |
3.1 停用词的必要性 |
3.2 语料集选取的标准 |
3.3 研究方法设计 |
3.3.1 模型以及相关参数的设置 |
3.3.2 确定合理的分类主题数 |
3.3.3 语料的基本处理 |
3.4 本章小结 |
4 基于LDA主题模型的《国家情报法》法律本体的建构 |
4.1 数据获取与预处理 |
4.1.1 数据获取 |
4.1.2 数据预处理 |
4.2 数据分析 |
4.3 本体模型的建构 |
4.3.1 原则 |
4.3.2 注意事项 |
4.4 法律本体的建构 |
4.5 本章小结 |
5 本体模型的分析 |
5.1 本体模型中的实例分析 |
5.2 本体模型中的类分析 |
5.3 本体模型中的关系分析 |
5.4 本体模型中的约束分析 |
5.5 本体模型中的规则分析 |
5.6 本章小结 |
6 结语与展望 |
6.1 结论 |
6.2 创新点 |
6.3 研究的不足之处与展望 |
参考文献 |
致谢 |
攻读学位期间发表论文 |
(3)基于深度特征融合的高分辨率遥感图像场景分类(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 遥感图像场景分类研究难点分析 |
1.2.2 遥感图像场景分类方法研究现状与发展趋势 |
1.3 本文主要研究内容与章节安排 |
第2章 遥感场景图像的深度特征提取 |
2.1 卷积神经网络发展历程 |
2.2 卷积神经网络基本原理 |
2.2.1 卷积神经网络特点简介 |
2.2.2 卷积神经网络结构分析 |
2.3 迁移学习 |
2.4 基于迁移学习的深度特征提取 |
2.5 本章小结 |
第3章 基于自注意力深度特征融合的遥感图像场景分类 |
3.1 引言 |
3.2 深度自注意力特征融合算法 |
3.2.1 自注意力机制简介 |
3.2.2 多层卷积特征提取 |
3.2.3 基于自注意力机制的深度特征空间加权 |
3.2.4 基于自注意力机制的深度特征通道加权 |
3.2.5 分类算法实现 |
3.3 实验结果与分析 |
3.3.1 实验数据集介绍 |
3.3.2 实验设置 |
3.3.3 参数讨论 |
3.3.4 实验结果 |
3.4 本章小结 |
第四章 基于自适应加权特征融合的遥感图像场景分类 |
4.1 引言 |
4.2 自适应加权特征融合算法 |
4.2.1 循环神经网络简介 |
4.2.2 基于循环神经网络的自适应加权特征融合 |
4.3 实验结果与分析 |
4.3.1 实验数据介绍 |
4.3.2 实验设置 |
4.3.3 网络结构分析 |
4.3.4 实验结果 |
4.4 本章小结 |
第5章 遥感图像场景分类软件模块 |
5.1 引言 |
5.2 软件模块环境配置 |
5.3 软件开发流程 |
5.4 软件模块显示界面与性能测试 |
5.4.1 显示界面 |
5.4.2 性能测试 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
附录A 攻读学位期间所发表的学术论文 |
(4)基于海量新闻数据的重大事件趋势预测研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 国际关系研究领域重大事件趋势预测研究现状 |
1.2.2 大数据背景下社交媒体事件趋势预测研究现状 |
1.3 本文主要内容及章节安排 |
第2章 自然语言处理相关技术 |
2.1 引言 |
2.2 文本特征表示方法 |
2.2.1 布尔模型 |
2.2.2 向量空间模型VSM |
2.2.3 主题模型LDA |
2.2.4 词嵌入表示模型word2vec |
2.3 文本特征选择方法 |
2.3.1 TF-IDF算法 |
2.3.2 信息增益 |
2.3.3 卡方检验 |
2.4 命名实体识别 |
2.4.1 条件随机场CRF |
2.4.2 循环神经网络RNN与 LSTM |
2.4.3 卷积神经网络CNN |
2.5 本章小结 |
第3章 融合语义与事件特征的重大事件趋势预测 |
3.1 引言 |
3.2 重大事件趋势预测模型构建方法 |
3.2.1 语义特征指标构建 |
3.2.2 事件特征指标构建 |
3.2.3 朴素贝叶斯分类模型 |
3.2.4 特征融合表示与预测输出 |
3.3 实验分析 |
3.3.1 朝核专题数据获取与事件趋势量化 |
3.3.2 融合特征指标构建与向量表示 |
3.3.3 模型构建与趋势预测结果分析 |
3.4 本章小结 |
第4章 基于深度学习的征候事件检测与预测 |
4.1 引言 |
4.2 南海专题新闻数据构建 |
4.3 基于Bi-LSTM-CNN-CRF的征候事件检测模型 |
4.3.1 标签数据集构建 |
4.3.2 征候事件检测模型 |
4.4 基于多标签逻辑回归的征候事件预测模型 |
4.4.1 二项式逻辑回归 |
4.4.2 标签数据集构建 |
4.4.3 征候事件预测模型 |
4.5 实验分析 |
4.5.1 检测标签数据集构建 |
4.5.2 南海征候事件检测 |
4.5.3 预测标签数据集构建 |
4.5.4 南海征候事件预测 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
附录 |
作者在读期间发表的学术论文及参加的科研项目 |
(5)基于特征融合和正则化的图像语义分析研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 图像语义分析研究国内外现状 |
1.2.1 理论方法进展 |
1.2.2 商用系统与开源工程 |
1.3 图像语义分析的挑战与研究方向 |
1.4 本文研究内容与论文组织 |
1.4.1 论文研究内容和主要成果 |
1.4.2 论文结构安排 |
第二章 图像语义分析研究综述 |
2.1 图像语义分析研究的典型框架及相关问题 |
2.1.1 图像语义标注问题 |
2.1.2 图像弱监督分类问题 |
2.1.3 图像分割问题 |
2.2 图像语义分析中的关键技术 |
2.2.1 图像标注技术 |
2.2.2 图像内容表示及特征提取技术 |
2.2.3 特征融合技术 |
2.2.4 正则化技术 |
2.3 小结 |
第三章 深度特征和浅层模型结合的多标签图像标注的研究 |
3.1 引言 |
3.2 相关工作 |
3.2.1 MFoM分类器 |
3.2.2 深度特征与浅层模型融合方法 |
3.3 本文提出的方法 |
3.3.1 MFoM-AP |
3.3.2 MFOM-AP应用于深度神经网络 |
3.4 实验与分析 |
3.4.1 实验设置和任务描述 |
3.4.2 实验结果与分析 |
3.5 总结 |
第四章 基于深度特征融合的图像多标签自动标注 |
4.1 引言 |
4.2 相关工作 |
4.2.1 bi-gram手工设计特征构建方法 |
4.2.2 深度神经网络 |
4.3 基于手工设计特征的图像标注模型分析 |
4.3.1 使用MFoM的图像标注 |
4.4 融合手工设计特征与深度学习特征的图像标注 |
4.4.1 卷积神经网络特征提取 |
4.5 实验 |
4.5.1 数据集 |
4.5.2 实验环境和参数 |
4.5.3 实验评价标准 |
4.5.4 实验结果与分析 |
4.5.5 实验结果标注实例 |
4.6 小结 |
第五章 基于正则化示例嵌入的多示例图像标注研究 |
5.1 引言 |
5.2 MIL算法背景和简介 |
5.2.1 MIL的研究背景 |
5.2.2 经典MIL方法 |
5.2.3 深度MIL方法 |
5.2.4 算法概览 |
5.3 本文使用的方法 |
5.3.1 MIL网络概述 |
5.3.2 目标函数 |
5.3.3 示例嵌入学习 |
5.3.4 正则化示例嵌入 |
5.3.5 随机梯度下降法优化 |
5.3.6 训练和测试细节 |
5.4 实验 |
5.4.1 数据集和评估指标 |
5.4.2 实验结果 |
5.5 总结 |
第六章 基于深度监督平滑正则化网络的图像语义分割 |
6.1 引言 |
6.2 相关工作 |
6.2.1 基于全卷积神经神经网络的图像分割 |
6.2.2 基于整体嵌套边缘检测方法的图像分割 |
6.2.3 基于条件随机场的图像分割与深度血管检测应用 |
6.3 本文提出的方法 |
6.3.1 DSSRN全卷积网络结构 |
6.3.2 DSSRN整体嵌套网络边缘检测方法 |
6.3.3 DSSRN深度血管分割网络 |
6.3.4 DSSRN图像分割方法 |
6.4 实验 |
6.4.1 数据集 |
6.4.2 评价标准 |
6.4.3 实验实现细节和参数设置 |
6.4.4 实验环境和实验时间 |
6.4.5 实验结果与分析 |
6.5 小结 |
第七章 总结和展望 |
7.1 论文工作总结 |
7.2 研究和展望 |
附录 缩略语表 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(6)迁移学习技术及交互式图像分割相关问题的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.1.1 迁移学习问题的提出 |
1.1.2 迁移学习相关概念简介 |
1.1.3 交互式图像相关概念简介 |
1.1.4 迁移学习和交互式图像分割技术的关联 |
1.1.5 迁移学习和交互式图像分割的研究意义 |
1.1.6 迁移学习理论发展概述 |
1.1.7 迁移学习相关应用发展概述 |
1.1.8 迁移学习和其他统计学习方法的区别与联系 |
1.2 国内外研究现状 |
1.2.1 迁移学习的研究现状 |
1.2.2 交互式图像分割的研究现状 |
1.2.3 存在的主要研究问题 |
1.3 论文的主要贡献及结构安排 |
1.3.1 论文的主要贡献 |
1.3.2 论文结构安排 |
第二章 流形结构保持的判别式迁移学 |
2.1 引言 |
2.2 迁移学习的研究及相关问题 |
2.2.1 迁移学习相关工作介绍 |
2.2.2 存在问题及分析 |
2.2.3 本章提出的解决途径 |
2.3 流形结构保持的判别式迁移学习(DGA-DA) |
2.3.1 相关数学符号和问题定义 |
2.3.2 DGA-DA的模型构建 |
2.3.3 DGA-DA模型优化求解 |
2.3.4 DGA-DA非线性问题求解 |
2.3.5 DGA-DA模型算法复杂度分析 |
2.4 实验结果分析及讨论 |
2.4.1 数据库和提取特征描述 |
2.4.2 主流对比算法介绍 |
2.4.3 实验设置 |
2.4.4 实验结果及讨论 |
2.4.5 收敛性和参数敏感分析 |
2.4.6 分析与验证 |
2.5 本章小结 |
第三章 基于子空间对齐的判别式迁移学习 |
3.1 引言 |
3.2 基于特征空间的迁移学习调研及存在问题 |
3.2.1 基于统计和几何优化迁移学习技术介绍 |
3.2.2 流形结构保持判别式迁移学习存在问题及讨论 |
3.3 基于子空间对齐的判别式迁移学习 |
3.3.1 相关数学符号和问题定义 |
3.3.2 RSA-CDDA的模型构建 |
3.3.3 RSA-CDDA模型优化求解 |
3.3.4 RSA-CDDA非线性问题求解 |
3.4 实验结果分析及讨论 |
3.4.1 数据库和提取特征描述 |
3.4.2 主流对比算法介绍 |
3.4.3 实验设置 |
3.4.4 实验结果及讨论 |
3.5 本章小结 |
第四章 基于样本重构和FLDA分类的交互式图像分割研究 |
4.1 引言 |
4.2 交互式图像分割的发展和存在问题 |
4.2.1 交互式图像分割的相关工作 |
4.2.2 现存问题及相关解决途径 |
4.3 SR-FLDA的流程图 |
4.4 基于超像素分割的样本重构 |
4.4.1 图像前/背景的标记 |
4.4.2 特征提取及字典构建 |
4.4.3 基于超像素字典的样本重构 |
4.5 基于最优分类空间求解的交互式图像分割 |
4.5.1 基于迁移学习的联合空间求解和样本特征转换 |
4.5.2 重构样本下的多分类模型构建 |
4.5.3 最佳分类投影面求解 |
4.5.4 基于最小距离的图像分割 |
4.6 实验结果及性能评价 |
4.6.1 数据库和评测指标 |
4.6.2 超参数设定及讨论 |
4.6.3 Fisher-LDA和SR-FLDA的对比实验 |
4.6.4 SR-FLDA在MSRC数据库上的结果及讨论 |
4.6.5 KIM数据库上的可视化结果对比及讨论 |
4.6.6 存在的问题及后期研究 |
4.7 本章小结 |
第五章 基于FISHER法则联合优化框架下的交互式图像分割算法 |
5.1 引言 |
5.2 弱交互式图像分割的发展和存在问题 |
5.2.1 弱交互式图像分割调研 |
5.2.2 SR-FLDA存在问题及解决途径 |
5.3 交互式图像分割任务定义与分析 |
5.3.1 交互式图像分割问题的数学定义 |
5.3.2 基于超像素字典重构任务的理论分析 |
5.3.3 图像分割与超像素分类任务转换的理论分析 |
5.4 SR-BM的流程图 |
5.5 基于超像素特征提取的样本重构 |
5.5.1 超像素的分割和特征表示 |
5.5.2 字典构造 |
5.5.3 样本重构 |
5.6 SR-BM的分类模型 |
5.6.1 超像素的多分类模型 |
5.6.2 图像分割的二分类模型 |
5.6.3 BM分类模型的优化 |
5.6.4 基于最短距离的图像分割 |
5.7 实验结果分析及讨论 |
5.7.1 数据库和评测指标 |
5.7.2 实验环境和超参数设置 |
5.7.3 FLDA、SSR-FLDA和SR-BM实验结果对比分析 |
5.7.4 SR-BM在MSRC数据库上的结果及讨论 |
5.7.5 KIM数据库上可视化结果对比及讨论 |
5.7.6 SR-BM算法鲁棒性分析 |
5.8 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
攻读博士学位期间已发表或录用的论文 |
攻读博士学位期间参加的主要科研项目 |
(7)基于局部特征和弱标注信息的图像分类和识别(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题来源 |
1.2 课题研究的背景、目的与意义 |
1.3 相关领域国内外研究现状分析 |
1.3.1 基于局部特征的图像分类研究现状 |
1.3.2 基于弱监督学习的图像目标检测研究现状 |
1.3.3 基于上下文信息的场景语义分割与对象识别研究现状 |
1.4 本文主要研究内容和组织结构 |
1.4.1 主要研究内容 |
1.4.2 组织结构 |
第2章 词袋表示和概率图模型研究 |
2.1 词袋表示 |
2.1.1 图像特征 |
2.1.2 码书的构建 |
2.1.3 图像的特征编码 |
2.1.4 特征组合 |
2.1.5 实验设计与分析 |
2.2 概率图模型 |
2.2.1 典型的概率图模型 |
2.2.2 概率图模型的学习和推理 |
2.3 主题模型 |
2.3.1 LDA主题模型 |
2.3.2 MCMC采样和Gibbs采样 |
2.3.3 参数估计 |
2.3.4 主题模型中对称与非对称的先验信息 |
2.3.5 实验分析与讨论 |
2.4 本章小结 |
第3章 基于局部特征描述图像的多核优化分类 |
3.1 局部特征的多尺度表示方法 |
3.1.1 图像特征的金字塔模型表示 |
3.1.2 特征候选区域的提出 |
3.2 分类器的设计与多核函数的优化 |
3.2.1 分类器的选取和设计 |
3.2.2 核函数的选择 |
3.2.3 多核优化组合下的图像分类 |
3.3 实验分析与讨论 |
3.3.1 合成数据实验分析与讨论 |
3.3.2 Caltech101目标图像实验分析与讨论 |
3.3.3 15 Scenes场景图像实验分析与讨论 |
3.4 本章小结 |
第4章 基于主题建模的弱标注图像目标定位 |
4.1 图像特征的分布态势 |
4.1.1 先验知识的学习 |
4.1.2 多项式分布下的狄利克雷函数分析 |
4.1.3 高斯分布下的Normal-Inverse-Wishart函数分析 |
4.2 弱标注图像目标的层次结构建模 |
4.2.1 相关生成模型描述 |
4.2.2 “目标-部位-特征”层次结构模型描述 |
4.2.3 模型中变量的联合概率分布 |
4.3 目标发现与定位的机制学习 |
4.3.1 参数推理 |
4.3.2 部位特征共享池的建立 |
4.3.3 图像目标的发现与定位 |
4.4 实验分析与讨论 |
4.4.1 PASCAL VOC20076×2 实验分析与讨论 |
4.4.2 Object Discovery图像集实验分析与讨论 |
4.5 本章小结 |
第5章 基于上下文弱标注信息的场景语义分割和对象识别 |
5.1 基于上下文弱标注信息的场景层次结构建模 |
5.1.1 “特征-部位-对象-场景”的层次结构模型描述 |
5.1.2 对象和部位联合的Gibbs取样 |
5.2 模型参数的学习 |
5.2.1 对象出现可能性的推理 |
5.2.2 分割区域语义的推理描述 |
5.2.3 场景的全局语义表述和对象识别 |
5.3 实验分析与讨论 |
5.3.1 合成数据实验分析与讨论 |
5.3.2 PASCAL VOC2012 ACTION实验分析与讨论 |
5.3.3 LabelMe实验分析与讨论 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 本文的工作总结和创新点 |
6.2 下一步工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的研究成果 |
(8)基于图的半监督情感分类算法研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 基于图的半监督算法研究现状 |
1.2.2 半监督情感分类的研究现状 |
1.3 本文研究内容 |
1.4 本文组织结构 |
第二章 基础知识 |
2.1 基于图的半监督算法 |
2.1.1 基于图的半监督学习概述 |
2.1.2 能量函数的定义 |
2.1.3 基于图的常用半监督分类方法。 |
2.2 文本情感分类研究概述 |
2.2.1 情感分类流程 |
2.2.2 情感分类常用文本表示方法 |
2.2.3 常用情感分类算法 |
2.3 本章小结 |
第三章 基于聚类核的半监督情感分类算法 |
3.1 基于图的半监督情感分类模型 |
3.2 聚类核 |
3.3 基于聚类核的半监督情感分类算法 |
3.4 实验与结果分析 |
3.4.1 数据集选取及预处理 |
3.4.2 结果分析 |
3.5 本章小结 |
第四章 基于图聚类核的半监督情感分类算法 |
4.1 图的最小分割算法 |
4.2 基于图聚类核的半监督情感分类算法 |
4.3 实验与结果分析 |
4.3.1 数据集选取及预处理 |
4.3.2 结果分析 |
4.4 本章小结 |
第五章 基于Graph-of-words模型的半监督情感分类算法 |
5.1 Graph-of-words文本表示模型 |
5.2 基于Graph-of-words模型的半监督情感分类算法 |
5.3 实验与结果分析 |
5.3.1 数据集选取及预处理 |
5.3.2 结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(9)基于文本分类的微博情感倾向研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状及面临的挑战 |
1.2.1 情感挖掘研究现状 |
1.2.2 文本分类研究现状 |
1.3 面临挑战 |
1.4 主要研究内容 |
1.5 本文组织结构 |
2 文本分类及情感挖掘分析 |
2.1 情感挖掘概述 |
2.2 文本分类概述 |
2.3 文本分类算法 |
2.3.1 k最近邻算法 |
2.3.2 最大熵 |
2.3.3 支持向量机SVM |
2.3.4 决策树 |
2.3.5 Apriori算法 |
2.3.6 人工神经网络算法 |
2.4 各分类算法比较 |
2.5 本章小结 |
3 基于主题--情感关联的k最近邻算法 |
3.1 传统k最近邻算法基本原理 |
3.1.1 基本原理 |
3.1.2 在文本分类中的应用 |
3.2 k最近邻算法研究现状 |
3.3 基于主题--情感关联的k最近邻算法 |
3.3.1 算法思想 |
3.3.2 算法描述 |
3.4 基于TE-KNN的文本分类实验 |
3.4.1 实验设计 |
3.4.2 实验分析 |
3.4.3 对比实验 |
3.5 本章小结 |
4 基于TE-KNN算法的微博情感倾向挖掘 |
4.1 微博数据预处理 |
4.1.1 微博信息采集 |
4.1.2 微博文本预处理 |
4.1.3 文本情感分类预处理 |
4.2 TE-KNN算法在微博情感倾向分类中的应用 |
4.3 实验设计 |
4.3.1 实验环境与实验数据集 |
4.3.2 数据预处理 |
4.3.3 实验结果 |
4.4 对比实验 |
4.5 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 下一步工作 |
参考文献 |
附录:作者攻读硕士学位期间发表论文及科研情况 |
致谢 |
(10)面向中文文本的情感分析方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题来源 |
1.2 课题背景、研究目的及意义 |
1.3 国内外相关技术发展现状 |
1.3.1 文本情感特征抽取研究现状 |
1.3.2 文本情感分类研究现状 |
1.3.3 迁移学习研究现状 |
1.4 本文的主要研究内容和组织结构 |
第2章 文本情感分析相关技术概述 |
2.1 引言 |
2.2 文本情感特征抽取及表示 |
2.3 文本情感分类研究现状 |
2.3.1 基于情感词典资源的文本情感分类 |
2.3.2 基于机器学习的文本情感分类 |
2.3.3 基于深度学习的文本情感分类 |
2.4 迁移学习研究现状 |
2.5 本章小结 |
第3章 结合卷积神经网络和词语情感序列特征的中文情感分析 |
3.1 引言 |
3.2 基于词典的词语抽象表示方法 |
3.3 基于词向量的卷积神经网络模型 |
3.3.1 卷积神经网络模型 |
3.3.2 基于词向量的情感序列特征提取模型 |
3.3.3 词语序列特征融合方法 |
3.4 实验结果及分析 |
3.4.1 实验数据预处理与模型参数设置 |
3.4.2 模型对比实验结果及分析 |
3.4.3 特征融合实验结果及分析 |
3.4.4 实验结果样例分析 |
3.5 本章小结 |
第4章 基于迁移学习的中文情感分析 |
4.1 引言 |
4.2 基于K近邻的实例迁移学习 |
4.3 基于分类器迭代学习的实例迁移学习 |
4.4 基于高斯过程的知识迁移学习 |
4.4.1 高斯过程模型简介 |
4.4.2 基于高斯过程的知识迁移学习方法 |
4.5 实验结果及分析 |
4.5.1 实验设置 |
4.5.2 基于k近邻的实例迁移学习实验结果及分析 |
4.5.3 基于分类器迭代学习的实例迁移学习实验结果及分析 |
4.5.4 基于高斯过程的知识迁移学习实验结果及分析 |
4.5.5 三种迁移学习方法的对比分析 |
4.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
四、K特征线法在文本分类上的应用(论文参考文献)
- [1]基于商品名称的电商平台商品自动分类的研究与实现[D]. 黄超. 西南交通大学, 2020(07)
- [2]基于LDA主题模型的《国家情报法》法律本体分析[D]. 张斌. 黑龙江大学, 2020(04)
- [3]基于深度特征融合的高分辨率遥感图像场景分类[D]. 操然. 湖南大学, 2020(07)
- [4]基于海量新闻数据的重大事件趋势预测研究[D]. 彭博远. 杭州电子科技大学, 2020(01)
- [5]基于特征融合和正则化的图像语义分析研究[D]. 林毅. 北京邮电大学, 2020(01)
- [6]迁移学习技术及交互式图像分割相关问题的研究[D]. 罗灵鲲. 上海交通大学, 2019(06)
- [7]基于局部特征和弱标注信息的图像分类和识别[D]. 吴绿. 武汉理工大学, 2018(07)
- [8]基于图的半监督情感分类算法研究[D]. 郑文静. 南京邮电大学, 2016(02)
- [9]基于文本分类的微博情感倾向研究[D]. 杨欢. 重庆师范大学, 2016(10)
- [10]面向中文文本的情感分析方法研究[D]. 陈钊. 哈尔滨工业大学, 2016(02)