一、信息检索系统中的自然语言处理(论文文献综述)
高新傲[1](2021)在《基于自然语言处理的BIM模型内多尺度信息检索研究》文中研究指明随着BIM(Building Information Modeling,建筑信息模型)技术在建筑领域的深度应用,海量的多学科数据被整合在BIM模型中,造成信息过载问题。如何快速精准的获取BIM模型内的空间、设备以及管理数据等多尺度信息是目前亟待解决的问题。传统的基于关键字的信息检索方法由于语义等问题,无法正确解析用户的查询意图,导致检索准确率低,返回结果不相关,已无法满足BIM决策过程中对BIM数据中空间、设备和管理数据等多尺度信息精准查询的需要。因此本文提出了一种基于自然语言处理的BIM模型内多尺度信息检索方法。自然语言处理技术能够提升BIM检索系统正确理解用户查询意图的能力,从而做出正确的处理,保证检索结果的准确性。知识图谱技术能够将BIM中的数据信息关联在一起,形成数据的语义化表达,使查询结果更相关。因此本文结合BIM技术、自然语言处理技术和知识图谱技术,提出针对BIM模型内多尺度信息的检索方法,主要的研究工作如下:(1)提出BIM模型知识图谱自动化构建方法。基于IFC标准对BIM模型中的数据以及数据之间的关系进行解析。通过本体概念构建、实体抽取、关系抽取等步骤,构建具有多种对象关系(如:同级关系、父子关系、空间关系等)和属性关系(如:材质,长度等)的BIM模型知识图谱。该方法能够实现具有上万个节点和关系的大型BIM模型知识图谱的自动化构建,实现了建筑信息的语义化表达。(2)提出基于自然语言处理的BIM模型内多尺度信息检索方法。采用自然语言处理技术对多尺度的自然语言查询进行分词、语义消歧、命名实体识别和句法分析,将查询语句转化为逻辑表达式的形式,并基于规则识别查询意图,最终映射到不同尺度的查询模板中,实现BIM模型内多尺度信息的精准查询。(3)结合Web GL技术、Neo4j图数据库等相关技术,本文设计开发BIM多尺度信息检索系统。将该系统应用到实际的工程项目中,验证本研究提出的检索方法的有效性。本研究提出的检索方法查询到的结果更加符合用户的查询意图,用户可以高效准确的查询用于决策等过程中的多尺度信息。
张琦玉[2](2020)在《基于知识图谱的课纲信息检索系统的设计与开发》文中进行了进一步梳理知识图谱及其相关技术,是人工智能领域技术发展和应用落地的重要概念,知识图谱连同“解释智能”等概念,被评估正处于创新启动期和高热期之间,预计在未来的5到10年被成熟地大范围应用。国内外各行业和企业机构均有案例将知识图谱引入技术栈,或直接以项目形式应用和推广主要基于知识图谱的智能化产品。基于国内机构的实际需求场景,本文实现了一种教育教学领域内的知识图谱实践应用,并详细阐述了其完成产品化的完整过程和方法。首先,本文对课程大纲信息检索系统进行了广泛的研究,主要针对知识图谱的完整构建过程和商业化应用做了大量场景化调研,调研了涉及扩大化领域范围的技术概念原理、国内外商业应用案例、知识图谱分类和图展示形式、图储存和查询方式,以及产品数据处理流程和关键环节等多方面,分析了知识图谱在文本信息检索和相似信息查询及推荐上的应用。其次,在系统架构设计的基础上对主要包含的知识表示与建模、数据清洗、知识获取、图查询与映射搜索这四个模块进行了详细的设计。知识表示与建模部分对数据实体进行抽象化描述,建立数据模式,对系统进行Schema的设计;数据清洗模块通过数据挖掘、自然语言处理等技术,进行多元数据的抓取,并对抓取到的数据进行进一步清洗处理,保证数据的准确性;知识获取模块通过知识抽取、融合、录入步骤,对非结构化、半结构化数据进行结构化处理,将数据以图形式的知识类型进行存储;图查询与映射搜索则建立在知识图谱之上,利用图数据库提供搜索与查询服务。最后根据用户的交互习惯设计了平台的界面,方便管理者的管理和用户的使用。本文基于知识图谱技术,以一种较为新颖的信息处理整合方式,实现了一款教育领域内的实际应用,提供了更加精确、快速的信息检索服务,帮助用户更好地完成了信息检索,提高了用户体验。
赵阳阳[3](2020)在《基于BLSTM混合模型的游戏问答系统设计与实现》文中指出随着近些年互联网的高速发展,人们在享受着大数据便利的同时也面临着信息爆炸带来的困扰,传统搜索引擎已无法满足人们快速准确获取信息的需求,而智能问答系统的出现能很好的解决这一问题。在游戏服务领域,截止到2018年全国游戏用户规模达6.26亿人,游戏产业收入2144.4亿元,占全球市场收入的23.6%。如此大规模的用户在进行游戏时会遇到各种各样的问题,目前只能论坛、贴吧、浏览器等地方,通过关键词查找的方式,查询到按照时间顺序排列的网页和帖子,内容繁多复杂,几乎找不到满意的答案。针对上述问题,本文构建的基于深度学习的游戏语料智能问答系统,可以接受用户的自然语言输入,经过信息检索与问答匹配后返回游戏用户一段精准的答案,极大的提升了用户的游戏体验,对增加游戏活跃度和降低运营商成本有很大帮助,因此有很大的市场发展空间和应用价值。本文主要研究内容如下所示:(1)在限定领域目前没有公开的数据集,本文通过领域网站、知乎问答平台和搜狗问问问答平台多途径收集游戏知识问答语料,通过编写爬虫程序获取游戏问答语料。之后经过数据清洗去除不必要的噪音后存入数据库中,完成限定领域语料知识库的建立。(2)在信息检索部分,本文首先对循环神经网络RNN、双向长短时记忆网络BLSTM(Bi-directional Long Short Term Memory)、混合网络BLSTM/CNN以及融入了注意力机制的BLSTM/CNN混合神经网络进行原理和结构上的分析,并通过实验证明融入注意力机制的BLSTM/CNN混合神经网络在信息检索方面的优越性,并最终提高了问答系统的准确率。信息检索的具体过程为系统接受到用户发送的文本,然后输入我们的融入注意力机制的BLSTM/CNN混合模型,经过信息检索和余弦相似度计算输出最终结果。(3)本文设计并实现基于上述混合模型的游戏语料智能问答系统。系统深度学习算法采用Python语言和谷歌的TensorFlow深度学习框架,系统后台选择Spring Boot轻量级框架,数据持久层采用MySQL数据库,数据访问层使用企业级的MyBatis框架。用户通过web界面提交问题,系统后台接收到自然语言文本后,通过在游戏语料知识库中的检索和匹配返回给用户相应答案,最终将结果展示在web页面。本文不仅对提出的融入注意力机制的混合模型进行了验证,并利用此模型完成了游戏语料智能问答系统的构建。
严行[4](2019)在《基于本体的绿色建筑技术设计案例推理系统研究》文中研究表明建筑业作为全球变暖的重要的驱动因素之一,转变其发展模式势在必行。绿色建筑是一种新型建筑,具有节能、节水、节材等特点,能够有效减少建筑对环境影响,为人们提供健康、舒适的人居环境。近年来,我国绿色建筑发展迅猛,然而绿色建筑设计仍面临着诸如:设计效率低、技术选择不合理、经验难以共享等问题,为改革绿色建筑设计手段提出了迫切需求。另一方面,随着计算机和人工智能等技术的普及,建筑设计流程和设计方法也发生了深刻的转变。因此,如何利用人工智能技术整合已有的建筑设计资料,辅助建筑设计师进行设计决策,是提高绿色建筑设计效率和推动建筑业智能化发展的重要手段。本研究以提高绿色建筑技术设计效率和效果为目的,从现有建筑设计流程出发,应用案例推理和本体技术的原理,创新性地提出了基于本体的绿色建筑技术设计案例推理系统。本研究的主要内容包括以下五个方面:(1)建立了绿色建筑技术设计案例推理系统的框架本研究首先对专家决策系统、案例推理理论、本体方法论进行梳理,并对绿色建筑内涵、发展历程、评价体系进行剖析,分析了绿色建筑设计的特点、流程、团队组建和面临挑战,提出了绿色建筑技术设计的基本内容。在此基础上,对比分析了案例推理的流程与绿色建筑技术设计流程的相似性,探讨了案例推理技术与本体技术相结合的优势,提出了绿色建筑技术设计案例推理系统的基本框架。(2)建立了绿色建筑领域本体本研究提出了绿色建筑领域本体,以统一对绿色建筑领域知识特征的表述。为了提高构建本体的效率,本研究提出一种半自动的本体构建方法。在提取绿色建筑领域本体概念时,首先利用自然语言处理技术对绿色建筑标准文本进行预处理,再通过统计术语的词频和出现的文本数提取领域术语集合,然后利用WordNet同义词词典合并同义术语,最终提取绿色建筑领域概念集合。在提取概念间关系时,本研究采用后缀词和层次聚类法提取概念间的分类关系;采用关联规则方法提取概念间的非分类关系。(3)绿色建筑技术设计案例推理系统中的案例库构建原理本研究提出了提出了一种结合案例的基本特征和文本语义特征的绿色建筑技术设计案例表示模型。首先采用文献研究法从现有文献中提取六个案例的基本特征,然后基于绿色建筑领域本体建立案例文本的语义索引,将案例文本最终表示为语义向量,形成统一的案例表达模板,并存储到案例库中。(4)绿色建筑技术设计案例推理系统中的案例检索机制建立案例检索机制的核心是案例之间相似度的计算。针对不同数据类型的基本特征,本研究提出了三种特征相似度计算方法。针对案例文本的语义特征,本研究提出了基于本体的语义检索方法。在此基础上,本研究采用层次分析法确定各个案例特征的权重,建立了案例综合相似度计算模型,最终形成案例检索机制。(5)绿色建筑技术设计案例推理系统的实证研究在系统需求分析的基础上,本研究构建了绿色建筑技术设计案例推理系统的架构和流程。在此基础上,设计了绿色建筑技术设计案例信息输入界面和绿色建筑技术设计案例推理界面。最后对绿色建筑技术设计案例推理系统进行了实证研究。实证结果发现利用该系统检索到历史案例与目标案例确实能够相互借鉴,也验证了本研究所提出的基于本体的绿色建筑技术设计案例推理系统的有效性。本文探索性的将人工智能技术引入到建筑领域,提出的绿色建筑技术设计案例推理系统具有很强的现实意义和理论意义。本研究提出的半自动的本体构建方法对其他领域本体的建立有一定的借鉴意义;同时,本研究提出的案例知识表示模型和案例检索机制丰富了案例推理的理论,能够推广到其他领域的案例推理系统中。在现实中,该系统不仅能够提升绿色建筑技术设计的效率,还能提升设计方案的水平。
汶东震[5](2019)在《基于排序学习的代码检索》文中研究指明软件工程师在开发过程中会耗费大量时间针对编程语言特性、API使用规范、算法实现等诸多内容进行搜索。而随着现代软件开发规模的增大,代码检索(Code Retrieval)在软件开发过程中的重要性也随之增大。新手开发者和学生能够通过代码检索工具进行学习,富有经验的开发者也能通过代码检索工具加快开发进度。代码检索研究领域属于软件工程与信息检索研究的交叉领域。代码检索旨在提供与符合用户意图的代码片段以增强现有代码复用(Code Reuse)能力,具有较高的实用价值;同时,解决程序语言与自然语言之间匹配的鸿沟一直是相关研究的重点。本文主要贡献如下:1)代码检索研究综述:本章以时间线为线索,针对代码检索研究近二十年间相关研究进行综述,通过分析近十年间发表于顶会、顶刊的代码检索研究文献,梳理代码检索研究与软件工程、自然语言处理相关技术的联系和区别,总结相关技术,为后续研究提供借鉴。2)融合文本特征的排序学习模型:本章从文本表示角度出发,结合软件工程领域相关背景,提出一种基于多级语义相关性表示模型的特征抽取方法。通过构建领域特征研究自然语言与程序语言匹配性问题,并结合排序学习模型在P@K、NDCG等指上对特征体系有效性进行评估。3)基于代码表示的深度匹配模型:本章在深度文本匹配模型基础上,提出针对程序语言与自然语言联合建模的源代码深度匹配模型,并在此基础上构建深度代码检索系统。经过相关实验验证,基于源代码深度匹配模型的代码检索模型能够取得较好结果,同时摆脱对精标注数据的依赖。4)代码检索系统:为了从实践角度验证前两个章节研究的有效性,结合前两章研究成果,在检索算法有效性(Effectiveness)研究的基础上,针对系统可用性(Availability)进行进一步探究,构建代码检索应用系统。
潘敏[6](2019)在《基于潜在语义关系的伪相关反馈查询扩展技术研究》文中进行了进一步梳理伪相关反馈与查询扩展作为信息检索领域的关键技术,能极大地提高信息检索系统的性能,一直以来深受国内外信息检索领域学者的重视。在伪相关反馈的过程中,对原始查询进行扩展是非常重要的一个环节。在选取扩展词项的时候,传统的伪相关反馈方法大都聚焦于评估候选扩展词项在伪相关文档中的词频重要性和显着性,往往会遗漏候选扩展词项与查询词项之间潜在语义关系。本文结合经典的伪相关反馈查询扩展方法,围绕候选扩展词项的语义捕获与表示,提出了若干个具有不同语义特征的伪相关反馈查询扩展方法。实验结果表明这些方法能够优化扩展词项的质量,提高信息检索的效果。主要的研究工作和创新点包含以下几个方面:(1)本文提出了一种基于词项超空间语义的伪相关反馈模型HRoc。该模型采用一种改进的超空间模拟语言算法度量查询词项与候选扩展词项之间的潜在语义关系,并在传统的Rocchio模型中融入这一语义关系完成查询扩展。在此基础上,本文为HRoc模型设计了三种不同的归一化策略。这些策略可以用来协调由不同特征生成的候选扩展词项的权重。最后,本文还引入了一个自适应函数来代替HRoc模型中的参数D,它可以根据文档长度自动选择窗口大小。在PMC2016数据集上的实验结果表明,本文所提出HRoc模型在各项评价指标上优于其他所对比的模型,能有效地提高信息检索的精度和查全率,得到比其他模型更精确的结果。同时,引入了自适应参数后的HRoc模型,在达到同等性能的情况下使用了更少的超参数,提高了模型的运行效率和适用性,有助于用户更高效地检索文档。(2)伪相关反馈是一种有效并被广泛采用的查询扩展技术,它假定初始检索结果集中排名最高的一部分文档是相关的,然后从这些文档中提取扩展词项。在选择扩展词项时,大多数传统模型都没有同时考虑词项的词频显着性以及候选词项与查询词项之间的共现关系。然而,直观地看,与查询词项同时出现并且频率较高的词项更有可能与查询主题相关。本文提出了一种基于核函数词项共现语义的伪相关反馈方法。该方法使用了高斯核函数来模拟基于邻近位置的查询词与候选扩展词之间的潜在语义关系,并将这一语义关系以及词频显着性特征同时引入到传统的Rocchio模型和RM3模型中分别完成查询词项扩展,由此提出了 KRoc模型和KRM3模型。在9个TREC数据集上的实验结果显示,本文所提出的基于核函数词项共现语义的伪相关反馈方法在MAP和P@10两个指标方面明显优于其他重要的模型,验证了本文所提出的方法能有效地缓解查询主题漂移的现象,提高最终伪相关反馈的检索效果。(3)本文提出了基于深度学习技术的伪相关反馈模型。在实际查询中,句子携带了其组成词项的额外的语义信息。忽略查询句子语义信息的检索模型往往难以准确地判别查询主题中多义词项的正确含义,从而曲解用户的真实意图,导致检索效果较差。为了正确地识别用户的真实查询意图,改善信息检索系统的语义理解能力,本文对基于深度学习技术的句子语义相似度计算进行了深入研究,将词项所在句子和查询词项所在句子之间的语义相似度信息作为扩展词项的句子语义权重,并将该权重引入经典的Rocchio模型中,提出基于BERT模型句子潜在语义的伪相关反馈模型BRoc。在标准TREC数据集上的实验结果表明,本文所提出的方法能有效提取查询主题和文档中的句子语义特征,并且对词的多义性也有较好的区分能力,可以改善传统伪相关反馈模型的性能。
田鑫[7](2019)在《基于生成对抗网络的问答检索研究》文中研究说明随着网络的普及和大数据的迅速发展,互联网上可供学习的信息来源越来越丰富,人们能够通过搜索引擎快速便捷地获取自己想要的信息。而由于可供选择的数据量很大,搜索引擎需要有较强的算法支持以匹配到用户真正需要的信息。但是现有的搜索引擎仍然存在很多不足,主要分为以下两个方面:一是返回结果太多,导致用户很难快速准确地发现最符合需要的信息;二是搜索引擎的技术基础,即关键字匹配,主要关注语言的语法形式,而对语义的关注较少,同时由于用户表达个人需求的能力参差不齐,采用简单的查询词难以准确地表达信息需求,使得检索效果一般。除搜索引擎外,可以用问答检索系统来满足用户的信息需求。不同于传统的搜索引擎,问答检索系统不仅能用自然语言语句来提问,还可以根据模型返回的查询结果直接将最佳答案返回给用户,而不再仅是相关的网页。问答检索系统通过对问题和答案进行相关性匹配排序来找到最佳答案,因此,选择合适的训练数据是训练问答检索模型的第一步。基于此,本文语义匹配中首先要完成对输入文本的表示学习工作,进而计算问题与答案间的语义相似度。本文首先分析了问答检索问题的研究目的及意义,并对国内外在问答检索领域的研究现状进行详细阐述,包括信息检索、问答系统、深度语义匹配等方面的内容,为模型的展开奠定理论基础。然后介绍了本文在研究中所用到的技术和方法,主要是深度语义匹配和生成对抗网络(GAN,Generative adversarial network)的方法原理。随后提出QAGAN模型,采用基于GAN模型的方法对限定域的问题和答案进行语义匹配,其目的不仅是从候选答案集中找出正确答案呈现给用户,更在不断训练过程中提升了模型识别正确答案的能力。在模型的应用中,针对限定域问答检索任务,选择保险领域语料库,首先从包含正确问答对的训练集中采样正向问答对,对每一组正向问答对,从全部答案集中抽取出正确答案之外的n条干扰答案,分别对三项的原始句子输入进行表示学习得到对应的句子向量,并通过求余弦值的方法计算相似度得分并排序,生成模型产生近似于真实答案排序的答案对,判别模型需要区分真实答案对和生成答案对。最后,将算法识别出的结果与数据标签进行对比,以验证方法的有效性。本文的创新点主要体现在以下两方面:1.将深度语义匹配模型用于问答检索系统,更加注重语义信息。深度语义匹配模型在信息检索领域有一定程度的发展,而在问答系统这样的短文本任务中应用较少。通过对问题和答案候选集一一进行深度语义匹配,从答案候选集中选择出最佳回答。2.将生成对抗网络应用于自然语言处理领域(NLP,Natural language processing)的问答检索任务中。此前也有学者尝试过将GAN与NLP进行结合,但大多难以取得令人满意的效果。此次将GAN应用于问答系统中,结合GAN中的生成模型与对抗模型,利用博弈论方法来迭代地优化这两个模型。一方面,旨在从标记和未标记数据中挖掘有效信号的判别模型,为训练生成模型提供了指导,以适应在给定查询的文档上隐含的相关性分布。另一方面,生成模型通过最小化其判别目标,以对抗的方式生成对于判别模型来说难以分辨的问答对。
丁扬[8](2017)在《基于改进的TF-IDF算法在司法裁判文书搜索中的应用》文中研究表明在现代互联网技术快速发展的带动下,随着我国司法公开的进一步推广,以互联网为信息核心载体的裁判文书库为我国司法建设提供了大量的司法裁判文书资源。但随着司法裁判文书爆炸式的数量增长,在大型司法裁判文书库中快速、精准、有效的查询、获取自己需要的裁判文书变得越来越难。就现有几大裁判文书库而言,无论是法院系统提供的裁判文书网,还是由互联网公司自建的北大法宝、无讼案例等裁判文书库,虽然在一定程度上满足了人们获取司法裁判文书资源的需求,但在如何提高搜索的精确度,识别用户潜在的搜索意图,挖掘用户真正需要的信息等这几个方面,都没有提供很好的服务。因此,本文在对已有裁判文书库搜索模式研究的基础上,深入分析司法裁判文书的特点,研究裁判文书的数据收集以及关键词提取问题。本文主要内容为:在抓取文书、分析文书内容、挖掘文书信息、提取关键词等技术的基础上,对裁判文书查询系统的功能进行需求分析,设计了裁判文书查询系统的整体框架与组成模块,利用改进的TF-IDF算法实现裁判文书的关键词提取,并给出了系统的实现过程和测试数据结果。本文工作主要体现在以下两个方面:1、通过整合网络爬虫、文本分类、聚类及索引技术,设计了一种司法文书挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,能够获取网络中有效的裁判文书;2、在传统TF-IDF算法的基础上,结合裁判文书自身的特点,提出了考虑词权重的改进TF-IDF算法,提高了司法裁判文书特征提取、关键字提取的准确率。基于本文设计的司法裁判文书搜索系统,能够帮助用户更快捷、更准确的检索出自己需要的裁判文书,给予用户更好的搜索体验。
夏辉[9](2017)在《基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例》文中研究说明近年来,随着地理信息数据众包思想的兴起,VGI数据正在以爆炸式的方式增长。OpenStreetMap作为VGI之中的最具代表性的项目之一,其数据在各个领域都在被广泛的应用,空间信息的检索愈加凸显出重要的作用。同时非专业人员在这一检索活动中的比重也大幅提高。这些用户一般采用简单的关键词进行检索,其特点是要求简单、实现容易,但实际检索结果常常与用户所期望的结果间存在着很大的差距。为了使检索的结果更为精确,人们进一步构造了可对各种关键词进行多种组合的检索方式,该种方式可获得更好的检索结果,但大多数用户由于没有经过检索培训,难以很好地利用这种组合检索方式来构造复杂的检索策略,使得这类复杂的组合式检索难以在大多数非专业人员中使用。如何为用户提供一种基于简单关键词检索的方式,使用户可以利用简单的相关地理信息关键词检索到全面精确的相关信息,是国内外信息检索界广泛关注和着力解决的关键问题之一。由于空间数据的海量特点、空间数据服务的异构性、用户需求表达的模糊性等问题,空间信息的获取、查询和检索存在着较多的难题。其中,空间信息检索具有显着的时间和空间特性,它是信息检索的一个特殊应用领域,其特殊性主要表现在相似性检索、时空关联检索、知识的不确定性等方面。传统的基于关键词字符串匹配的信息检索技术已无法满足空间信息检索的特殊需求,从而需要基于语义的更深层次的信息查询和匹配技术支持。语义本体技术作为一种新型的知识组织和表达方式,具有良好的概念组织结构和对逻辑推理的支持,在信息检索领域特别是在基于知识的语义化检索方面得到了飞速的发展和广泛的应用。基于本体的语义描述和推理方法,为空间数据服务中用户需求的解析和理解、空间信息资源的语义化描述和匹配、领域知识的形式化描述和推理分析等关键技术问题的解决提供了可行的途径和有力的工具,将有效地提高空间数据服务的检索效率和智能化程度。本研究针对现在空间信息检索用户一般使用简单语句进行查询,对检索服务希望简单易实现的要求,设计了针对空间信息检索语句自然语言处理的用户查询意图识别方法。并且,利用OSM数据中的Tag标签的可扩展性,结合空间信息语义特征,在标签中扩展了空间信息的属性特征信息项和值,并对其扩展后的模型设计了一种基于空间信息语义属性相似度的查询扩展方法。该方法能在空间信息检索中,将用户的简单输入进行扩展,以达到对相关结果更广泛更准确的匹配。使得日益增长的空间信息检索需求,能够以更好的用户体验性和更高的检索效率来服务使用者。研究中主要包括了以下几方面内容:(1)结合传统的自然语言处理方法,通过构建空间信息概念语义词典、地名词典和空间关系语义词典,设计了一种面向空间信息检索的优化的自然语言处理方法。该方法以空间信息语义词典为语料基础,能更好的对空间信息检索语句进行拆分和理解,提取查询中心词和真实查询意图。由于词典的支撑,对特定空间地名的识别更加准确,避免了查询偏移的发生。(2)面向OSM的数据特征,有效利用其开放式Tag标签的可扩展性,为空间数据的语义特征提供一个良好的属性扩展平台;合理的空间数据语义属性归纳和总结,梳理属于空间数据独有的语义特征,并将语义属性扩展到OSM数据模型中,为空间数据的深度分析和查询扩展提供数据基础。(3)针对不同类型的空间信息语义属性,建立基于语义的空间信息相似度计算模型与方法,根据空间信息间的相似度量化值,将与关键词最相似的空间概念或实体加入到查询扩展集合中,使得空间检索的结果查全率和查准率有效提高。(4)基于OSM数据,设计了空间信息语义相似度查询扩展服务系统,并设计了相关实验,论证本文方法对于空间信息数据检索的有效性,为后续的空间信息检索研究提供可以参考和借鉴的思路与案例。
杨海锋[10](2017)在《融合结构功能和引文功能的学术文献引文推荐研究》文中指出随着物联网、云计算以及“互联网+”等相关应用的不断深入,用户在享受互联网技术带来便捷的同时,也陷入了“信息过载”的困境中。用户在满足信息需求的过程中,发现自己已经迷失在信息的海洋中。推荐系统作为一种个性化的信息服务形式,能基于用户兴趣偏好来进行主动的实时推荐,并且已经被广泛的使用在了各大购物网站中。同时,随着不同组织对数字文献资源建设力度的加大,用户在享受数字文献资源便利性的同时也遇到了一些困难,比如相关文献的查找费时费力而且查询结果不能令人满意。为此,学术文献的引文推荐研究逐渐受到了学者们的关注,该研究能在一定程度上提高用户撰写论文的效率和质量,目的是能自动的发现用户手稿中需要引文的位置,并提供相关的文献。和一般推荐系统不同,引文推荐服务的对象一般是科研工作者,而且推荐的内容是学术文献,推荐过程中涉及到了引文分析、引用动机、作者自身特点等多种因素的影响。因此,引文推荐系统不仅仅是推荐系统的具体应用,而且更应该看成是推荐系统的延伸和拓展。对于引文推荐研究,国外研究较早,国内研究刚刚起步,且研究主要是从推荐算法的改进来着手,而深入文献内部,从学术文献结构功能和引文功能的角度来对其探讨基本空白。基于此,本文以结构功能和引文功能作为研究切入点,融合传统推荐方法来提高引文推荐的效果。本文共分7章,主要内容如下:第一章,引言。首先说明了本文研究的背景和意义。然后在大量文献调研的基础上,从局部引文推荐和全局引文推荐两个方面进行文献综述,对引文推荐的方法进行了总结,并对引文推荐目前的研究现状进行了评述,交代了本文研究的可行性。然后,在上述工作的基础上,提出了本文研究思路和方法以及研究内容和创新点。第二章,学术文献引文推荐相关理论研究。从一般推荐系统的介绍入手,对引文推荐系统进行了界定,其中包括引文推荐的定义、引文推荐的特点、引文推荐的分类。接下来通过四个模块对引文推荐的流程进行了介绍,以便和一般推荐系统工作过程进行区别。同时发现,对于引文推荐结果的评价,主要是以信息检索评价方法为基础,同时结合引文推荐特点而被提出。由于引文推荐的特殊性,这里还分析了引文推荐实验中使用的数据集,以及引文推荐过程中区别于一般推荐系统的用户行为。最后,基于引文上下文和引文推荐之间的紧密型,对引文上下文的研究进行了小结。第三章,学术文献引文推荐理论框架。本文首先提出了引文推荐总的理论框架,然后着重介绍了本文实现引文推荐的动机和总体框架。主要包括基于结构功能的引文推荐和基于引文功能的引文推荐,以及基于信息融合方法将两种推荐方法融合进行推荐。第四章,基于结构功能的学术文献引文推荐。首先是对文献进行结构功能划分,然后将引文上下文作为查询和不同结构功能组成的文献进行加权匹配。具体包括局部加权匹配和全局加权匹配。局部加权匹配是查询和全文及某结构功能部分(事先通过相似性确定)的加权匹配,而全局加权匹配是查询在文献中不同结构功能之间的总体匹配。同时,实验中还对不同结构功能对查询的贡献度进行了分析。第五章,基于引文功能的学术文献引文推荐。主要思想是想明确用引文上下文来表示文档(相当于摘要表示文档)以此生成对应查询的概率是否更高。研究涉及两种方法,一种是在初步引文推荐的基础上,使用引文上下文来表示文档,然后进行二次推荐,另一种是直接通过引文上下文来表示文档,然后通过传统的方法进行推荐。结果表明,文档集的再组织能比较好的提高引文推荐的效果。第六章,基于结构功能和引文功能融合的引文推荐。以基于得分和排序的信息融合方法对结构功能和引文功能推荐进行融合推荐,主要从三个方面进行了研究:一是将查询定位到不同的结构功能域中,然后对各个推荐结果进行不同维度的融合;二是对第五章和第六章研究中的推荐结果的融合;三是采用了伪相关反馈技术以便能更加充分的对推荐模型进行训练,从而提高融合推荐的效果。第七章,研究总结与展望。在对本文研究全面总结的基础上,提出了本文研究的不足以及相关的后续研究。
二、信息检索系统中的自然语言处理(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、信息检索系统中的自然语言处理(论文提纲范文)
(1)基于自然语言处理的BIM模型内多尺度信息检索研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 建筑信息检索研究现状 |
1.2.2 自然语言处理在建筑领域的应用现状 |
1.2.3 知识图谱研究现状 |
1.3 研究内容与创新点 |
1.3.1 研究内容 |
1.3.2 创新点与技术路线 |
1.4 论文章节安排 |
1.5 本章小结 |
第2章 相关工作 |
2.1 建筑信息模型技术 |
2.1.1 BIM技术概述 |
2.1.2 IFC标准概述 |
2.1.3 BIM模型内的多尺度信息 |
2.1.4 面向BIM的信息检索方法 |
2.1.5 目前存在的问题 |
2.2 自然语言处理技术 |
2.2.1 自然语言处理技术概述 |
2.2.2 自然语言处理在建筑信息检索中的优势 |
2.3 知识图谱技术 |
2.3.1 知识图谱定义 |
2.3.2 知识图谱的架构 |
2.3.3 知识图谱在信息检索中的优势 |
2.4 本章小结 |
第3章 BIM模型知识图谱自动化构建方法 |
3.1 BIM模型知识图谱本体构建 |
3.1.1 BIM模型数据分析 |
3.1.2 BIM模型知识图谱本体构建流程 |
3.2 BIM模型知识图谱信息抽取 |
3.2.1 BIM模型数据预处理 |
3.2.2 实体抽取 |
3.2.3 实体关系抽取 |
3.3 BIM模型知识图谱自动化生成 |
3.4 知识图谱正确性检验 |
3.5 本章小结 |
第4章 BIM模型内多尺度信息检索方法 |
4.1 逻辑表达式模板定义 |
4.2 查询解析 |
4.2.1 分词 |
4.2.2 基于IFD的语义消歧 |
4.2.3 命名实体识别 |
4.2.4 句法分析 |
4.3 自然语言转化为逻辑表达式 |
4.4 基于规则的查询意图识别 |
4.5 查询语句映射方法 |
4.5.1 查询模板定义 |
4.5.2 查询语句生成 |
4.6 实验验证 |
4.7 本章小结 |
第5章 检索系统实现及案例分析 |
5.1 检索系统设计 |
5.1.1 系统架构设计 |
5.1.2 系统功能设计 |
5.2 工程应用案例分析 |
5.2.1 应用案例对象 |
5.2.2 数据解析和知识图谱构建 |
5.2.3 多尺度信息检索 |
5.2.4 查询拓展 |
5.3 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
(2)基于知识图谱的课纲信息检索系统的设计与开发(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
序言 |
1 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究意义 |
1.4 论文的主要工作 |
1.5 论文的组织架构 |
2 知识图谱的行业研究调研 |
2.1 通用知识图谱案例 |
2.2 领域知识图谱及国内商业应用案例 |
2.3 教育领域知识图谱研究和案例 |
2.4 本章小结 |
3 常用相关理论和技术支持 |
3.1 概念定义 |
3.2 前端技术支持 |
3.2.1 SVG矢量图绘制空间 |
3.2.2 D3.js可视化图形库 |
3.2.3 Vue.js框架 |
3.3 相关算法 |
3.3.1 Page Rank算法 |
3.3.2 TF-IDF,Text Rank和n-gram算法 |
3.3.3 推荐算法 |
3.4 本章小结 |
4 系统需求分析与概要设计 |
4.1 需求分析 |
4.1.1 功能性需求分析 |
4.1.2 非功能性需求分析 |
4.2 系统架构设计 |
4.3 系统概要设计 |
4.3.1 知识表示与建模 |
4.3.2 数据抓取与清洗 |
4.3.3 知识抽取与知识融合 |
4.3.4 知识存储 |
4.3.5 应用设计 |
4.4 系统数据库设计 |
4.4.1 概念设计 |
4.4.2 数据库设计 |
4.4.3 知识图谱设计 |
4.5 本章小结 |
5 系统详细设计与实现 |
5.1 知识表示与建模 |
5.2 数据抓取与清洗 |
5.2.1 爬取数据 |
5.2.2 人工收集 |
5.2.3 数据清洗 |
5.3 知识抽取与知识融合 |
5.3.1 知识抽取 |
5.3.2 知识融合 |
5.4 知识存储 |
5.4.1 原生图数据库 |
5.4.2 文件存储 |
5.4.3 基于图数据的混合存储 |
5.5 应用设计 |
5.5.1 图查询与搜索映射 |
5.5.2 推荐系统设计 |
5.5.3 软件界面和交互设计 |
5.6 本章小结 |
6 系统测试 |
6.1 功能性测试 |
6.2 性能测试 |
6.2.1 性能测试内容 |
6.2.2 性能测试指标 |
6.2.3 性能测试结果及分析 |
6.3 本章小结 |
7 结论 |
7.1 全文总结 |
7.2 未来的扩展方向 |
参考文献 |
作者简历及攻读硕士/博士学位期间取得的研究成果 |
学位论文数据集 |
(3)基于BLSTM混合模型的游戏问答系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状及成果 |
1.3 本文主要研究内容 |
1.4 本文组织结构安排 |
第2章 智能问答系统与深度学习相关研究 |
2.1 常见智能问答系统相关研究 |
2.2 智能问答系统关键技术 |
2.3 深度学习算法 |
2.4 本章小结 |
第3章 需求分析及游戏领域知识库构建 |
3.1 需求分析 |
3.2 游戏领域知识库构建 |
3.3 本章小结 |
第4章 基于BLSTM的深度学习混合模型 |
4.1 混合模型介绍 |
4.2 实验数据 |
4.3 评测指标 |
4.4 实验及结果分析 |
4.5 本章小结 |
第5章 基于深度学习的游戏问答系统实现 |
5.1 系统设计 |
5.2 数据获取模块 |
5.3 数据处理模块 |
5.4 查询扩展模块 |
5.5 问句匹配模块 |
5.6 系统实现 |
5.7 实验及结果分析 |
5.8 本章小结 |
第6章 总结与展望 |
6.1 本文总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
(4)基于本体的绿色建筑技术设计案例推理系统研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景 |
1.1.1 绿色建筑发展背景 |
1.1.2 绿色建筑技术设计面临的困境与挑战 |
1.1.3 建筑领域数字化的研究背景 |
1.2 国内外研究现状 |
1.2.1 绿色建筑设计研究现状 |
1.2.2 案例推理在建筑领域的研究现状 |
1.2.3 本体在建筑领域应用的研究现状 |
1.2.4 基于本体的案例推理系统的研究现状 |
1.2.5 研究综述小结 |
1.3 研究目的和意义 |
1.3.1 研究目的 |
1.3.2 研究意义 |
1.4 研究内容及结构安排 |
1.5 研究方法和技术路线 |
1.5.1 研究方法 |
1.5.2 技术路线图 |
1.6 创新点 |
2 研究理论基础 |
2.1 专家系统 |
2.1.1 专家系统的发展历程 |
2.1.3 专家系统的类型 |
2.1.4 传统专家决策系统特点 |
2.2 案例推理理论的基本原理 |
2.2.1 案例推理的发展历程 |
2.2.2 案例推理的基本原理 |
2.2.3 案例推理的特点 |
2.3 本体方法论 |
2.3.1 本体的定义 |
2.3.2 本体的分类 |
2.3.3 本体的构成要素 |
2.3.4 本体描述语言 |
2.3.5 本体的构建 |
2.3.6 本体学习 |
2.4 本章小结 |
3 绿色建筑技术设计案例推理系统框架构建 |
3.1 绿色建筑内涵及评价体系 |
3.1.1 绿色建筑内涵 |
3.1.2 绿色建筑发展 |
3.1.3 绿色建筑评价体系 |
3.1.4 绿色建筑评价体系对绿色建筑设计的引导作用 |
3.2 绿色建筑设计 |
3.2.1 绿色建筑设计的特点 |
3.2.2 传统建筑设计流程 |
3.2.3 绿色建筑设计流程 |
3.2.4 绿色建筑设计团队组成 |
3.2.5 绿色建筑设计面临的主要挑战 |
3.3 绿色建筑技术设计基本内容 |
3.3.1 节地和室外环境设计 |
3.3.2 节材设计 |
3.3.3 节能设计 |
3.3.4 节水设计 |
3.3.5 室内环境设计 |
3.4 基于本体的绿色建筑技术设计案例推理系统框架 |
3.4.1 案例推理技术应用于绿色建筑技术设计的可行性 |
3.4.2 基于案例推理的绿色建筑技术设计成果构成 |
3.4.3 基于本体的案例推理系统的优势 |
3.4.4 系统整体框架 |
3.5 本章小结 |
4 绿色建筑领域本体的构建原理 |
4.1 构建绿色建筑领域本体的任务 |
4.2 绿色建筑领域本体概念的提取原理 |
4.2.1 领域文本预处理 |
4.2.2 绿色建筑领域术语的提取 |
4.2.3 同义词合并 |
4.3 绿色建筑领域本体概念关系的识别 |
4.3.1 概念间分类关系的提取 |
4.3.2 非分类关系提取 |
4.4 绿色建筑本体构建的实现过程 |
4.4.1 绿色建筑本体概念及概念间关系提取 |
4.4.2 绿色建筑本体的实现 |
4.4.3 绿色建筑本体的形式化表示 |
4.5 本章小结 |
5 绿色建筑技术设计案例推理系统中的案例库构建原理 |
5.1 绿色建筑技术设计案例表示的框架 |
5.1.1 案例表示的原则 |
5.1.2 案例表示的方法 |
5.1.3 绿色建筑技术设计案例的内容 |
5.1.4 基于本体的绿色建筑技术设计案例表示的框架 |
5.2 绿色建筑技术设计案例的基本特征选取 |
5.3 绿色建筑技术设计案例的文本语义特征提取 |
5.3.1 传统文本表示的方法 |
5.3.2 基于领域本体的绿色建筑技术设计案例文本表示方法 |
5.3.3 绿色建筑技术设计案例文本的预处理 |
5.3.4 绿色建筑技术设计案例语义标引的建立 |
5.3.5 绿色建筑技术设计案例文本语义特征权重的计算方法 |
5.3.6 基于领域本体的语义向量构建的算法 |
5.4 绿色建筑技术设计案例的存储 |
5.5 本章小结 |
6 绿色建筑技术设计案例推理系统中案例检索机制的设计 |
6.1 绿色建筑技术设计案例检索方法和流程 |
6.1.1 案例检索方法 |
6.1.2 案例检索流程 |
6.2 绿色建筑技术设计案例基本特征相似度计算 |
6.2.1 绿色建筑技术设计案例基本特征的数据类型 |
6.2.2 绿色建筑技术设计案例的基本特征相似度计算模型 |
6.3 绿色建筑技术设计语义特征检索机制建立 |
6.3.1 基于本体的语义检索 |
6.3.2 基于本体的查询扩展 |
6.3.3 基于本体的语义检索模型中相似度计算 |
6.4 绿色建筑技术设计案例检索机制中综合相似度测算模型 |
6.4.1 案例全局相似度计算模型 |
6.4.2 案例特征权重确定方法 |
6.4.3 层次分析法 |
6.4.4 绿色建筑技术设计案例特征权重确定 |
6.5 绿色建筑技术设计案例调整及案例库的维护 |
6.5.1 绿色建筑技术设计案例重用与修正 |
6.5.2 绿色建筑技术设计案例学习 |
6.6 本章小结 |
7 绿色建筑技术设计案例推理系统的实证研究 |
7.1 绿色建筑技术设计案例推理系统的需求分析 |
7.1.1 系统的需求概述 |
7.1.2 系统功能需求 |
7.2 绿色建筑技术设计案例推理系统总体设计 |
7.2.1 系统架构设计 |
7.2.2 系统的工作流程 |
7.3 绿色建筑技术设计案例推理系统的界面设计 |
7.4 绿色建筑技术设计案例推理系统的应用 |
7.4.1 绿色建筑技术设计实证背景 |
7.4.2 绿色建筑技术设计案例推理系统的检索过程 |
7.4.3 系统检索结果的讨论 |
7.4.4 绿色建筑技术设计决策 |
7.5 本章小结 |
8 结论与展望 |
8.1 研究总结 |
8.2 研究存在的不足以及未来工作的展望 |
参考文献 |
附录 |
A 作者在攻读博士学位期间所发表的文章目录 |
B 作者在攻读学位期间参与的科研项目 |
C 绿色建筑领域本体概念间非分类关系提取的源代码 |
D 绿色建筑技术设计案例基本信息 |
E 学位论文数据集 |
致谢 |
(5)基于排序学习的代码检索(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 信息检索与排序学习 |
1.2.2 软件复用研究 |
1.2.3 代码检索技术 |
1.3 本文主要工作 |
1.4 本文结构 |
第2章 相关技术 |
2.1 自然语言表示学习 |
2.2 程序语言表示学习 |
2.3 相似度计算方法 |
第3章 基于排序学习的代码检索 |
3.1 数据集描述 |
3.2 多级语义相关性表示模型 |
3.2.1 代码处理与实体抽取 |
3.2.2 语义表示与相关性计算 |
3.3 排序学习模型 |
3.4 评价指标 |
3.5 实验设置与结果 |
3.6 结果分析 |
第4章 基于深度匹配的代码检索 |
4.1 开源软件数据集 |
4.2 源代码深度匹配模型 |
4.3 深度代码检索模型 |
4.4 实验设置与评价方法 |
4.5 实验结果分析 |
4.6 总结 |
第5章 代码检索系统 |
5.1 需求分析 |
5.2 系统总体设计 |
5.3 系统详细设计 |
5.3.1 运行环境设计 |
5.3.2 前端设计 |
5.3.3 数据库设计 |
5.4 结果运行展示 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(6)基于潜在语义关系的伪相关反馈查询扩展技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究内容 |
1.4 本文的组织结构 |
第二章 伪相关反馈技术研究现状 |
2.1 信息检索与伪相关反馈发展简述 |
2.1.1 信息检索技术 |
2.1.2 相关反馈与查询扩展技术 |
2.1.3 伪相关反馈技术 |
2.2 伪相关反馈技术相关研究概述 |
2.2.1 基于向量空间模型的伪相关反馈技术 |
2.2.2 基于语言模型的伪相关反馈技术 |
2.2.3 基于位置信息的伪相关反馈技术 |
2.2.4 基于深度学习模型的伪相关反馈技术 |
2.2.5 基于其他方法的伪相关反馈技术 |
2.3 本章小结 |
第三章 基于词项超空间语义的伪相关反馈查询扩展研究 |
3.1 引言 |
3.2 语义空间 |
3.3 超空间模拟语言 |
3.4 Rocchio伪相关反馈框架 |
3.5 基于词项超空间语义的伪相关反馈 |
3.5.1 词项超空间语义权重 |
3.5.2 融入词项超空间语义的伪相关反馈模型 |
3.5.3 归一化方法 |
3.6 实验相关设置 |
3.6.1 实验数据集及评价标准 |
3.6.2 基线模型 |
3.6.3 参数设置 |
3.7 实验结果和讨论 |
3.7.1 与基线模型比较 |
3.7.2 与其他伪相关反馈模型比较 |
3.7.3 归一化函数的对比分析 |
3.7.4 动态自适应窗口值分析 |
3.7.5 实验结果与讨论 |
3.7.6 局限性 |
3.8 本章小结 |
第四章 基于核函数词项共现语义的伪相关反馈查询扩展研究 |
4.1 引言 |
4.2 基于核函数词项共现的伪相关反馈方法 |
4.2.1 传统的PRF模型框架 |
4.2.2 核函数词项共现语义权重 |
4.2.3 基于核函数的词项共现语义框架 |
4.3 实验设置 |
4.3.1 数据集和评价标准 |
4.3.2 基线模型和其他相关对比模型介绍 |
4.3.3 参数设置 |
4.4 实验设计、结果与分析 |
4.4.1 基准实验 |
4.4.2 与强基线模型比较 |
4.4.3 与重要的伪相关反馈模型比较 |
4.4.4 参数敏感性 |
4.4.5 分析和讨论 |
4.5 本章小结 |
第五章 基于BERT模型句子潜在语义的伪相关反馈查询扩展研究 |
5.1 引言 |
5.2 句子语义 |
5.2.1 句子向量 |
5.2.2 句子的向量表示 |
5.2.3 句子语义相似度计算—BERT模型 |
5.3 基于BERT模型句子语义相似度的伪相关反馈方法 |
5.3.1 基于BERT的句子语义特征 |
5.3.2 融入句子语义特征到Rocchio模型 |
5.4 实验设置和结果分析 |
5.4.1 实验设置 |
5.4.2 与强基线模型比较 |
5.4.3 与其他经典的模型比较 |
5.4.4 参数敏感性 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 全文总结 |
6.2 未来工作 |
参考文献 |
研究成果及参与的科研项目 |
研究成果 |
已发表的科研论文 |
已投的科研论文 |
国家发明专利 |
软件着作权 |
参与的科研项目 |
致谢 |
(7)基于生成对抗网络的问答检索研究(论文提纲范文)
摘要 |
Abstract |
绪论 |
一、选题意义 |
二、国内外研究现状述评 |
三、研究思路及创新点 |
四、论文的组织结构 |
第一章 问答检索概述 |
第一节 信息检索系统 |
一、信息检索基本概念 |
二、相关应用 |
第二节 问答检索相关概述 |
一、词表示 |
二、Learning to Rank(L2R) |
第三节 深度语义匹配模型 |
第四节 生成对抗网络应用研究 |
一、生成对抗网络模型原理 |
二、图像领域应用 |
三、自然语言处理领域应用 |
第二章 基于生成对抗网络的问答检索模型 |
第一节 研究问题定义 |
第二节 QACNN模型 |
一、QACNN模型说明 |
二、QACNN模型结构图 |
第三节 QAGAN模型 |
一、QAGAN模型说明 |
二、QAGAN模型结构图 |
三、目标函数设置 |
四、目标函数优化 |
第三章 实证结果与分析 |
第一节 实验设置 |
一、数据选择 |
二、数据预处理 |
三、实验设置 |
第二节 限定域实验结果分析 |
一、InsuranceQA实验结果 |
二、InsuranceQA实验结果分析 |
三、UDC实验结果 |
四、UDC实验结果分析 |
第三节 限定域问答系统扩展实验 |
一、候选池数量对模型的影响分析 |
二、训练集数量对模型的影响分析 |
三、K值取值对模型的影响分析 |
四、词嵌入维度对模型的影响分析 |
总结及展望 |
一、本文工作结论 |
二、进一步的工作 |
参考文献 |
在读期间科研成果 |
一、发表的学术论文 |
二、参加的学术会议 |
致谢 |
(8)基于改进的TF-IDF算法在司法裁判文书搜索中的应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 互联网爬虫技术分析 |
1.2.2 文本挖掘技术研究 |
1.2.3 相似性研究 |
1.3 论文的组织结构 |
2 相关理论与技术基础 |
2.1 网络爬虫技术 |
2.1.1 通用网络爬虫 |
2.1.2 主题网络爬虫 |
2.1.3 主题爬虫与通用爬虫区别 |
2.2 文本预处理技术 |
2.2.1 中文分词技术 |
2.2.2 去除停用词 |
2.3 文本特征提取算法 |
2.3.1 文本特征表示模型 |
2.3.2 文本特征选择算法 |
2.4 信息检索技术 |
2.4.1 信息检索 |
2.4.2 信息检索分类 |
2.5 用户兴趣建模理论 |
2.5.1 用户兴趣数据 |
2.5.2 用户兴趣度量 |
2.5.3 用户兴趣模式的表示 |
2.6 数据库技术与ASP.NET技术 |
2.6.1 SQL Server 2008数据库 |
2.6.2 ASP.NET技术 |
3 基于改进TF-IDF算法的裁判文书检索系统需求分析 |
3.1 系统需求分析 |
3.2 系统的可行性分析 |
3.2.1 需求可行性分析 |
3.2.2 技术可行性分析 |
3.3 功能需求分析 |
3.3.1 用户功能用例分析 |
3.3.2 子系统功能用例分析 |
4 基于改进的TF-IDF算法裁判文书检索系统设计 |
4.1 设计目标 |
4.2 系统总体结构 |
4.2.1 系统的结构模型 |
4.2.2 系统的网络部署 |
4.3 系统总体结构 |
4.4 系统各功能模块 |
4.4.1 信息采集模块 |
4.4.2 特征提取模块 |
4.4.3 文书查询模块 |
4.4.4 用户偏好分析模块 |
4.4.5 系统管理模块 |
4.5 数据存储设计 |
4.5.1 数据库概要设计 |
4.5.2 数据库表设计 |
5 基于改进的TF-IDF算法裁判文书检索系统实现 |
5.1 文书采集系统的实现 |
5.2 文书特征提取的实现 |
5.2.1 裁判文书系统中TF-IDF算法的改进 |
5.2.2 法律专用术语词库的建立 |
5.2.3 分词与词性标注的实现 |
5.2.4 文书关键词提取的实现 |
5.3 裁判文书查询系统的实现 |
5.4 用户偏好系统的实现 |
5.5 系统管理模块的实现 |
6 文书关键词提取实验结果与性能评价 |
6.1 实验结果分析 |
6.2 性能评价分析 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
附录 |
致谢 |
参考文献 |
(9)基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 自然语言检索技术 |
1.2.2 地理本体研究 |
1.2.3 查询扩展技术 |
1.2.4 研究现状总结 |
1.3 论文研究内容与组织结构 |
1.3.1 本文研究内容 |
1.3.2 论文主要创新点 |
1.3.3 本文组织结构 |
1.4 本章小结 |
第2章 查询语句语义化解析 |
2.1 自然语言处理 |
2.1.1 简介 |
2.1.2 NLP关键技术 |
2.2 语义词典 |
2.2.1 基于空间信息的概念词典 |
2.2.2 基于地名数据库的语义词典 |
2.2.3 基于ER模型的关系语义词典 |
2.3 用户查询意向抽取 |
2.3.1 关键词组抽取 |
2.3.2 句法结构分析 |
2.3.3 检索语义解析 |
2.3.4 查询意向与检索模型之间的映射 |
2.4 本章小结 |
第3章 OSM空间数据检索本体模型构建 |
3.1 OpenStreetMap |
3.1.1 OSM简介 |
3.1.2 OSM数据元素 |
3.1.3 Free Tagging机制 |
3.2 基于OSM标签的语义属性扩展 |
3.3 OSM空间数据本体模型构建 |
3.3.1 本体构建方法 |
3.3.2 本体建模工具 |
3.3.3 OSM Ontology |
3.4 本章小结 |
第4章 空间信息语义查询扩展方法研究 |
4.1 查询扩展方法 |
4.1.1 传统的查询扩展方法 |
4.1.2 现有方法及其优缺点 |
4.2 基于Tag属性的相似度查询扩展方法 |
4.3 不同类型查询扩展 |
4.3.1 层次关系扩展 |
4.3.2 空间关系扩展 |
4.3.3 依附相关扩展 |
4.3.4 其它关系扩展 |
4.4 本章小结 |
第5章 基于OSM数据的语义扩展检索系统的设计与实现 |
5.1 系统框架介绍 |
5.1.1 系统架构设计 |
5.1.2 开发平台设计 |
5.2 数据库设计 |
5.3 检索输入的NLP模块设计 |
5.3.1 查询语句处理模块 |
5.3.2 概念匹配模块 |
5.4 语义相似度计算模块设计 |
5.5 查询扩展技术实现 |
5.6 本章小结 |
第6章 评价指标与结果分析 |
6.1 评价指标 |
6.2 结果分析 |
6.2.1 面向地空间信息的NLP性能 |
6.2.2 查全率和查准率 |
6.2.3 Top-N性能 |
6.2.4 最佳扩展词数 |
6.3 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 研究展望 |
参考文献 |
攻博期间的主要科研工作 |
致谢 |
(10)融合结构功能和引文功能的学术文献引文推荐研究(论文提纲范文)
论文创新点 |
摘要 |
Abstract |
1 引言 |
1.1 选题背景与研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状分析 |
1.2.1 局部引文推荐研究现状 |
1.2.2 全局引文推荐研究现状 |
1.2.3 其他相关研究 |
1.2.4 引文推荐方法 |
1.2.5 研究评述 |
1.3 研究思路与方法 |
1.3.1 研究思路 |
1.3.2 研究方法 |
1.4 研究内容与创新点 |
1.4.1 研究内容 |
1.4.2 研究创新点 |
2 学术文献引文推荐相关理论研究 |
2.1 推荐系统简介 |
2.2 引文推荐的界定 |
2.2.1 引文推荐的定义 |
2.2.2 引文推荐的特点 |
2.2.3 引文推荐分类 |
2.3 引文推荐流程 |
2.4 引文推荐的评价 |
2.5 引文推荐中常用数据集 |
2.6 引文推荐中用户行为分析 |
2.7 引文推荐中的引文上下文 |
2.8 本章小结 |
3 学术文献引文推荐理论框架 |
3.1 学术文献结构和结构功能 |
3.2 引文功能 |
3.3 基于结构功能和引文功能进行引文推荐的动机 |
3.4 学术文献引文推荐框架 |
3.5 向量空间模型和语言模型 |
3.5.1 向量空间模型 |
3.5.2 语言模型 |
3.6 本章小结 |
4 基于结构功能的学术文献引文推荐 |
4.1 基于结构功能的引文推荐描述 |
4.2 结构功能识别方法 |
4.3 相似性度量 |
4.4 实验及其结果分析 |
4.4.1 数据集构建 |
4.4.2 结构功能识别 |
4.4.3 预处理 |
4.4.4 实验结果分析 |
4.5 本章小结 |
5 基于引文功能的学术文献引文推荐 |
5.1 引文功能类型选择 |
5.2 基于引文功能进行推荐的难点 |
5.3 引文功能分类方法 |
5.4 融入引文功能特征的推荐过程 |
5.4.1 融入引文功能推荐的思路和方法 |
5.4.2 引文上下文对文献的表示 |
5.4.3 文本语义相似度计算 |
5.5 实验过程 |
5.5.1 实验数据获取 |
5.5.2 引文功能识别与预处理 |
5.5.3 实验设计 |
5.6 结果分析 |
5.7 本章小结 |
6 基于结构功能和引文功能融合的引文推荐 |
6.1 信息融合相关研究 |
6.1.1 信息融合的定义及相关算法 |
6.1.2 信息融合在信息检索中的应用 |
6.2 CombSum算法 |
6.3 Borda算法 |
6.4 融合推荐方法的思路 |
6.5 实验及结果分析 |
6.5.1 实验数据与预处理 |
6.5.2 实验过程 |
6.5.3 结果分析 |
6.6 本章小结 |
7 研究总结与展望 |
7.1 研究总结 |
7.2 研究展望 |
参考文献 |
攻博期间的科研成果及奖励 |
致谢 |
四、信息检索系统中的自然语言处理(论文参考文献)
- [1]基于自然语言处理的BIM模型内多尺度信息检索研究[D]. 高新傲. 北京建筑大学, 2021(01)
- [2]基于知识图谱的课纲信息检索系统的设计与开发[D]. 张琦玉. 北京交通大学, 2020(03)
- [3]基于BLSTM混合模型的游戏问答系统设计与实现[D]. 赵阳阳. 西南大学, 2020(01)
- [4]基于本体的绿色建筑技术设计案例推理系统研究[D]. 严行. 重庆大学, 2019(05)
- [5]基于排序学习的代码检索[D]. 汶东震. 大连理工大学, 2019
- [6]基于潜在语义关系的伪相关反馈查询扩展技术研究[D]. 潘敏. 华中师范大学, 2019(01)
- [7]基于生成对抗网络的问答检索研究[D]. 田鑫. 中南财经政法大学, 2019(09)
- [8]基于改进的TF-IDF算法在司法裁判文书搜索中的应用[D]. 丁扬. 南京理工大学, 2017(06)
- [9]基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例[D]. 夏辉. 武汉大学, 2017(06)
- [10]融合结构功能和引文功能的学术文献引文推荐研究[D]. 杨海锋. 武汉大学, 2017(06)