大型中文搜索引擎的用户日志分析

大型中文搜索引擎的用户日志分析

一、大规模中文搜索引擎的用户日志分析(论文文献综述)

张煜福[1](2020)在《基于Spark的查询日志用户行为系统的设计与实现》文中指出随着网络的快速普及,使用搜索引擎的用户规模正在逐渐增加,产生的日志信息呈现爆炸性的增长,海量搜索日志所带来的价值,引起了各个搜索类互联网企业的广泛关注。为了在未来的市场中占据主动,抓住数据所带来的财富,企业纷纷开始研究和分析用户的日志信息,从中发现用户的搜索意图和兴趣偏好,挖掘用户的行为特征,方便为用户提供精准和个性化的服务。然而,企业在处理海量用户日志信息的同时,面临着来自两个方面的挑战。一方面是随着对用户行为的深入分析,需要使用大量的数据挖掘算法,同时在对用户行为进行实时场景的分析上,需要具有计算速度快、低时延、高容错的要求。传统的单机操作远远不能满足海量数据处理的要求,在MapReduce集群上进行大量的迭代计算和结构化数据流的处理,会产生大量的时延,不能满足系统的要求。另一方面是海量搜索日志的存储问题,传统关系型数据库的可扩展能力有限,不能满足数据持续增长的存储需求。基于以上问题的分析与研究,在阅读了大量的相关文献资料之后,本文通过对用户的需求进行详细的分析后,设计一个基于Spark的查询日志用户行为系统,该系统主要划分为四个模块,分别是日志采集模块、日志存储模块、日志分析模块、日志可视化模块。日志采集模块主要是使用Flume分布式日志采集系统对各个服务器的查询日志进行采集。日志存储模块主要是把Flume采集的日志存储到HBase和Kafka中。其中最重要是日志分析模块,该模块主要分为实时统计分析、离线数据统计分析、离线数据挖掘分析。实时统计分析主要是使用Structured Streaming处理存储在Kafka集群中的日志信息,实现实时热门话题和话题总数的统计。离线数据统计分析主要是使用Spark SQL对数据仓库Hive的离线数据进行处理并把结果存储到MySQL数据库中。离线数据统计分析的内容主要包括用户关键词统计分析、用户查询日志指标分析、Rank排名与用点击次数统计分析、URL点击排行榜统计分析。离线数据挖掘分析主要是使用MLlib库中的朴素贝叶斯和K-Means算法,对用户的查询主题进行分类和聚类。日志可视化模块主要是使用ECharts图表和Spring Boot框架,把日志分析模块的结果进行可视化展示,方便业务人员能够清晰的掌握用户行为分析的结果。设计与实现用户行为分析系统,有利于更加高效的统计用户的行为信息和挖掘用户的行为意图,提高企业的市场竞争力。

杨正龙[2](2020)在《蜕变测试:基于用户检索习惯的搜索引擎性能研究》文中进行了进一步梳理搜索引擎是指根据用户输入的关键词,采取一定的策略,从互联网上搜集信息,在对信息进行组织和处理之后,将用户检索的相关信息展示给用户的系统。搜索引擎是用户从互联网上获取信息的主要途径。由于互联网上的信息过于庞大,在进行信息检索的时候无法验证搜索引擎对于用户查询返回的结果是否正确,缺乏客观公正的Oracle,因此使用传统的软件测试方法很难对其进行测试。蜕变测试是一种可用于在没有理想Oracle的情况下验证软件功能正确性的测试技术。故本文将蜕变测试应用于搜索引擎的测试中。搜索引擎是典型的信息检索系统,所以搜索引擎的检索性能理应可以用精确率和召回率两个标准来衡量。然而,在搜索引擎性能评估中,准确率和召回率却无法计算。一方面,通常情况下,搜索引擎对于用户的查询,会返回数千个结果,计算检索结果中与用户查询相关的信息量极为耗时。另一方面,互联网上与用户查询相关的信息量的总量无法得知。也有一些学者提出一些针对于web搜索引擎的质量评估标准,但均未得到广泛应用。对于用户来说,搜索引擎的检索性能远远超出了对相关或非相关结果的纯分类,对搜索结果的关联判断是搜索引擎检索性能评估中重要的一点,但肯定不是判断搜索引擎性能的唯一标准。虽然有很多关于搜索引擎质量和搜索引擎用户行为方面的研究,但都是单独的研究,鲜有以用户为中心,评价搜索引擎的整体性能。本文以搜索引擎日志研究用户检索习惯,结合用户检索习惯和搜索引擎的功能属性,定义蜕变关系,根据每个蜕变关系的性质,定义抽取网页信息和理解用户意图的能力、对搜索操作符的支持能力、语义检索能力和语义纠错能力为衡量搜索引擎性能的标准,同时基于用户检索习惯,定义合适的测试用例。最后,选取搜索引擎Baidu、Bing和360作为测试对象,评估其各方面性能,测试结果通过异常率和平均Jaccard系数体现,这将为搜索引擎的用户在选择合适的搜索引擎时提供参考,同时也可以帮助搜索引擎开发人员发现和移除程序中的错误,改善现有的软件设计。

杨苏稳[3](2019)在《基于搜索引擎的中文纠错方法研究与实现》文中进行了进一步梳理信息检索是当下获取和查询信息最重要的途径之一,是互联网中基础的服务。信息检索在给用户获取信息带来便利的同时,也存在弊端。当用户输入错误查询词串时,信息检索系统返回的信息可能偏离了用户的真实意图,从而导致用户流量的丧失。因此,信息检索中查询纠错问题是一个亟待解决的难题。本文通过对中文纠错方法的研究发现,当前研究人员提出的方法存在以下不足:1.研究方法只针对常见的部分错误类型,并未考虑少数但现实存在的错误类型,导致纠错效果不理想。2.多注重纠错方法研究,而忽略排序模型对纠错结果的影响,或仅使用单一的特性对得到的候选集进行评分,致使用户得到的候选项可能不是最优选项,这就严重影响了纠错的效果。针对以上不足,本文提出了基于搜索引擎的中文纠错方法。首先对用户网络日志展开研究,对输入的查询词错误原因进行分析,并根据错误原因进行分类,最后针对不同类型采用不同的纠错策略。本课题在研究过程中主要涉及以下工作:1.改进了一种针对多种错误类型的纠错策略。通过对键盘按键按照相对位置赋予相应的权重,来改进纠错策略中拼音纠错方法中对于键相邻错误纠错的不足。2.改进了排序模型建立方法。在融合N-gram模型、查询词点击率、词形相似度和编辑距离四个因素的基础上,通过引入拼音相似度特征来建立排序模型,提高纠错方法的准确率。

张辉[4](2019)在《搜索引擎结果展示和评价研究》文中提出搜索结果的评价是搜索引擎评价的核心组成,对于评估用户体验、迭代改进搜索引擎具有重要的意义。目前,搜索结果的评价主要是对搜索结果的内容进行评价,忽略搜索结果的展示方式或者假定采用了相同的展示方式。作为搜索结果主要组成的文本搜索结果,长久以来面向查询产生和展示,展示方式基本固化为标题、查询词和URL的突出显示(突显,高亮)。这种方法在当前互联网环境下面临一些挑战:(1)搜索用户不断增多,搜索场景和任务多样,以关键词为主的查询往往较短或有歧义,基于查询词突显的搜索结果展示往往与用户的真实查询信息需求之间存在偏差;(2)用户期待搜索引擎能够“所答即所问”,目前面向查询的展示方式与用户期待获得知识的目标之间存在偏差;(3)相同、单一展示方式下的搜索结果内容评价,与用户对搜索结果的整体认知存在偏差。针对这些挑战,本文主要研究搜索结果的展示和评价方法,从满足用户信息需求的角度评价搜索结果的展示效果,自动优化搜索结果的展示方式。本文开展了三个方面的具体研究:关键词查询的搜索结果展示和评价、问题类查询的搜索结果展示和评价以及搜索结果展示效果自动化评价方法。前两个研究使用了用户调查和用户实验两种方法,定性和定量分析了当用户提交查询为关键词或一个问题时,用户对于结果展示的偏好选择以及展示方式对于用户搜索行为的影响。我们采用机器学习算法实现了面向用户查询意图的结果展示,可以用于优化目前面向查询的搜索结果展示方式,也可为搜索结果展示效果评价提供一个对比的“黄金标准”。相关研究结果扩展了已有搜索引擎结果评价的研究,加深了我们对于搜索结果展示方式对用户网络搜索行为影响的理解。在此基础上,最后的研究实现了搜索结果展示效果的自动化评价,可以大大减少评价所需的人力和经济成本,缩短评价的反馈周期。

黄际洲[5](2019)在《搜索引擎中的实体推荐关键技术研究》文中研究说明搜索引擎是获取信息的重要工具。近年来,为了更好地满足用户的信息获取需求,搜索引擎从最初只能被动地根据查询返回相关网页,逐步改进到能够主动地根据查询提供相关信息推荐。实体推荐,即以实体为粒度进行信息推荐,是其中推荐粒度最细且信息量最丰富的一种信息推荐形式。实体推荐旨在为用户提供与其查询存在直接或间接关系的实体列表,能够帮助用户拓展知识面,因而越来越受到用户的欢迎。因此,实体推荐不仅成为现代搜索引擎必不可少的功能之一,也正成为学术界重视的研究问题。在搜索引擎实体推荐系统中,不仅需要为用户提供与其查询相关的实体推荐结果,还需要对实体推荐结果进行恰当且合理的解释以帮助用户更好地理解推荐结果。相应地,搜索引擎中的实体推荐研究主要包含以下两个方面:(1)实体推荐算法,其目标是获取与查询相关的实体集合并对其进行排序;(2)实体推荐的可解释性,其目标是为实体推荐结果生成推荐理由,以提升推荐结果的可信度。针对上述问题,本文研究了实体推荐算法的改进以及推荐理由的生成两个方面的关键技术,具体包括:(1)适用于搜索引擎的大规模实体推荐算法,以及基于上下文优化实体推荐算法的具体策略;(2)实体对推荐理由的识别,以及实体推荐理由的生成。本研究的主要内容包括以下几个方面:1.基于排序学习与信息新颖性增强的实体推荐。构建适用于搜索引擎的大规模实体推荐系统主要面临以下4个挑战:查询与实体规模庞大、查询的领域无关性、用户实体点击数据极其稀疏以及很难为用户推荐具有信息新颖性的实体。针对上述挑战,本文提出了一种基于排序学习框架的实体推荐算法,并围绕信息新颖性设计了相关特征与优化目标。一方面可以灵活地对召回与排序进行分阶段优化,另一方面可以直接基于查询并面向信息新颖性构建多种粒度的排序特征,进而能针对不同用户偏好以及任何类型的查询,为用户提供个性化且兼具信息新颖性的实体推荐结果,因此能够大幅显着提升实体推荐效果以及用户参与度。2.基于深度多任务学习的上下文相关实体推荐。针对目前实体推荐方法普遍忽略上下文信息以及上下文相关实体点击数据存在数据稀疏问题,本文提出了一种基于深度多任务学习的上下文相关实体推荐模型。一方面可以借助于上下文相关文档排序这一辅助任务中的大规模多任务交叉数据,另一方面可以基于多任务学习来实现知识迁移,进而有效缓解数据稀疏问题并提升实体推荐结果的相关性,因此能够显着提升推荐效果。3.基于卷积神经网络的实体对推荐理由识别。当推荐实体与查询实体之间存在确定的实体关系时,将能够翔实地描述该实体对之间的关系的句子作为推荐理由(简称为实体对推荐理由)展现给用户,可以帮助用户理解两个实体间的关系,从而提升推荐结果的可信度。目前的实体对推荐理由识别方法严重依赖于人工标注的数据集以及人工设计的排序特征,从而导致识别出的实体对推荐理由的质量较低。针对上述问题,本文提出了一种基于卷积神经网络的实体对推荐理由识别方法。一方面可以借助于搜索引擎点击日志自动构建大规模训练数据,另一方面可以通过卷积神经网络自动学习排序特征,进而显着提升排序效果并带来实体对推荐理由质量的显着提升。4.基于机器翻译模型的实体推荐理由生成。当推荐实体与查询之间不存在可归类的关系时,将能够刻画推荐实体特点的简短描述作为推荐理由(简称为实体推荐理由)展现给用户,可以帮助用户理清当前实体与查询间的关联,从而提升推荐结果的可信度。然而,前人在实体推荐理由生成研究上鲜有涉猎。为此,本文提出了基于机器翻译模型的实体推荐理由生成方法,尤其是提出了一种由实体信息指导的基于序列到序列学习的实体推荐理由生成模型。一方面可以有效识别并保留源句子中的重要信息,另一方面可以指引模型生成与实体相关的结果,从而能够生成质量更高的实体推荐理由。在研究成果应用方面,本文提出的方法已在百度搜索引擎上得到了实际落地应用,有效地提升了实体推荐的效果以及实体推荐结果的可解释性。相关工作也作为‘‘通用的搜索推荐引擎’’项目的一部分,获得了2014年百度最高奖。此外,相关研究成果及其应用也作为‘‘知识图谱技术及应用’’项目的一部分,获得了2017年中国电子学会科技进步一等奖。

贾海龙[6](2018)在《垂直搜索引擎联合排序相关理论与关键技术研究》文中提出互联网上包含大量的农资产品供求、市场动态行情、涉农政策法规等信息,这些信息以异构的方式分散在众多的农业站点之中,面对这些没有统一形式化表达的农业信息,用户想要及时精准的获得就变的异常困难。另外,各级政府和农业科研单位及机构投入较多的资源建立关于农业技术、水产、畜牧等领域的网站、信息数据库和专家决策系统,这些信息平台只能服务于具有一定知识层次和农业技术的专业人员。而农村地区信息化建设相对落后,大部分涉农用户在信息需求分析、描述和获取方面能力匮乏。针对上述问题,本文结合我国农业信息化发展情况和农业信息特征,通过分析普通搜索引擎系统的核心原理和经典算法,从页面的内容相关度、超链接分析和用户查询行为三个主要影响检索结果的因素入手,对相关的算法进行了优化和改进,建立了一套适用于垂直搜索引擎联合排序的模型和技术方法,为河南省科学技术厅科技攻关项目《基于垂直搜索引擎的农业信息推荐关键技术研究》提供了有力的技术支持。主要研究内容及成果如下:(1)提出了基于内容相关度的检索模型构建方法。由于农业网站的页面通常会包含大量关于农副产品的广告、图片等无价值的信息,页面各区域包含的内容重要程度各不相同;另外,农业术语中存在很多生僻词,估算因子在进行概率计算时会出现“零概率”和“数据稀疏”问题。为了解决上述问题,本文在传统概率检索模型的基础上提出了页面不同“域”应赋予不同权值的相关度计算方法。通过Doc View模型将主题页面按照功能划分为不同的内容块进行特征要素提取,再将关键词、词频等因素考虑进去,进行数据区域分割,综合计算不同区域的特征权值。并给统计语言模型引入基于互信息的回退平滑策略,其主要思想是对互信息值较低的二元对概率进行削减,用来补偿给零概率事件。(2)提出了基于非悬虚节点再分类的PageRank算法优化方法。涉农用户大多数浏览的网站及搜索结果页面相对固定,基本与自己经营或种植的农产品类型相关。因此,农业类型的网站页面之间会建立很多相互指向的链接,以此来方便用户浏览,这些链接经过长期积累会形成一个密集的“嵌块结构”。基于此提出了对网页节点按照其在链接结构图中的位置和特性进行分类的方法。具体是根据节点入链和出链的区别,页面节点通常被分为两种:悬虚节点(有入链没有出链)和非悬虚节点(有入链也有出链),本文在此基础上对页面节点进行了更详细的划分,分为三种:悬虚节点、公共节点和普通节点。将划分后的链接形成的矩阵进行置换,得到了结构更简单的矩阵。进而再将维数较多的大型矩阵分解为多个子矩阵,在迭代过程中运用并行计算。当网络链接图存在块结构,并且公共节点越多时,该算法提高网页向量排序的计算速度优势越明显。(3)提出了基于改进查询点击图的检索推荐模型构建方法。为了改进传统查询点击二分图存在的偏置问题,本文引入点击频数来代替点击次数的改进查询点击图推荐模型。通过对二分图中元素建立形式化描述和优化目标,提高了涉农用户搜索意图在推荐结果中的权重,减少了农业网站内无关信息内容对结果的影响;并利用转移概率理论重新构建权重,使二分图所有边的权重值为整数,便于优化算法的求解,解决了传统随机游走推荐模型中易出现的“推荐主题漂移”问题。之后,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛,并通过设置适当的迭代次数和自转移概率控制图中随机游走范围,提高算法的精确度。(4)提出了马氏链的联合排序推荐模型构建方法。传统检索推荐模型中使用单一的排序因子导致农业网页排序依据不合理,检索系统的最终排序结果不能真正反映农业网页的特征和涉农用户的点击特点。因此,本文提出建立一个扩展性很强的监督学习框架,并以马氏链为算法核心,联合查询词与页面内容相关度、超链接分析和用户查询点击行为这三种主要因子的排序结果,将排序结果联合问题转化为一个半正定规划问题,通过监督学习的方法为每个基础排序重新获得权重系数,并且推演了问题解法的详细过程。

毛佳昕[7](2018)在《上下文感知的互联网搜索行为分析》文中指出搜索引擎是互联网中最重要的基础性应用之一,它能帮助用户在有限的时间内,高效的检索和利用海量的互联网信息资源,是当今人类获取信息不可或缺的工具。随着搜索引擎相关研究的深入,其研究范围逐渐从构建能够针对用户查询返回相关结果的搜索系统,扩展到整个用户与搜索引擎交互的过程。通过理解和分析用户的搜索行为,我们能够对搜索引擎的设计给出指导性意见,更好的从用户的角度评价搜索引擎性能,以及利用用户行为记录改进搜索结果排序。然而,随着互联网的发展和搜索用户的不断增多,可供搜索的互联网资源、搜索用户、以及使用搜索的场景和进行的任务变得越发多样化、异质化、和复杂化,随之而来的各种搜索上下文因素会对用户的搜索行为带来影响。例如:随着搜索任务的复杂化,用户往往需要在一次搜索会话中交互式的提交多个查询,搜索会话上下文会影响用户后续提交查询和与搜索结果页交互的行为;随着移动互联网的发展,移动搜索开始兴起,在移动环境中,用户的搜索行为模式会与传统桌面搜索环境中存在多方面的不同;随着搜索用户数量的增多,用户群体变得更为多样化,用户的属性和搜索历史等长期搜索上下文因素也会影响用户当前的搜索行为。针对已有的搜索引擎用户行为分析工作没有充分考虑各种上下文因素对用户搜索行为的影响这一问题,本文进行了上下文感知的互联网搜索行为分析。本文包括四部分具体的研究工作:(1)上下文感知的搜索性能评价;(2)移动搜索环境感知的文档效用评估;(3)移动搜索环境下的点击模型构建;(4)用户上下文感知的复杂搜索行为分析。以上研究结合了用户实验和大规模搜索日志分析两种研究方法,分别针对查询会话上下文、应用环境上下文、用户属性上下文三种上下文因素对用户搜索行为的影响进行了系统性分析。相关研究结果扩展了已有搜索引擎用户行为分析研究,加深了我们对用户在真实网络搜索环境中的搜索行为的理解。在充分理解不同上下文因素对用户搜索行为的影响的基础上,本文进一步将研究结果应用在用户为中心的搜索引擎评价和改进搜索结果排序两个信息检索领域重要应用中。

刘佳薇[8](2018)在《元搜索中基于日志和语料的查询推荐模型的研究与实现》文中研究指明自人类进入二十一世纪以来,互联网产生了规模巨大的各类数据,且数据量仍在不断激增。搜索引擎可以帮助人们高效地从错综复杂的海量数据中获取到需要的信息。但是,单个搜索引擎往往查全率不高,不能完全满足用户的检索需求,而元搜索引擎通过整合各个成员搜索引擎返回的搜索结果,从而为用户提供覆盖率更高的检索结果。然而,在元搜索引擎中,用户输入的初始查询有时并不能准确表达其查询意图,从而影响检索结果的准确率。因此亟需研究面向元搜索引擎的查询推荐技术,以提高元搜索引擎的用户体验。查询推荐技术通过将相关的查询词推荐给用户,以帮助用户构造更有效的查询。传统的查询推荐模型可以分为两大类,分别是基于日志的查询推荐模型和基于语料的查询推荐模型。本文对比分析了这两类模型的优缺点,在“智搜”元搜索引擎系统的基础上,提出并实现了一个基于日志和语料的查询推荐模型。本文的工作内容及结论如下:(1)本文首先使用查询日志数据构建查询-链接二部图,在该图上使用两步随机游走策略来找到候选查询推荐词集。为了进一步扩充候选词集的范围,发挥元搜索引擎的优势,利用多个搜索引擎的查询推荐结果来丰富候选查询推荐词集。接下来,使用主题概念提取的方法,从元搜索引擎检索结果中提取查询词相关的主题概念,筛选出与主题概念相关的候选查询推荐词集。(2)为了进一步提高候选查询词的准确性,本文使用基于语料数据的查询项图相似性计算方法筛选得到最终的候选查询推荐词集。除此以外,本文还提出了一个查询词合理性的计算方法,对候选查询词集进行最终的排序。(3)本文提出的基于日志和语料的查询推荐模型已在“智搜”元搜索引擎中实现并应用,实验结果表明该推荐模型可以更加准确的为用户提供查询推荐词,且该模型的各个步骤均可以有效提高查询推荐的性能。

李月琳,章小童[9](2018)在《数据驱动的信息行为研究的回顾与展望》文中指出文章着重通过回顾基于日志数据的信息行为研究,阐述大数据时代信息行为研究的重要分支——数据驱动的信息行为研究的简要发展历程与研究现状。文章首先通过文献的聚类分析,识别该领域的关键研究主题;然后从数字图书馆用户信息行为研究、Web搜索引擎用户信息行为分析及社交媒体用户信息行为分析三方面综述了相关研究。回顾发现,当前数字驱动的信息行为研究着重关注数字图书馆及网络用户信息搜索行为特征、用户信息需求的识别和表达、搜索结果的组织与呈现;社交媒体中用户的一般使用行为特征、内容的获取与利用行为及信息互动行为等也是该领域重要的研究主题。文章分析了该领域研究方法——日志数据分析的优缺点,指出了未来研究的发展方向,包括继续向移动互联网、社交媒体等领域的纵深发展,大数据挖掘技术不断发展带来的推动,融合日志数据分析与传统社会科学研究方法的"双轮驱动"的信息行为研究等。

刘畅,宋筱璇[10](2017)在《信息搜索用户检索式行为研究综述》文中研究指明[目的 /意义]用户的检索式行为是用户信息搜索的重要环节,本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述。[方法/过程]通过对国内外相关文献的梳理,将检索式构建行为划分为检索词、检索式和会话层三个层面,以及词汇、语法和语义三个维度,对每个维度及不同维度之间的研究的区别与联系进行讨论,并对检索式的重构行为、检索式的质量和效果评估、以及影响用户检索式行为的要素等几个方面的相关研究进行总结。[结果 /结论]已有研究对于检索式行为中的检索词和检索式的词汇研究较为丰富,未来需要增加对检索式的语法和语义的研究,以便深入理解用户的检索式构成特征。另外,关于检索式重构的类别和模式的自动识别的探索有所不足。在检索式的质量和效果评估方面,还需结合多种情境因素,更深入地研究易于用户理解和利于其搜索的检索式推荐模式。

二、大规模中文搜索引擎的用户日志分析(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、大规模中文搜索引擎的用户日志分析(论文提纲范文)

(1)基于Spark的查询日志用户行为系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 国内外研究现状
    1.4 研究内容
    1.5 论文组织结构
第二章 相关技术介绍
    2.1 Hadoop技术
        2.1.1 HDFS分布式文件系统
        2.1.2 MapReduce分布式计算框架
        2.1.3 YARN资源管理器
    2.2 HBase技术
    2.3 Hive技术
    2.4 Spark技术
        2.4.1 Spark简介
        2.4.2 Spark运行模式
        2.4.3 Spark运行架构
    2.5 Java Web技术
        2.5.1 Sprint Boot
        2.5.2 ECharts
    2.6 数据挖掘相关技术
        2.6.1 TF-IDF向量空间模型
        2.6.2 朴素贝叶斯算法
        2.6.3 K-Means算法
    2.7 本章小结
第三章 系统的需求分析与总体设计
    3.1 系统需求分析
        3.1.1 系统需求分析概述
        3.1.2 系统业务需求分析
        3.1.3 系统功能需求分析
        3.1.4 系统非功能需求分析
    3.2 系统总体设计
        3.2.1 系统功能模块设计
        3.2.2 基础数据表设计
        3.2.3 系统整体架构设计
    3.3 本章小结
第四章 系统的具体实现
    4.1 数据来源
    4.2 日志采集具体实现
    4.3 日志存储具体实现
    4.4 日志分析具体实现
        4.4.1 实时统计分析具体实现
        4.4.2 离线统计分析具体实现
        4.4.3 离线数据挖掘具体实现
    4.5 日志可视化具体实现
    4.6 本章小结
第五章 用户行为分析系统结果分析
    5.1 环境平台的部署
        5.1.1 系统软硬件配置
        5.1.2 Hadoop高可用集群搭建
        5.1.3 HBase高可用集群搭建
        5.1.4 Spark高可用集群搭建
    5.2 结果分析
        5.2.1 实时统计分析
        5.2.2 用户查询日志指标分析
        5.2.3 用户关键字统计分析
        5.2.4 Rank排名与用户点击次数分析
        5.2.5 URL点击排行榜分析
        5.2.6 用户查询主题分类分析
        5.2.7 用户查询主题聚类分析
    5.3 本章小结
第六章 总结与展望
参考文献
致谢

(2)蜕变测试:基于用户检索习惯的搜索引擎性能研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 国内外研究进展
        1.2.1 蜕变测试的相关研究
        1.2.2 搜索引擎性能评估标准的相关研究
        1.2.3 搜索引擎日志的相关研究
    1.3 课题来源
    1.4 论文研究内容和创新点
        1.4.1 论文的研究内容
        1.4.2 论文创新点
    1.5 论文结构
第2章 相关知识
    2.1 蜕变测试
        2.1.1 蜕变测试基本概念
        2.1.2 蜕变测试一般流程
    2.2 搜索引擎
        2.2.1 搜索日志
        2.2.2 搜索操作符
    2.3 自动化测试框架Selenium
    2.4 本章小结
第3章 搜索引擎用户检索习惯研究
    3.1 研究用户检索习惯的方式选择
    3.2 数据处理
        3.2.1 删除格式错误的日志数据
        3.2.2 数据去重
    3.3 搜索日志分析
        3.3.1 搜索结果中被点击URL分布分析
        3.3.2 中英文查询项比例分析
        3.3.3 查询项长度分析
        3.3.4 搜索操作符使用情况分析
        3.3.5 查询项词性组合分析
        3.3.6 英文检索项错误率
        3.3.7 用户类型分析
    3.4 本章小结
第4章 基于用户检索习惯的蜕变关系与测试用例定义
    4.1 搜索引擎蜕变关系模板
    4.2 基于用户检索习惯的蜕变关系定义
        4.2.1 蜕变关系:MR_1
        4.2.2 蜕变关系:MR_2
        4.2.3 蜕变关系:MR_3
        4.2.4 蜕变关系:MR_4
    4.3 基于用户检索习惯的测试用例定义
    4.4 本章小结
第5章 实验与结果分析
    5.1 实验内容
    5.2 实验结果与分析
        5.2.1 MR1实验结果
        5.2.2 MR2实验结果
        5.2.3 MR3实验结果
        5.2.4 MR4实验结果
        5.2.5 实验结果分析
    5.3 本章小结
第6章 结论与展望
    6.1 结论
    6.2 进一步工作的方向
参考文献
攻读学位期间取得的研究成果
致谢

(3)基于搜索引擎的中文纠错方法研究与实现(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 国内外研究现状
        1.3.1 国外研究现状
        1.3.2 国内研究现状
    1.4 本文的主要工作
    1.5 本文的组织结构安排
第2章 相关技术简介
    2.1 搜索引擎概述
        2.1.1 搜索引擎的体系结构
        2.1.2 搜索引擎的工作原理
        2.1.3 搜索引擎与自然语言处理的联系
    2.2 中文分词技术
    2.3 N-gram模型
        2.3.1 N-gram模型原理
        2.3.2 平滑技术
    2.4 Lucene开源工具
        2.4.1 Lucene基本概念
        2.4.2 Lucene的基本原理
    2.5 本章小结
第3章 基于N-gram模型的中文词串查错方法
    3.1 查错方法
        3.1.1 查错基本方法概述
        3.1.2 本文查错方法基本思想
    3.2 查错流程
        3.2.1 N-gram模型的构建
        3.2.2 N-gram模型的求解
    3.3 文本校对评价指标
    3.4 实验
        3.4.1 实验数据的选取
        3.4.2 实验数据分析
    3.5 本章小结
第4章 搜索引擎系统的中文纠错方法
    4.1 错别字类型分析
    4.2 基于拼音编辑距离的纠错方法
        4.2.1 拼音错误类型示例
        4.2.2 基于拼音编辑距离的定义
        4.2.3 基于拼音改良的编辑距离的纠错方法
        4.2.4 拼音串的查询扩展及纠错过程
    4.3 基于模糊匹配的纠错方法
        4.3.1 具体方法
        4.3.2 自适应语料库的建立
    4.4 最小编辑距离
    4.5 纠错方法的改进
        4.5.1 纠错流程的设计
        4.5.2 拼音纠错方法的改进
    4.6 排序模型
        4.6.1 排序模型的影响因素
        4.6.2 改进的排序模型
第5章 效果分析与系统实现
    5.1 实验数据的选取
    5.2 实验过程及结果分析
    5.3 系统的设计与实现
        5.3.1 需求分析
        5.3.2 模块介绍
        5.3.3 系统总体设计
        5.3.4 项目展示
    5.4 本章小结
总结与展望
参考文献
攻读学位期间发表的论文
致谢
详细摘要

(4)搜索引擎结果展示和评价研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 搜索结果内容
        1.2.2 搜索结果展示
        1.2.3 搜索结果评价
    1.3 现有方法存在的问题
        1.3.1 查询词突显的展示方式
        1.3.2 面向查询的内容评价
    1.4 论文的研究内容
    1.5 论文的组织结构
第2章 关键词查询的搜索结果文本展示和评价
    2.1 引言
    2.2 相关工作
        2.2.1 查询点击日志分析
        2.2.2 用户意图挖掘
        2.2.3 搜索结果多样化
    2.3 搜索结果展示的用户偏好分析
        2.3.1 用户调查数据集
        2.3.2 标题展示方式用户偏好调查
        2.3.3 摘要展示方式用户偏好调查
        2.3.4 用户偏好总结
    2.4 搜索结果不同展示的用户行为分析
        2.4.1 四种对比展示方式
        2.4.2 实验设置和流程
        2.4.3 相关性标注和评价指标
        2.4.4 实验结果及分析
    2.5 面向用户意图的搜索结果文本展示模型
        2.5.1 问题定义
        2.5.2 模型框架
        2.5.3 特征参数
        2.5.4 实验结果及分析
    2.6 本章小结
第3章 问题类查询的结果文本展示和评价
    3.1 引言
    3.2 相关工作
        3.2.1 用户点击日志分析
        3.2.2 搜索结果内容来源
    3.3 搜索结果展示用户偏好分析
        3.3.1 用户调查数据集
        3.3.2 标题展示方式用户偏好调查
        3.3.3 摘要展示方式用户偏好调查
        3.3.4 用户偏好总结
    3.4 搜索结果不同展示下的用户行为分析
        3.4.1 两种对比展示方式
        3.4.2 实验流程和评价指标
        3.4.3 相关性和必要性标注
        3.4.4 实验结果及分析
    3.5 基于答案感知的搜索结果展示深度学习模型
        3.5.1 问题定义
        3.5.2 模型框架
        3.5.3 实验和结果分析
    3.6 本章小结
第4章 搜索结果展示效果自动化评价方法
    4.1 引言
    4.2 相关工作
        4.2.1 信息线索理论
        4.2.2 三种结果相关性评价
        4.2.3 搜索结果评价方法
    4.3 基于信息检索的搜索结果展示效果评价
        4.3.1 评价体系和指标
        4.3.2 自动化评价算法
    4.4 实验结果和分析
        4.4.1 影响因素重要性分析
        4.4.2 与人工评测的一致性对比
        4.4.3 与用户A/B测试实验一致性对比
    4.5 本章小结
第5章 结论与展望
    5.1 工作总结
    5.2 后续工作展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

(5)搜索引擎中的实体推荐关键技术研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 课题背景及意义
        1.1.1 实体推荐的定义及研究背景
        1.1.2 实体推荐的挑战及研究意义
    1.2 研究现状及分析
        1.2.1 实体推荐算法
        1.2.2 实体推荐的可解释性
        1.2.3 尚且存在的问题
    1.3 本文的研究内容及章节安排
第2章 基于排序学习与信息新颖性增强的实体推荐
    2.1 引言
    2.2 问题定义
        2.2.1 信息新颖性定义
        2.2.2 基于信息新颖性增强的实体推荐任务定义
    2.3 基于排序学习框架的实体推荐算法
        2.3.1 相关实体发现
        2.3.2 相关实体排序
    2.4 实验设置
        2.4.1 实验数据
        2.4.2 基线方法
        2.4.3 评价指标
    2.5 实验结果与分析
        2.5.1 本方法与五种基线方法的比较
        2.5.2 不同特征的贡献度分析
    2.6 本章小结
第3章 基于深度多任务学习的上下文相关实体推荐
    3.1 引言
    3.2 问题定义
        3.2.1 上下文相关实体推荐任务定义
        3.2.2 使用多任务学习的原因
    3.3 基于多任务学习的上下文相关实体推荐模型
        3.3.1 上下文无关实体推荐模型
        3.3.2 上下文相关实体推荐模型
        3.3.3 使用多任务学习提升上下文相关实体推荐模型的效果
        3.3.4 利用上下文相关实体推荐模型提升推荐效果
    3.4 实验设置
        3.4.1 实验数据与评价指标
        3.4.2 基线方法
    3.5 实验结果与分析
        3.5.1 上下文信息的影响
        3.5.2 多任务学习与单任务学习的比较
        3.5.3 实体推荐模型的比较
        3.5.4 搜索会话长度的影响
        3.5.5 上下文相关文档排序的效果
    3.6 本章小结
第4章 基于卷积神经网络的实体对推荐理由识别
    4.1 引言
    4.2 问题定义
    4.3 实体对推荐理由识别方法
        4.3.1 训练数据的构建方法
        4.3.2 基于卷积神经网络的排序模型
    4.4 实验设置
        4.4.1 实验数据
        4.4.2 基线方法
        4.4.3 评价指标
    4.5 实验结果与分析
        4.5.1 人工设计特征与自动学习特征的比较
        4.5.2 基于pointwise与基于pairwise的排序方法的比较
        4.5.3 本方法与三种基线方法的比较
    4.6 本章小结
第5章 基于机器翻译模型的实体推荐理由生成
    5.1 引言
    5.2 问题定义
    5.3 基于统计机器翻译模型的实体推荐理由生成
    5.4 基于神经机器翻译模型的实体推荐理由生成
        5.4.1 序列到序列模型
        5.4.2 由实体信息指导的序列到序列模型
        5.4.3 基于序列到序列学习的实体推荐理由生成模型
    5.5 实验设置
        5.5.1 实验数据
        5.5.2 对比方法
        5.5.3 评价指标
    5.6 实验结果与分析
        5.6.1 不同实体推荐理由生成方法的比较与分析
        5.6.2 基于序列到序列学习的实体推荐理由生成模型分析
        5.6.3 基于实例的方法比较与分析
    5.7 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历

(6)垂直搜索引擎联合排序相关理论与关键技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 课题来源
    1.2 研究背景及意义
    1.3 搜索引擎相关技术
        1.3.1 技术原理
        1.3.2 发展历程
        1.3.3 技术架构
    1.4 国内外研究现状
        1.4.1 农业信息检索推荐技术
        1.4.2 页面内容相关度判断
        1.4.3 超链接预测分析算法
        1.4.4 用户查询行为方面
        1.4.5 排序结果联合问题
    1.5 本文研究内容及组织结构
第2章 基于内容相关度的检索模型研究
    2.1 二元独立模型
        2.1.1 相关性计算
        2.1.2 问题发现
    2.2 基于DOCVIEW模型的不同域相关度计算
        2.2.1 DocView模型
        2.2.2 特征要素提取
    2.3 基于互信息的统计语言模型特征构造
        2.3.1 N-Gram模型
        2.3.2 统计语言模型的数据稀疏问题
        2.3.3 互信息的引入
        2.3.4 基于互信息的回退数据平滑策略
        2.3.5 回退平滑方法优化
    2.4 实验及分析
        2.4.1 页面不同域特征权值综合排序性能验证
        2.4.2 基于互信息的数据平滑策略的最优性验证
    2.5 本章小结
第3章 基于非悬虚节点再分类的PAGERANK算法优化
    3.1 链接分析算法之间的关系
    3.2 PAGERANK算法解析
    3.3 存在问题
    3.4 调整悬虚节点算法和WEB块结构
        3.4.1 PageRank算法的基本模型
        3.4.2 调整悬虚节点算法
        3.4.3 Web块结构
    3.5 对PAGERANK算法的改进
        3.5.1 对非悬虚节点的再分类
        3.5.2 网页节点分类的改进算法
    3.6 算法性能分析
        3.6.1 数值实例
        3.6.2 实验数据
        3.6.3 实验过程及结果分析
    3.7 本章小结
第4章 基于查询点击图的检索推荐模型优化
    4.1 搜索行为及意图
        4.1.1 搜索行为
        4.1.2 搜索意图
    4.2 搜索行为分析
        4.2.1 查询会话
        4.2.2 查询点击
    4.3 查询点击频数图推荐模型
        4.3.1 优化模型构建
        4.3.2 连接边权值重构
        4.3.3 推荐算法优化
    4.4 实验过程及结果分析
        4.4.1 实验数据分析
        4.4.2 连接边相关度对比分析
        4.4.3 查询推荐算法性能对比分析
        4.4.4 查询推荐算法多样化对比分析
    4.5 本章小结
第5章 基于马氏链的联合排序推荐模型研究
    5.1 联合排序问题及相关算法
        5.1.1 问题描述
        5.1.2 相关算法
    5.2 联合排序问题的监督学习框架
        5.2.1 监督学习框架的一般形式
        5.2.2 算法扩展及转化
    5.3 基于马氏链的监督学习算法
        5.3.1 联合排序过程描述
        5.3.2 优化问题求解
        5.3.3 算法设计
    5.4 实验及应用分析
        5.4.1 实验数据集
        5.4.2 实验过程及结果分析
    5.5 本章小结
第6章 全文总结与展望
    6.1 全文工作总结
    6.2 工作展望
致谢
参考文献
攻读学位期间获得与学位论文相关的科研成果
    1 发表论文
    2 参与课题
    3 获得奖励
    4 发明专利
附录A 公式中字母及字符含义

(7)上下文感知的互联网搜索行为分析(论文提纲范文)

摘要
Abstract
第1章 引言
    1.1 背景
    1.2 搜索引擎用户行为分析
    1.3 问题的提出:上下文感知的互联网搜索行为分析
    1.4 研究框架
    1.5 研究内容
第2章 上下文感知的搜索性能评价
    2.1 本章引言
    2.2 上下文感知的搜索性能评价相关工作
    2.3 上下文感知的搜索性能评价:用户实验
        2.3.1 用户实验设置
        2.3.2 数据标注
        2.3.3 质量控制和数据筛选
        本节总结
    2.4 上下文感知的文档效用与相关性的对比
        本节总结
    2.5 文档效用、相关性与满意度的关系
        2.5.1 与查询级别满意度的关系
        2.5.2 与任务级别满意度的关系
        本节总结
    2.6 在实际环境中获取文档效用标签
        2.6.1 文档效用标注
        2.6.2 文档效用预测
        本节总结
    2.7 本章小结
第3章 移动搜索环境感知的文档效用评估
    3.1 本章引言
    3.2 移动搜索和移动搜索评价相关工作
    3.3 移动搜索环境感知的文档效用评估:用户实验
        3.3.1 搜索任务设置
        3.3.2 实验参与者
        3.3.3 实验装置
        3.3.4 用户实验过程
        3.3.5 数据标注
        3.3.6 收集到的数据
    3.4 移动环境中影响文档效用的因素
        3.4.1 结果位置的影响
        3.4.2 相关性的影响
        3.4.3 点击必要性的影响
    3.5 移动环境中文档效用与满意度的关系
    3.6 移动环境中文档效用与用户行为的关系
    3.7 本章小结
第4章 移动搜索环境下的点击模型构建
    4.1 本章引言
    4.2 相关工作和背景
        4.2.1 移动搜索行为
        4.2.2 搜索引擎点击模型构建
    4.3 移动点击模型:MCM模型
        4.3.1 移动搜索环境感知的用户行为偏置建模
        4.3.2 移动点击模型的构建
        4.3.3 移动点击模型的参数估计
        4.3.4 与已有点击模型的比较
    4.4 基于大规模移动搜索日志的实验
        4.4.1 实验设置
        4.4.2 移动搜索和桌面搜索的对比
        4.4.3 点击预测实验
        4.4.4 相关性预测实验
        4.4.5 MCM模型参数分析
    4.5 本章小结
第5章 用户上下文感知的复杂搜索行为分析
    5.1 本章引言
    5.2 相关工作
        5.2.1 探索式搜索
        5.2.2 搜索中的领域知识水平
    5.3 用户上下文感知的复杂搜索行为分析:研究方法
        5.3.1 用户实验
        5.3.2 数据分析方法
        5.3.3 使用任务前问卷验证实验设置
        5.3.4 搜索结果相关指标
        5.3.5 搜索过程相关指标
    5.4 用户上下文感知的复杂搜索行为分析:实验结果
        5.4.1 验证实验设置的有效性
        5.4.2 搜索结果相关指标结果
        5.4.3 搜索过程相关指标结果
    5.5 本章小结
第6章 结束语
    6.1 研究工作总结
    6.2 未来工作展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

(8)元搜索中基于日志和语料的查询推荐模型的研究与实现(论文提纲范文)

摘要
ABSTRACT
缩略语对照表
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 论文工作内容
    1.4 本文组织结构
第二章 理论基础与关键技术
    2.1 元搜索引擎技术
    2.2 推荐模型相关技术
        2.2.1 协同过滤推荐模型
        2.2.2 分词技术
        2.2.3 语义相似性度量
        2.2.4 查询推荐模型常用的数据集
    2.3 查询推荐结果评价机制
        2.3.1 评价方法
        2.3.2 评价指标
    2.4 本章小结
第三章 基于日志和语料的查询推荐模型的设计
    3.1 元搜索引擎中查询推荐模型的框架设计
    3.2 基于日志的查询推荐策略
        3.2.1 推荐策略概要设计
        3.2.2 构建查询链接二部图
        3.2.3 生成候选推荐查询
        3.2.4 基于主题概念的推荐查询词集
    3.3 基于语料的查询推荐策略
        3.3.1 推荐策略概要设计
        3.3.2 基于查询项图的相似性计算方法
        3.3.3 候选查询合理性的计算方法
    3.4 本章小结
第四章 元搜索引擎中查询推荐模型的实现
    4.1 “智搜”元搜索引擎系统实现
        4.1.1 系统功能结构
        4.1.2 系统工作模式
    4.2 基于日志的推荐策略的实现
    4.3 基于语料的推荐策略的实现
        4.3.1 查询间相似性计算方法实现
        4.3.2 查询合理性计算方法实现
    4.4 查询推荐模型整体流程实现
    4.5 本章小结
第五章 实验设计与结果分析
    5.1 实验环境
    5.2 实验数据
    5.3 评价指标
    5.4 实验结果
        5.4.1 实验结果展示
        5.4.2 与成熟搜索引擎推荐结果对比
        5.4.3 各推荐策略间相互对比
        5.4.4 举例分析
    5.5 本章小结
第六章 总结与展望
    6.1 本文工作总结
    6.2 进一步的研究方向
参考文献
附录
致谢
作者简介

(9)数据驱动的信息行为研究的回顾与展望(论文提纲范文)

1 引言
2 文献来源及主题识别
3 数字图书馆用户信息行为研究
4 Web搜索引擎用户信息行为分析
5 社交媒体用户信息行为数据分析
6 讨论与展望
7 结语

(10)信息搜索用户检索式行为研究综述(论文提纲范文)

1 引言
2 检索式的构建
    2.1 检索词层面
    2.2 检索式层面
    2.3 会话层面
3 检索式重构行为
    3.1 重构类型
    3.2 重构模式
4 检索式质量及效果评估
5 检索式行为的影响因素
    5.1 用户个人因素
    5.2 其他情境因素
6 结语

四、大规模中文搜索引擎的用户日志分析(论文参考文献)

  • [1]基于Spark的查询日志用户行为系统的设计与实现[D]. 张煜福. 曲阜师范大学, 2020(01)
  • [2]蜕变测试:基于用户检索习惯的搜索引擎性能研究[D]. 杨正龙. 上海师范大学, 2020(07)
  • [3]基于搜索引擎的中文纠错方法研究与实现[D]. 杨苏稳. 江苏科技大学, 2019(03)
  • [4]搜索引擎结果展示和评价研究[D]. 张辉. 清华大学, 2019(02)
  • [5]搜索引擎中的实体推荐关键技术研究[D]. 黄际洲. 哈尔滨工业大学, 2019(01)
  • [6]垂直搜索引擎联合排序相关理论与关键技术研究[D]. 贾海龙. 武汉理工大学, 2018(07)
  • [7]上下文感知的互联网搜索行为分析[D]. 毛佳昕. 清华大学, 2018(04)
  • [8]元搜索中基于日志和语料的查询推荐模型的研究与实现[D]. 刘佳薇. 西安电子科技大学, 2018(02)
  • [9]数据驱动的信息行为研究的回顾与展望[J]. 李月琳,章小童. 信息资源管理学报, 2018(02)
  • [10]信息搜索用户检索式行为研究综述[J]. 刘畅,宋筱璇. 图书情报工作, 2017(16)

标签:;  ;  ;  ;  ;  

大型中文搜索引擎的用户日志分析
下载Doc文档

猜你喜欢