网络爬虫的实现

网络爬虫的实现

一、一个Web抓取器的实现(论文文献综述)

王启杰[1](2020)在《面向经济知识图谱构建中文关系抽取算法的研究与应用》文中研究表明随着信息化时代的高速发展,近些年来互联网技术得到了爆炸式的飞速发展,同时互联网在各行各业广泛普及应用,互联网上文本数据呈爆炸式增长。虽然互联网上海量的、多样的数据让人们获取知识变得更加容易,但是其中大量的无用的数据同样让人们高效准确地获取知识变得更加困难。人们迫切希望一种技术能够从海量的数据中抽取有用的知识,当人们需要某种知识时可以直接准确获取,而不需要人工筛选。知识图谱正是在这种情况下诞生的,知识图谱就是覆盖在海量数据上的知识网络结构,它从海量的数据中抽取有用的知识,以实体关系三元组的形式结构化呈现给用户,让人们可以快速准确地获取需要的知识,而实体关系抽取则是构建知识图谱的核心技术。因而,知识图谱和实体关系抽取从提出至今一直是热门研究方向,面向领域知识图谱研究实体关系抽取算法在学术上和工程上都有极大的价值和意义。本文首先介绍了知识图谱和实体关系抽取算法在国内外的发展历程和研究现状,然后分析了知识图谱和实体关系抽取的相关技术,接着在此基础上面向经济领域知识图谱深入研究实体关系抽取算法,并在已有的经典算法模型基础上进行优化改进,提出了本文改进的基于远程监督的实体关系抽取算法,最后将本文改进的算法模型应用于实际的经济领域的具体数据上,成功搭建了经济领域的大数据知识图谱中心系统。整体来讲,本文的具体工作和主要贡献如下所示:(1)针对远程监督实体关系抽取算法的数据自动标注模块存在的准确率和召回率较低的问题,本文在已有算法模型的基础上进行优化,提出了本文的联合关系特征词与句子相似度的自动标注算法。具体来讲,首先,结合依存句法分析改进句子相似度,使得句子相似度主要依赖于和实体对相关的句子成分,强调实体对对句子的约束条件,然后,结合本文改进的句子相似度计算方法和传统的关系特征词匹配方法实现本文的数据自动标注算法,最后,将本文改进的数据自动标注算法与经典的Mintz方法、关系特征词扩展方法和关键词相似度方法进行了对比实验,实验结果证明了本文的数据自动标注算法相较于Mintz方法在准确率上有着极大的提升,相较于关系特征词扩展方法和关键词相似度方法在准确率和召回率上都有较好的提升;(2)针对已有的远程监督关系抽取模型忽略了句子中的关系受实体对约束的问题和经典算法PCNNs-ATT模型面向经济领域具体中文数据存在的中文分词噪声传递、多关系分类以及重复计算这些具体小问题,本文在PCNNs-ATT模型的基础上,设计了基于依存句法分析的拟字符注意力机制,实现了实体对对句子中关系的约束条件,同时引入字词混合向量、多标签问题和关系表示解决了中文分析噪声传递、多关系分类和重复计算的问题,最终提出了本文的PCNNs-ATT-DP模型,实现远程监督关系抽取,最后,将本文改进的PCNNs-ATT-DP模型与经典的Mintz模型、MIML模型、PCNNs模型和PCNNs-ATT模型进行了对比实验,实验结果证明了本文改进的PCNNs-ATT-DP模型在经济领域中文数据的实体关系抽取任务中,相较于其他经典的Mintz模型、MIML模型、PCNNs模型以及PCNNs-ATT模型,在准确率和召回率上都有良好的提升,同时,在这几种经典远程监督关系抽取算法中取得了最高的F值;(3)在本文第三章改进的经济领域数据自动标注算法和第四章改进的远程监督关系抽取模型PCNNs-ATT-DP模型的基础上,本文还面向中文经济领域的具体数据设计并实现了大数据知识图谱中心系统,实现了本文研究算法的应用。

彭鑫[2](2020)在《基于中文知识图谱的金融领域问答系统的研究与实现》文中研究说明随着互联网的飞速发展,问答系统为用户提供智能知识服务而受到青睐。本文从金融领域的角度出发,针对用户所提问句的不确定性和多样性,对金融领域中文数据进行分析梳理和结构化,构建了知识图谱,研究并实现了基于中文知识图谱的金融领域问答系统(CF-KGQA)。主要工作如下:1.获取与存储数据,构建了具有金融领域特性知识图谱。(1)搭建了一套一主十从的分布式爬虫系统,且为保障数据存储的安全,搭建了可主从备份的数据库集群。(2)定义知识图谱中实体、实体间关系的概念。在构建知识图谱时,不仅要考虑金融领域特性设计图谱结构,还要根据问答系统的实际需求不断进行调整。2.提出了基于深度学习的金融领域问句语义依存分析方法。提出了一种基于讯飞开放平台的语义依存图分析(Semantic Dependency Graph Parsing,SDGP)、双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)和条件随机场(Conditional Random Field,CRF)的语义依存分析方法(DR-BLSTM-CRF)。(1)结合BLSTM和CRF的命名实体识别(Named Entity Recognition,NER)算法对问句进行命名实体识别,获得一个包含字符标签信息的序列。(2)采用基于讯飞开放平台Web API对问句进行语义依存图分析,获得一个包含语义依存信息的句子表示,再结合(1)中的命名实体识别结果,通过依赖缩减得出更为准确的语义依存图。实验结果表明,在自建的约140000条金融领域问句数据集上,本文提出的方法与语言技术平台(Language Technology Platform,LTP)的语义依存分析效果相比,准确率、召回率和F1值分别提高33.4%、33.9%和34.2%,该方法可以有效地对金融领域问句进行语义依存分析。3.设计并实现了基于知识图谱的问答系统。在之前理论和实验基础上,将知识图谱和基于深度学习的金融领域问句语义依存分析方法应用于问答系统,设计知识图谱模块、前端展示模块和问答模块三大功能模块,并将问答结果在网页以动态图的形式进行展示。

田利剑[3](2019)在《田径赛事成绩抓取分析平台的设计与实现》文中研究说明在各大体育赛事中,田径历来都是金牌大户,而近些年来中国在各大赛事中的成绩也取得了长足的进步,大家对田径赛事的关注度日益提升。田径赛事成绩抓取分析平台是田径赛事智能信息管理平台的一部分,核心功能是成绩的抓取、成绩的分析和关于赛事成绩的自动问答。其中成绩抓取平台的主要任务是从指定的一个或多个数据源根据数据模板获取数据,再经过各个数据清理环节形成数据库供给后续成绩分析平台进行分析展示。成绩分析平台的核心功能则是从数据库中选取数据,进行查询、分类和汇总等各种分析,并将分析结果以多种直观的方式进行展示;关于赛事成绩的自动问答则是构建一个自动问答系统来回答用户提出的询问赛事成绩的相关问题。本文主要关注田径赛事成绩抓取分析平台的设计与实现,具体开展的研究工作有:1)从智能信息管理的高度出发,对赛事成绩抓取分析平台进行了需求分析,并基于需求分析的结果给出了该平台的完整设计;2)针对成绩抓取和成绩分析子系统,设计并实现了基于模板的成绩抓取器和成绩分析器,以模板为中介进行数据源及成绩分析策略的扩展;3)针对成绩问答子系统,设计并实现了一个借助历史问答知识库的田径赛事成绩问答系统。

王锦群[4](2019)在《分布式链接提取及DNS缓存技术研究》文中进行了进一步梳理随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS正负向缓存结构使用层次树保存正向缓存映射,对于异常解析域名单独建立负向缓存映射并用哈希表实现,各节点共享DNS缓存映射队列。缓存策略通过对域名预解析,并将解析的IP存入正向缓存结构,并用异步非阻塞方式并发处理DNS的查询请求,有效加快了DNS的解析速率。经仿真实验验证表明,提高了分布式茶产品爬虫系统的DNS解析效率。通过选取茶产品网站为研究对象,优化提高茶产品主题相关链接提取的准确率和分布式茶产品爬虫的DNS解析效率两个关键技术点,经过实际系统测试表明,分布式茶产品比价爬虫系统的性能得到了一定程度的提升。

郭宗辉[5](2013)在《传感器服务平台的设计与实现》文中进行了进一步梳理The internet of things(物联网)的概念至1999年被提出以来,纷纷受到各国政府和企业的高度重视。物联网是实现“人与物,物与物”间信息交互的一种网络,集成了感知、传输、存储、智能分析和处理的功能,具有独立性、互动性、灵活性和可扩展性的特点。传感器技术也是世界各国高新技术的重要组成部分,传感器应用逐渐渗入到生产生活、科研、医学诊断等各个领域,而且传感器的体积和重量逐渐减小,数据信息采集的准确率和速度也迅速提升。传感器服务平台为传感器提供接入互联网的通道,并提供数据存储显示、远程管理与控制等服务的平台,有助于推动物联网的发展,将具有广阔的应用空间。本文从物联网应用服务出发,结合常见传感器的功能和数据类型,归纳总结传感器服务平台的需求分析,将平台分为四大模块,分别为用户管理模块、数据管理模块、动作和触发模块、平台接口模块。在此基础之上,本文还设计了一套适合本平台的技术实现方案,采用B/S体系结构,以数据的存储显示为核心,注重Web应用程序开发。Web应用服务分为表示层、业务逻辑层、服务层和数据持久层四层结构,负责用户信息,设备和传感器、动作和触发等功能管理,数据上传、下载、分析和显示,触发动作执行等等。平台服务器采用LAMP架构,以CakePHP为应用开发框架,Nodejs+Redis构成平台的作业系统,SVN+Bugfree组成平台开发版本和Bug跟踪的管理系统。随着物联网技术的发展和应用普及,平台即将面临高并发和海量数据等问题,对平台服务器性能不断优化也是开发中的重要环节。本文分析了Web服务器性能参数和影响因素,采用CakePHP缓存和反向代理缓存技术优化了Web服务器性能。文中采用实时备份+完全备份+增量备份技术为平台数据库提供了可靠的安全保障。

曲歌[6](2012)在《基于Lucene局域网内容索引搜索引擎实现》文中研究指明网络现在已经深入到人们生活的方方面面,网络中的资源堪称海量非常丰富,随之而来的问题就是如何有效的搜索自己需要的信息。从如此巨大的信息源中精确找到真正想要的内容确实是一件困难的事情。最有效的解决方法就是通过搜索引擎来查找需要的数据,它可以帮助用户快速定位自己所要查询的资源。现在的公共搜索引擎只能针对Internet,如google、百度、Bing等,如果想对诸如企业内网中的似有数据源进行搜索的话,则显得不太方便或根本不可能实现。本文就是针对该类需求设计一个搜索引擎,可以扩展到企业、学校内部网络实现非结构化文档的内容检索。本文首先介绍了设计中的关键技术,Lucene,Ajax,服务器推送的需求和这些技术的工作原理。分析框架来设计一个搜索引擎,然后在此基础上,有三个主要模块:搜索机器人模块,索引模块和搜索模块,并描述三个模块之间的关系图,模块之间的低程度耦合。针对三个模块进行分析,设计和实施。首先,搜索机器人模块是网络库和索引库的基础,高效、灵活的数据采集,将为资料库的建立做好铺垫;第二,索引模块是实现高效的数据检索的基础,合理的文件内容索引和索引的数据存储结构,将直接影响搜索速度,并会影响用户体验。合理的设计是非常重要的,在此基础上,本系统采用Lucene的倒排序索引,其效率比传统的索引要高的多;最后,搜索模块检索用户需要的数据,降低服务器的数据分页和客户端的数据传输,并实现Google Suggest的Ajax效果,以改善用户体验。最后,文章总结了整个系统的设计和实施,以及未来的扩展,主要是如何使用基于MapRedue的分布式Hadoop库实现分布式抓取,索引和检索,以及如何使用内存数据库建立更高效的URL库和线程池,以提高搜索机器人的抓取效率。

张建武[7](2012)在《面向Web应用的安全评测技术研究》文中提出随着Internet的普及和发展以及Web应用技术的发展和研究的深入,已经有越来越多的Web应用系统被部署在Internet上以提供各式各样的应用服务,由于Web应用提供的服务的开放性使其时刻面临着潜在的恶意攻击者的威胁;而从另一个方面来说由于Web应用设计者的经验或者其他因素,使得Web应用系统对信息的保密和系统的安全考虑不太完备,或者存在一定的设计缺陷、编码缺陷、或者在维护中出现配置缺陷,这些情况造成了造成现在Web应用面临的攻击与破坏事件层出不穷。由于其地位的重要性以及面临安全威胁的严峻性,Web安全问题已引起人们的极大重视,但是传统的安全保证技术,如防火墙,IDS,IPS只能在面对攻击时可能起到效果,而在平常的使用过程中无法确认其安全状态,而且Web应用程序以及运行Web应用程序的服务器也都存在平常使用中无法检查其安全防护功能的问题。在这样的背景下,进行Web应用进行安全评测就有很强的现实意义。为了解决这些问题,本文以Web应用安全评测为研究目的,研究了国内外已有的通用的以及专门针对Web应用的信息安全评估、安全测评标准以及技术,借鉴现有的检测框架,提出了一个通用的Web应用安全评估通用框架;并且结合对Web应用所面临的安全威胁,将针对Web应用的安全评测分为三个层次:Web应用程序层,Web应用服务层,以及底层的网络边界层。分别针对这三个层面的内容进行Web安全测评的研究,并在最后提出一个Web应用安全测评管理平台,将这些研究内容按照前面提出的检测框架整合在此平台中,以实现对Web应用的安全测评工作。本文主要工作和研究成果如下所示:1.在网络边界层,研究了Web应用拓扑结构安全评测的相关技术,使用邻接矩阵来描述拓扑结构,使用二叉决策图来描述可能存在的约束问题,将拓扑结构安全评测问题分解为不包含逻辑约束的拓扑安全评测、包含逻辑约束的拓扑安全评测两种大的类型,并在解决前一个问题的基础上,研究对约束进行化简,并依照约束将其反映至邻接矩阵中从而解决解决Web应用拓扑结构安全评测的问题。以此来作为对Web应用安全评测中网络边界安全评估中的重要内容。2.在Web应用程序层面上研究了Web应用黑盒测试相关技术,实现了一套通过状态机对Web程序进行记录建模并根据实际标准的要求具体化功能和安全需求,然后通过远程的黑盒测试对Web应用进行测试并获取具体的检测结果的检验方法,同时在这个方法中引入了一个自学习的输入处算法来发现更多的状态和安全问题。3.在Web应用服务层面研究了Web应用服务配置的安全评测技术,通过Web应用服务的配置以及对应的配置检查项的描述方法进行研究,并在这些研究定义的基础上将Web应用服务配置分为命令行接口型的配置以及文本型的配置两种类型,分别针对这两种类型的配置形式提出了对其进行配置安全性评测的方法,并研究了在此基础上的具有通用性的结果评估方法。4.在对三个层面的技术进行研究之后,提出了一个Web应用安全评测管理平台的结构和具体的模块设计,这个评测管理平台基于Web应用安全评估通用框架、实现了Web应用安全评测的整体流程,并在最大程度上实现了评测的自动化操作。

马强[8](2011)在《基于比对技术的非法网站探测系统的实现与研究》文中提出二十世纪九十年代出现的万维网(World Wide Web),将互联网上的信息资源以图形化的界面直观的显现出来,并且资源之间还可以通过链接相互访问,使我们访问网络信息资源变得异常简单。以至计算机网络已经深入到我们生活的各个领域,可以说是无处不在,如电子商务、电子银行、网络视频、网络游戏、网络办公等等。然而,随着Internet的快速发展,网络为人们提供了各种各样丰富多彩的服务同时,出于各种目的,一些非法分子利用网络为自己谋取利益。他们通过各种技术手段,抓住网络不易被追查的特点,逃避法律,建立了很多非法网站,非法的提供各类网络服务。事实表明,近年来随着Internet技术的飞速发展,网络入侵事件、网络诈骗事件、钓鱼网站、网络淫秽网站等非法网站日渐增多。所以网络安全问题已成为网络技术应用的焦点问题,构建一个安全、文明的网络环境已经成为社会各界十分关注和亟待解决的问题。本文以此为背景,结合云南省网络安全现状,探讨非法网站探测策略,为构建安全、文明的网络环境提供参考。本系统采取的不是在网络上监控数据流,对非法、有害的信息进行封堵和过滤这样的被动防御措施,而是采用主动的探测方法,直接发现在互联网上非法提供各类网络服务的网站,从源头上对这些网站进行监管,保证我国正常的网络环境秩序。通过对现有各种网站探测技术的工作原理、实现方法和技术特点的研究,特别是网络扫描技术、网络爬虫技术、网页快照技术三方面的分析和研究之后,本文提出了非法网站探测系统的设计方案,阐述了非法网站探测系统各功能模块的设计思想和实现方法,编写了IP扫描器、网络爬行器、快照抓取器三个功能模块程序。在系统设计过程中采用了多线程技术和插件技术,提高了系统执行效率,增强了系统的可扩展性。最后对各模块进行了功能测试,测试结果表明,本文提出的方案具有可行性,在实际运用中具有高效、快速、准确和稳定的特点。

徐涛[9](2011)在《基于社会网络分析的藏文web链接结构研究》文中研究指明社会网络分析方法是由社会学家根据数学法、图论等发展起来的计量分析方法,近年来该方法在Internet、职业流动、世界政治和经济体系等领域广泛应用,并发挥重要作用。本选题拟就将社会网络分析中的相关研究成果为基础,用于藏语Web链接结构分析以及以此而进行以后的相关藏文Web信息处理。藏文Web链接结构的研究对藏文搜索引擎、跨语言信息检索、藏文Web社区发现以及藏文Web舆情分析等领域的许多方面,具有基础性的学术价值和广泛的应用价值。其研究内容涉及到社会学、计算语言学、词典学、统计语言学、数据库技术、经典的链接结构分析算法、跨语言信息检索以及java程序涉及等技术学科。本文首先从藏文Web页面的抓取入手,并从通过正则表达式方法获取本文最基本的单元,即链接点(URL)以及相关信息,并且通过数据库存储技术对链接信息进行存储,通过社会网络分析法里的社会关系(包括个体、群体或社会)以及结构分析、中心性分析和权威性分析、简单图论分析和计量统计分析等方法,进行提取链接关系、构建藏文Web链接结构(非可视化)、提取中心性网页和权威性网页、进行网页权值分析等研究,并进行了初步的二次网络信息发现方面的探究。其中页面权值分析是本文的重点和难点。本文的最后大概介绍本文的不足和下一步需要进行的研究。

陈晓慧,陈荣国,卫文学[10](2010)在《基于网络爬虫的Web服务抓取解析器的设计与实现》文中研究表明随着Web服务和网络技术的发展,越来越多的Web服务得以开发并发布到网络上。由于网络上存在的Web服务相互之间没有内在的必然联系,用户很难快速有效地获取和利用这些服务。本文设计了一种Web服务抓取解析器框架,包括URL抓取器、WSDL文档解析器和用于结构化存储Web服务信息的数据库等。该抓取解析器采用网络爬虫程序对互联网中的URL进行搜索,通过搜索发现分布在网络上的Web服务,并最终建立起一个关于Web服务的信息库,为共享Web服务提供条件。

二、一个Web抓取器的实现(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一个Web抓取器的实现(论文提纲范文)

(1)面向经济知识图谱构建中文关系抽取算法的研究与应用(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究发展及现状
        1.2.1 知识图谱发展及研究现状
        1.2.2 实体关系抽取发展及研究现状
    1.3 本文的研究内容
    1.4 本文的组织结构
第二章 相关理论与总体设计
    2.1 知识图谱技术研究
        2.1.1 知识图谱的基本概念
        2.1.2 知识图谱的构建技术
        2.1.3 知识图谱的应用
    2.2 实体关系抽取算法研究
        2.2.1 无监督的实体关系抽取算法
        2.2.2 有监督的实体关系抽取算法
        2.2.3 半监督的实体关系抽取算法
    2.3 词向量与句向量研究
        2.3.1 词向量
        2.3.2 句向量
        2.3.3 Word2Vec
        2.3.4 句子相似度
    2.4 爬虫工具与自然语言处理工具
        2.4.1 爬虫工具
        2.4.2 自然语言处理工具
    2.5 深度学习相关技术研究
        2.5.1 卷积神经网络
        2.5.2 Attention机制
    2.6 整体设计
        2.6.1 算法整体设计
        2.6.2 系统整体设计
    2.7 本章小结
第三章 经济领域数据自动标注算法研究
    3.1 算法分析与设计
        3.1.1 算法分析
        3.1.2 算法设计
    3.2 经济领域知识库构建
        3.2.1 百度百科介绍
        3.2.2 经济领域知识库构建
    3.3 联合关系特征词与句子相似度的自动标注模型设计
        3.3.1 关系特征词及扩展词标注模块设计
        3.3.2 结合依存句法分析改进句子相似度计算方法
        3.3.3 相似度阈值计算
        3.3.4 句子相似度标注模块设计
        3.3.5 本文自动标注算法设计
    3.4 实验结果及分析
        3.4.1 实验数据
        3.4.2 评价指标
        3.4.3 实验结果与分析
    3.5 本章小结
第四章 改进的远程监督中文关系抽取模型设计
    4.1 问题分析与改进思路
        4.1.1 问题分析
        4.1.2 改进思路
    4.2 远程监督关系抽取PCNNs-ATT-DP模型设计
        4.2.1 句子编码器改进
        4.2.2 句子注意力机制层改进
        4.2.3 多标签关系模型改进
    4.3 实验结果及分析
        4.3.1 实验数据
        4.3.2 评价指标
        4.3.3 实验结果分析
    4.4 本章小结
第五章 大数据知识图谱中心系统实现
    5.1 需求分析
    5.2 系统设计
    5.3 系统实现
        5.3.1 前后端技术研究
        5.3.2 数据库管理研究
        5.3.3 全数据集成平台模块实现
        5.3.4 数据预处理平台模块实现
        5.3.5 数据标注平台模块实现
        5.3.6 知识抽取平台模块实现
        5.3.7 知识图谱可视化平台模块实现
    5.4 系统测试
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
攻读硕士学位期间取得的成果

(2)基于中文知识图谱的金融领域问答系统的研究与实现(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 研究内容与论文结构
第2章 问答系统相关技术
    2.1 数据获取
    2.2 数据存储
        2.2.1 关系型数据存储
        2.2.2 非关系型数据存储
    2.3 实体识别
        2.3.1 基于规则和词典的方法
        2.3.2 基于统计模型的方法
        2.3.3 基于深度学习的方法
    2.4 实体链接
    2.5 语义抽取
        2.5.1 基于统计学习的语义抽取方法
        2.5.2 基于语法解析的语义抽取方法
        2.5.3 各类语义抽取方法的比较分析
    2.6 Cypher
    2.7 本章小结
第3章 问答系统数据的获取与存储
    3.1 基于Pyspider的数据获取方案
    3.2 基于Mysql的数据存储方案
    3.3 基于Neo4j的数据存储方案
    3.4 本章小结
第4章 基于深度学习的金融领域问句语义依存分析
    4.1 基于DR-BLSTM-CRF的金融领域问句语义依存分析
        4.1.1 BLSTM
        4.1.2 BLSTM-CRF
        4.1.3 DR-BLSTM-CRF
    4.2 实验及相关说明
        4.2.1 数据集
        4.2.2 实验设置
    4.3 实验结果及分析
    4.4 本章小结
第5章 问答系统的设计与实现
    5.1 系统框架设计
    5.2 系统开发环境
    5.3 知识图谱模块
    5.4 问答模块
        5.4.1 意图识别
        5.4.2 查询生成
    5.5 前端展示模块
    5.6 问答系统页面展示
    5.7 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 后续工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果

(3)田径赛事成绩抓取分析平台的设计与实现(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景和意义
    1.2 研究现状
        1.2.1 体育赛事管理系统的研究现状
        1.2.2 赛事智能管理相关技术的研究现状
    1.3 本文的研究内容
    1.4 本文结构
    1.5 本章小结
第二章 系统需求分析及设计
    2.1 赛事信息智能管理平台
        2.1.1 平台的建设目标
        2.1.2 平台的总体构成
        2.1.3 赛事成绩抓取和分析系统的地位和作用
    2.2 田径赛事成绩抓取与分析系统的分析与设计
        2.2.1 系统架构
        2.2.2 数据流
        2.2.3 数据库
        2.2.4 系统功能
        2.2.5 用户权限
    2.3 本章小结
第三章 田径赛事成绩抓取和常规分析子系统的实现
    3.1 赛事成绩抓取分析子系统的概述
    3.2 赛事成绩抓取子系统的实现
        3.2.1 基于多线程的并发式多数据源抓取器
        3.2.2 增量式数据更新
        3.2.3 基于报警日志的数据源站点可信度调节算法
    3.3 赛事成绩常规分析子系统的实现
        3.3.1 查询模板的维护策略
        3.3.2 常用的查询模板
    3.4 本章小结
第四章 赛事成绩问答子系统的实现
    4.1 赛事成绩问答子系统概述
    4.2 问题骨干抽取
        4.2.1 编码层
        4.2.2 解码层
    4.3 问题分类
        4.3.1 融入自注意力机制的编码层
        4.3.2 门控在编码层的应用
    4.4 相似问题获取
    4.5 核心功能的评测
        4.5.1 数据集
        4.5.2 核心任务的评测
    4.6 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读学位期间公开发表的论文
致谢

(4)分布式链接提取及DNS缓存技术研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 链接消重研究现状
        1.2.2 主题相关链接提取研究现状
        1.2.3 DNS缓存技术研究现状
    1.3 研究问题与内容
    1.4 论文组织结构
第二章 相关理论与技术
    2.1 网络爬虫
        2.1.1 网络爬虫模型
        2.1.2 通用爬虫基本结构
        2.1.3 分布式爬虫系统架构
    2.2 网络爬虫的主题链接提取技术
        2.2.1 待爬链接去重
        2.2.2 主题相关链接提取
    2.3 网络爬虫的DNS缓存技术
        2.3.1 DNS解析与缓存
        2.3.2 相关DNS缓存策略
    2.4 本章小结
第三章 分布式下主题链接提取技术研究
    3.1 链接去重算法模型
        3.1.1 现有的URL去重算法及其局限性
        3.1.2 改进的URL去重算法模型
    3.2 基于特定主题的相关链接提取研究
        3.2.1 现有相关链接提取算法及其局限性
        3.2.2 基于路径聚合的锚多重属性的相关链接提取算法
    3.3 实验结果与分析
        3.3.1 URL去重实验方案
        3.3.2 主题链接提取实验方案
        3.3.3 实验结果
    3.4 本章小结
第四章 分布式网络爬虫DNS缓存技术研究
    4.1 分布式爬虫DNS访问瓶颈分析
        4.1.1 DNS的访问瓶颈
        4.1.2 DNS访问瓶颈的改善方法
    4.2 一种正负向双缓存结合的分布式DNS缓存策略
        4.2.1 DNS缓存结构设计
        4.2.2 基于正负向双缓存结合的分布式DNS缓存策略
    4.3 实验结果与分析
        4.3.1 实验方案
        4.3.2 实验结果
    4.4 本章小结
第五章 分布式茶产品比价爬虫系统的设计与实现
    5.1 爬虫系统总体设计
        5.1.1 系统总体架构
        5.1.2 系统运行机制
    5.2 爬虫系统实现
        5.2.1 主节点实现
        5.2.2 从节点群实现
    5.3 系统功能与性能测试
        5.3.1 系统功能测试
        5.3.2 系统性能测试
    5.4 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 未来工作展望
参考文献
附录 攻读硕士学位期间获得的成果
致谢

(5)传感器服务平台的设计与实现(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 引言
    1.2 国内外研究现状
    1.3 课题背景与研究意义
    1.4 主要工作与内容安排
2 传感器服务平台的设计
    2.1 平台需求分析
        2.1.1 用户管理模块
        2.1.2 数据管理模块
        2.1.3 动作和触发模块
        2.1.4 平台接口模块
    2.2 平台整体架构设计
    2.3 平台技术实现设计
    2.4 本章小结
3 平台实现及功能展示
    3.1 开发工具介绍
        3.1.1 编程语言
        3.1.2 主要中间件
        3.1.3 Web 应用程序框架—CakePHP
        3.1.5 版本管理和 Bug 跟踪工具
    3.2 平台数据库设计
    3.3 平台主要功能展示
        3.3.1 用户管理
        3.3.2 设备和传感器管理
        3.3.3 动作和触发管理
        3.3.4 微博抓取器
    3.4 本章小结
4 平台服务器运维
    4.1 Web 服务器性能指标及压力测试
    4.2 Web 服务器性能优化
        4.2.1 CakePHP 缓存
        4.2.2 反向代理缓存
    4.3 平台数据库备份与恢复
    4.4 本章小结
5 总结与展望
    5.1 总结
    5.2 展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

(6)基于Lucene局域网内容索引搜索引擎实现(论文提纲范文)

中文摘要
ABSTRACT
1. 绪论
    1.1 课题背景
    1.2 实现基于内容检索需要解决的问题
    1.3 课题研究的目的和意义
    1.4 论文的结构安排
2. 系统采用的关键技术
    2.1 Lucene 库介绍
    2.2 J2EE 技术介绍
    2.3 AJAX 技术及 ExtJs 库简介
    2.4 服务器推送技术及 Pushlet 库
        2.4.1 服务器推送技术介绍
        2.4.2 Pushlet 库技术介绍
3. 系统总体分析设计
    3.1 需求分析
    3.2 总体结构设计
    3.3 各模块功能分析
    3.4 小结
4.主要功能模块设计及实现
    4.1 网页抓取器功能模块的设计与实现
        4.1.1 网页内容抓取器介绍
        4.1.2 网页内容抓取器算法
        4.1.3 网页内容抓取器功能需求
        4.1.4 网页内容抓取器系统结构
    4.2 索引功能模块的设计与实现
        4.2.1 Lucene 索引介绍
        4.2.2 倒排索引原理
        4.2.3 中文部分
        4.2.4 网页资源文本分析
        4.2.5 索引模块实现
    4.3 搜索功能模块的设计与实现
        4.3.1 介绍信息查询概述
        4.3.2 查询基本流程
        4.3.3 查询结果显示
        4.3.4 Lucene 搜索介绍
        4.3.5 搜索模块实现
    4.4 小结
结论
参考文献
致谢
作者简介

(7)面向Web应用的安全评测技术研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1. Web应用安全评测的意义
    1.2. 国内外研究现状
        1.2.1. 相关标准及理论研究
        1.2.2. 现有的产品介绍
        1.2.3. 现有研究的不足
    1.3. 研究内容及成果
        1.3.1. 主要研究内容
        1.3.2. 主要研究成果
    1.4. 论文结构安排
第二章 Web应用安全评估
    2.1. 引言
    2.2. 常见的Web安全问题
        2.2.1. 常见的Web安全问题分类
        2.2.2. Web应用常见的安全缺陷
    2.3. Web应用安全评估
        2.3.1. Web应用安全评估的概念
        2.3.2. Web应用安全评估实施流程
    2.4. Web应用安全评估方法
        2.4.1. 安全测试方法
        2.4.2. 结果评估方法
    2.5. Web应用安全评估通用框架
    2.6. 本章小结
第三章 基于邻接矩阵和二叉决策图的Web边界拓扑结构安全评测技术
    3.1. 引言
    3.2. 邻接矩阵与二叉决策图
        3.2.1. 邻接矩阵
        3.2.2. 二叉决策图
    3.3. 拓扑结构安全评测技术
        3.3.1. 基本概念定义
        3.3.2. 不包含逻辑约束的拓扑结构安全评测技术
        3.3.3. 包含逻辑约束的拓扑结构安全评测技术
    3.4. 实验与分析
    3.5. 本章小结及下一步工作
第四章 Web应用程序的黑盒扫描测试技术
    4.1. 引言
    4.2. 相关概念
    4.3. Web应用程序的黑盒扫描测试
        4.3.1. 行为描述语言
        4.3.2. Web应用程序建模与智能信息抓取
        4.3.3. Web应用安全扫描
    4.4. 实验与分析
    4.5. 本章小结及下一步工作
第五章 Web应用服务配置的安全评估技术
    5.1. 引言
    5.2. 安全基线检查
        5.2.1. 安全基线的概念
        5.2.2. 安全基线层次模型
        5.2.3. 安全基线的内容
    5.3. Web应用服务配置安全评估
        5.3.1. Web应用服务配置的分类
        5.3.2. Web应用服务检查项的描述方法
        5.3.3. Web应用服务配置安全评测
        5.3.4. Web应用服务配置安全评估方法
    5.4. 实验与分析
    5.5. 本章小结与下一步的工作
第六章 Web应用安全评测管理平台设计
    6.1. 引言
    6.2. 总体架构
    6.3. 模块设计
        6.3.1. 网络拓扑检验模块
        6.3.2. Web黑盒扫描模块
        6.3.3. 配置安全检验模块
        6.3.4. 结果评估模块
        6.3.5. 任务管理模块
        6.3.6. 结果管理模块
        6.3.7. 专家管理模块
        6.3.8. 系统管理模块
    6.4. 关键模块界面设计
        6.4.1. 网络拓扑检验模块
        6.4.2. Web黑盒扫描模块
        6.4.3. 配置安全检验模块
        6.4.4. 结果评估模块
    6.5. 本章小结
第七章 总结与展望
    7.1. 现有工作总结
    7.2. 进一步的研究计划和展望
参考文献
致谢
攻读学位期间发表的学术论文目录

(8)基于比对技术的非法网站探测系统的实现与研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题研究背景
    1.2 网络安全技术发展历程及现状
        1.2.1 网络安全技术的发展现状
        1.2.2 我国网络安全监控技术的发展现状
    1.3 本课题研究的意义及内容
第二章 网站探测技术分析
    2.1 网络扫描技术
        2.1.1 网络扫描概述
        2.1.2 网络扫描方法
        2.1.3 网络扫描技术
        2.1.4 扫描器介绍
    2.2 网络爬行技术
        2.2.1 网络爬虫与搜索引擎概述
        2.2.2 网络爬虫工作原理
        2.2.3 网页搜索策略
        2.2.4 网页分析算法
    2.3 网页快照技术
    2.4 小结
第三章 非法网站探测系统总体设计
    3.1 开发环境与应用平台
    3.2 系统设计的原则
    3.3 系统设计框架
        3.3.1 设计思想
        3.3.2 总体框架
        3.3.3 各功能模块
    3.4 系统工作流程
    3.5 小结
第四章 非法网站探测系统各功能模块设计与实现
    4.1 多线程和插件技术编程与实现
        4.1.1 多线程编程与实现
        4.1.2 插件技术编程与实现
    4.2 IP扫描器模块设计
        4.2.1 模块程序总体设计
        4.2.2 主程序模块设计与实现
        4.2.3 扫描功能设计与实现
    4.3 网络爬虫器模块设计
        4.3.1 模块程序总体设计
        4.3.2 Crawler类设计与实现
    4.4 网页快照抓取器模块设计
        4.4.1 模块程序总体设计
        4.4.2 Program类设计与实现
        4.4.3 http_get类设计与实现
        4.4.4 MyUrlTree类设计与实现
    4.5 小结
第五章 测试与结果分析
    5.1 测试实例
        5.1.1 IP扫描器模块测试
        5.1.2 网络爬虫器模块测试
        5.1.3 网页快照抓取器模块测试
    5.2 测试结果分析
    5.3 小结
第六章 总结
致谢
参考文献
攻读学位期间发表的学术论文及科研项目

(9)基于社会网络分析的藏文web链接结构研究(论文提纲范文)

中文摘要
Abstract
第一章 绪论
    1.1 选题背景及意义
    1.2 国内外研究现状
    1.3 社会网络分析法的可行性
    1.4 论文的主要研究内容
    1.5 论文的组织结构
    1.6 本章小结
第二章 藏文 Web 资源的获取
    2.1 针对藏文网页的抓取器设计
        2.1.1 抓取器系统结构
        2.1.2 抓取器访问算法
        2.1.3 隐蔽网页资源的挖掘
    2.2 藏文网页信息提取相关技术
        2.2.1 HTML
        2.2.2 DOM 技术
        2.2.3 基于正则表达式的信息提取
    2.3 藏文网页文本规范
    2.4 本章小结
第三章 以社会网络分析法为指导的藏文 Web 链接结构的实现
    3.1 藏文Web 链接结构的理论基础:社会网络分析法
        3.1.1 社会网络分析概念
        3.1.2 社会网络分析意义
    3.2 藏文Web 链接提取
        3.2.1 传统链接提取与不足
        3.2.2 藏文Web 链接提取模型
    3.3 Web 链接分析
        3.3.1 Web 链接分析的概念分析
        3.3.2 Web 链接分析的各种计量
    3.4 藏文Web 链接结构
第四章 藏文 Web 链接结构分析
    4.1 藏文Web 页面的聚簇性
    4.2 藏文网页的PangRank 值分析
        4.2.1 PageRank 算法分析
        4.2.2 PageRank 算法缺陷分析
        4.2.3 改进的PageRank 算法
    4.3 网页的权威性与中心性分析
        4.3.1 权威性与中心性概念
        4.3.2 权威度与中心度的计算
    4.4 融入内容评价与链接价值的藏文网页主题相关度分析
        4.4.1 理论依据以及分析
        4.4.2 试验结果分析与结论
第五章 基于藏文 Web 链接结构的二次网络信息发现
    5.1 基于链接结构的Web 社区发现
        5.1.1 源于HITS 算法的藏文Web 社区发现
        5.1.2 基于重要度(PageRank)分析的Web 社区发现模型
    5.2 藏文Web 链接结构的其他方面的应用
        5.2.1 智能网页抓取研究
        5.2.2 链接结构在信息检索中的应用
第六章 总结与展望
参考文献
攻读学位期间的成果及发表论文
补充材料
致谢

(10)基于网络爬虫的Web服务抓取解析器的设计与实现(论文提纲范文)

0 引言
1 Web服务抓取解析器架构
2 Web服务抓取解析器的设计
    2.1 URL抓取器
    2.2 WSDL文档解析器
    2.3 Web服务信息的数据库
3 Web服务抓取解析器测试
4结束语

四、一个Web抓取器的实现(论文参考文献)

  • [1]面向经济知识图谱构建中文关系抽取算法的研究与应用[D]. 王启杰. 电子科技大学, 2020(07)
  • [2]基于中文知识图谱的金融领域问答系统的研究与实现[D]. 彭鑫. 重庆邮电大学, 2020(02)
  • [3]田径赛事成绩抓取分析平台的设计与实现[D]. 田利剑. 苏州大学, 2019(02)
  • [4]分布式链接提取及DNS缓存技术研究[D]. 王锦群. 中南民族大学, 2019(07)
  • [5]传感器服务平台的设计与实现[D]. 郭宗辉. 中国海洋大学, 2013(03)
  • [6]基于Lucene局域网内容索引搜索引擎实现[D]. 曲歌. 辽宁科技大学, 2012(07)
  • [7]面向Web应用的安全评测技术研究[D]. 张建武. 北京邮电大学, 2012(02)
  • [8]基于比对技术的非法网站探测系统的实现与研究[D]. 马强. 昆明理工大学, 2011(06)
  • [9]基于社会网络分析的藏文web链接结构研究[D]. 徐涛. 西北民族大学, 2011(06)
  • [10]基于网络爬虫的Web服务抓取解析器的设计与实现[J]. 陈晓慧,陈荣国,卫文学. 地理信息世界, 2010(03)

标签:;  ;  ;  ;  ;  

网络爬虫的实现
下载Doc文档

猜你喜欢