计算机等三级考试《网络技术》考点:网络搜索技术
搜索引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描一篇文章中的所有词,建立以词为单位的排序文件,检索程序根据检索词在每篇文章中出现的频率和概率,对包含这些检索词的文章排序,最后输出排序结果。下面是小编为大家带来的关于网络搜索技术的知识,欢迎阅读。
1.搜索引擎的原理和组成
(1)搜索引擎的原理
搜索引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描一篇文章中的所有词,建立以词为单位的排序文件,检索程序根据检索词在每篇文章中出现的频率和概率,对包含这些检索词的文章排序,最后输出排序结果。
(2)全文搜索引擎功能模块的组成
现在的全文搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。
①搜索器。搜索器也称为“蜘蛛”、“机器人”或“爬虫”,实际上是一种基于Web的程序。搜索器在Internet上逐个访问服务器来收集信息,它通过请求Web站点上的HTML网页来采集该 HTML网页,并建立一个网站的关键字列表。搜索器建立关键字列表的过程称为网络爬行。
②索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可使用集中式索引算法或分布式索引算法。索引算法对索引器的性能有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
③检索器。检索器的功能是根据用户查询在索引库中快速地检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性的反馈机制。网页检索器是一个在Web服务器上运行的CGI(公共网关接口)程序。
④用户接口。用户接口的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。用户接口可以分为简单接口和复杂接口两种。
(3)目录导航式搜索引擎和网页搜索引擎的组成
目录导航式搜索引擎的'信息搜集系统主要由人工完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新网站,给每个网站一个标题和大概描述,将其放入相应的类目体系中。在页面上体现为每个类目路径下排列着的相关网站,所以也称为目录导航。目录导航式搜索引擎提供两种查询接口形式:一种是直接单击目录树,另一种是关键字检索。
le和百度搜索引擎
Google是目前世界上使用率和搜索精度最高的全文搜索引擎,百度则是全球最大的中文搜索引擎,两者分别是国外、国内搜索引擎的领头羊。
(l)Google的主要技术
Google成立于1998年,创始人为美国斯坦福大学计算机科学系的两位博士。Google一词由英文单词googol变化而来,表示1后面有100个零的数字,显示了Google搜索能力的强大。
Google的主要技术有以下几点:
①网页采集技术——分布式爬行系统。该系统通常由一个URL服务器将URL列表提供给网络爬行器(Google同时运行3个爬行器)。每个爬行器同时保持大约300个网络连接。
②页面等级技术(Page Rank)。Google是以Open Directory Project为类目基础,开发了独树一帜的Page Rank技术。
③超文本匹配分析技术。超文本匹配分析技术是目前搜索引擎中最先进的检索技术。
(2)百度的主要技术
百度()于1999年底在美国硅谷成立,创始人是北京大学的两位毕业生李彦宏和徐勇。“百度”一词来源于辛弃疾的名句“众人寻他千百度”。
①智能性、可扩展搜索技术。
②智能化中文语言处理技术。
③分布式结构化算法与容错设计。
④智能化相关度算法技术。
⑤检索结果的智能化输出技术。
⑥高效的搜索算法和服务器本地化。
在检索功能方面,百度还具有如下的功能:体贴的提示功能、快照功能、专业的MP3搜索功能、便于用户交流的“贴吧”功能、百度常用搜索功能等。
-
2016年计算机三级信息安全模拟题及答案
一、单选题1.代表了当灾难发生后,数据的恢复程度的指标是(A)2.代表了当灾难发生后,数据的恢复时间的指标是(B)03.我国《重要信息系统灾难恢复指南》将灾难恢复分成了级(B)A.五B.六C.七D.八4.下图是_____存储类型的结构图。(B)C.以上都不是5.容灾的目的和实质是(C...
-
2006年上半年全国计算机等级考试三级《信息管理》真题参考答案
一、选择题:01-05:ACCAD06-10:CCCBD11-15:AADAB16-20:ABACC21-25:CCBBC26-30:BAABC31-35:BBDAC36-40:DCCCD41-45:BCBAB46-50:DDABC51-55:BABBC56-60;DCBAC二、填空题:1、二进制2、文件3、类4、核实修改5、文档6、NULL7、A,C9、数据库10、结构化11、会话12、界面13、各层次管...
-
2017年9月新疆大学计算机三级考试时间
大家知道2017年9月新疆大学计算机三级考试时间是什么时候呢?是否清楚呢?下面一起来看看!一、考试时间:9月23日-24日。二、报名条件及要求1.考生可根据自己学习和使用计算机的实际情况,直接选报相应科目的考试,报考三级的考生必须已取得二级相应科目的证书,报考四级的...
-
2016年计算机三级《数据库技术》机考试题及答案
1、把电路中的所有元件如晶体管、电阻、二极管等都集成在一个芯片上的元件称为()(本题分值:1分)【正确答案】BsistorgratedCircuitutermmTubeC所用的主要元件是()(本题分值:1分)【正确答案】CA.集成电路B.晶体管C.电子管D.以上答案都不对3、如果以链表为栈的存储...