計算機等三級考試《網路技術》考點:網路搜尋技術
搜尋引擎的原理起源於傳統的資訊全文檢索理論,即計算機程式通過掃描一篇文章中的所有詞,建立以詞為單位的排序檔案,檢索程式根據檢索詞在每篇文章中出現的頻率和概率,對包含這些檢索詞的文章排序,最後輸出排序結果。下面是小編為大家帶來的關於網路搜尋技術的知識,歡迎閱讀。
1.搜尋引擎的原理和組成
(1)搜尋引擎的原理
搜尋引擎的原理起源於傳統的資訊全文檢索理論,即計算機程式通過掃描一篇文章中的所有詞,建立以詞為單位的排序檔案,檢索程式根據檢索詞在每篇文章中出現的頻率和概率,對包含這些檢索詞的文章排序,最後輸出排序結果。
(2)全文搜尋引擎功能模組的組成
現在的全文搜尋引擎一般由搜尋器、索引器、檢索器和使用者介面4個部分組成。
①搜尋器。搜尋器也稱為“蜘蛛”、“機器人”或“爬蟲”,實際上是一種基於Web的程式。搜尋器在Internet上逐個訪問伺服器來收集資訊,它通過請求Web站點上的HTML網頁來採集該 HTML網頁,並建立一個網站的關鍵字列表。搜尋器建立關鍵字列表的過程稱為網路爬行。
②索引器。索引器的功能是理解搜尋器所搜尋的資訊,從中抽取出索引項,用於表示文件以及生成文件庫的索引表。索引器可使用集中式索引演算法或分散式索引演算法。索引演算法對索引器的效能有很大的影響。一個搜尋引擎的有效性在很大程度上取決於索引的質量。
③檢索器。檢索器的功能是根據使用者查詢在索引庫中快速地檢索出文檔,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種使用者相關性的反饋機制。網頁檢索器是一個在Web伺服器上執行的CGI(公共閘道器介面)程式。
④使用者介面。使用者介面的作用是輸入使用者查詢,顯示查詢結果,提供使用者相關性反饋機制。使用者介面可以分為簡單介面和複雜介面兩種。
(3)目錄導航式搜尋引擎和網頁搜尋引擎的組成
目錄導航式搜尋引擎的'資訊蒐集系統主要由人工完成,搜尋引擎的標引專家依靠手工來搜尋不斷出現的新網站,給每個網站一個標題和大概描述,將其放入相應的類目體系中。在頁面上體現為每個類目路徑下排列著的相關網站,所以也稱為目錄導航。目錄導航式搜尋引擎提供兩種查詢介面形式:一種是直接單擊目錄樹,另一種是關鍵字檢索。
le和百度搜索引擎
Google是目前世界上使用率和搜尋精度最高的全文搜尋引擎,百度則是全球最大的中文搜尋引擎,兩者分別是國外、國內搜尋引擎的領頭羊。
(l)Google的主要技術
Google成立於1998年,創始人為美國斯坦福大學計算機科學系的兩位博士。Google一詞由英文單詞googol變化而來,表示1後面有100個零的數字,顯示了Google搜尋能力的強大。
Google的主要技術有以下幾點:
①網頁採集技術——分散式爬行系統。該系統通常由一個URL伺服器將URL列表提供給網路爬行器(Google同時執行3個爬行器)。每個爬行器同時保持大約300個網路連線。
②頁面等級技術(Page Rank)。Google是以Open Directory Project為類目基礎,開發了獨樹一幟的Page Rank技術。
③超文字匹配分析技術。超文字匹配分析技術是目前搜尋引擎中最先進的檢索技術。
(2)百度的主要技術
百度()於1999年底在美國矽谷成立,創始人是北京大學的兩位畢業生李彥巨集和徐勇。“百度”一詞來源於辛棄疾的名句“眾人尋他千百度”。
①智慧性、可擴充套件搜尋技術。
②智慧化中文語言處理技術。
③分散式結構化演算法與容錯設計。
④智慧化相關度演算法技術。
⑤檢索結果的智慧化輸出技術。
⑥高效的搜尋演算法和伺服器本地化。
在檢索功能方面,百度還具有如下的功能:體貼的提示功能、快照功能、專業的MP3搜尋功能、便於使用者交流的“貼吧”功能、百度常用搜索功能等。
-
2007年3月全國計算機三級考試《資訊管理》筆試真題
一、選擇題(每小題1分,共60分)下列各題A..B..C..D.四個選項中,只有一個選項是正確的。請將正確選項塗寫在答題卡相應位置上,答在試卷上不得分。(1)馮·諾依曼結構的計算機是以什麼原理為基礎的?A.程式併發性B.檔案管理C.儲存程式D.資源共享(2)作業系統除應具有開...
-
2015全國計算機三級考試《資料庫技術》複習重點(六)
71、資料流圖包括哪四種基本的圖形符號答:1、圓框:變換/加工2、方框:外部實體3、箭頭:資料流4、直線:資料儲存72、(資料字典)是對資料定義的資訊的集合。73、資料字典中有四種類型的條目:(資料流)、(資料儲存)、(資料項)和(加工)。74、資料字典可通過三種途徑實現:答:1...
-
計算機三級資料庫技術考習題
資料庫是資料管理的高階階段,它是由檔案管理系統發展起來的。今天,小編特意為大家推薦計算機三級資料庫技術考習題,希望大家喜歡!1).如果一個併發排程的結果與某一序列排程執行結果等價,則這個併發排程稱為是()A.序列排程B.可序列化的排程C.併發執行的可序列化執行D...
-
2016年三級資訊保安技術考試試題及答案
1.資訊保安策略的制定和維護中,最重要是要保證其____和相對穩定性。AA明確性B細緻性C標準性D開放性2.____是企業資訊保安的核心。CA安全教育B安全措施C安全管理D安全設施3.編制或者在計算機程式中插入的破壞計算機功能或者毀壞資料,影響計算機使用,並能自我複製的...