五月综合缴情婷婷六月,色94色欧美sute亚洲线路二,日韩制服国产精品一区,色噜噜一区二区三区,香港三级午夜理伦三级三

您現(xiàn)在的位置: 365建站網(wǎng) > 365文章 > 2.1 搜索引擎工作原理

2.1 搜索引擎工作原理

文章來(lái)源:365jz.com     點(diǎn)擊數(shù):1033    更新時(shí)間:2009-07-14 10:28   參與評(píng)論
搜索引擎模塊組成

一個(gè)典型的網(wǎng)絡(luò)信息檢索系統(tǒng)的系統(tǒng)架構(gòu)由信息收集、信息處理和查詢服務(wù)三個(gè)模塊組成。

從具體運(yùn)行方式上說(shuō),系統(tǒng)根據(jù)站點(diǎn)/網(wǎng)頁(yè)的URL信息和網(wǎng)頁(yè)之間的鏈接關(guān)系,利用網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上收集數(shù)據(jù);收集的數(shù)據(jù)分別通過(guò)鏈接信息分析器和文本信息分析器處理,保存在鏈接數(shù)據(jù)庫(kù)和文本索引數(shù)據(jù)庫(kù)中,同時(shí),網(wǎng)頁(yè)質(zhì)量評(píng)估器依據(jù)網(wǎng)頁(yè)的鏈接關(guān)系和頁(yè)面結(jié)構(gòu)特征對(duì)頁(yè)面質(zhì)量進(jìn)行評(píng)估,并將評(píng)估的結(jié)果保存在索引數(shù)據(jù)庫(kù)中;查詢服務(wù)器負(fù)責(zé)與用戶的交互,它根據(jù)用戶的檢索需求,從索引數(shù)據(jù)庫(kù)中讀取對(duì)應(yīng)的索引,并綜合考慮查詢相關(guān)性與頁(yè)面質(zhì)量評(píng)估結(jié)果之間的關(guān)系,給出查詢結(jié)果列表反饋給用戶。

搜索引擎優(yōu)化的主要任務(wù)之一就是提高網(wǎng)站的搜索引擎友好性,因此,搜索引擎優(yōu)化的每個(gè)環(huán)節(jié)都與搜索引擎存在必然的聯(lián)系,研究搜索引擎優(yōu)化實(shí)際上是對(duì)搜索引擎工作過(guò)程的逆向推理。因此,學(xué)習(xí)搜索引擎優(yōu)化應(yīng)該從了解搜索引擎的工作原理開始.

搜索引擎的主要工作包括:頁(yè)面收錄,頁(yè)面分析,頁(yè)面排序及關(guān)鍵字查詢。

1.頁(yè)面收錄

頁(yè)面收錄指搜索引擎通過(guò)蜘蛛程序在互聯(lián)網(wǎng)上抓取頁(yè)面進(jìn)行儲(chǔ)存的過(guò)程,它為搜索引擎開展各項(xiàng)工作提供了數(shù)據(jù)支持。

2.頁(yè)面分析

頁(yè)面分析首先是對(duì)原始頁(yè)面建立索引,實(shí)現(xiàn)對(duì)頁(yè)面的快速定位;然后,提取頁(yè)面的正文信息,并對(duì)正文信息進(jìn)行切詞及為這些詞(即關(guān)鍵字)建立索引,從而得到頁(yè)面與關(guān)鍵字的對(duì)應(yīng)關(guān)系;最后,對(duì)關(guān)鍵字進(jìn)行重組,并建立關(guān)鍵字與網(wǎng)頁(yè)相對(duì)應(yīng)的反向索引列表,從而能夠根據(jù)關(guān)鍵字快速定位至相應(yīng)網(wǎng)頁(yè).

3.頁(yè)面排序

搜索引擎結(jié)合頁(yè)面的內(nèi)外部因素計(jì)算出頁(yè)面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁(yè)面排度列表。

4.關(guān)鍵字查詢

搜索引擎接收來(lái)自用戶的查詢請(qǐng)求,并對(duì)查詢信息進(jìn)行切詞及匹配后,再向用戶返回相應(yīng)的頁(yè)面排序列表。

頁(yè)面收錄流程

在互聯(lián)網(wǎng)中,URL是每個(gè)頁(yè)面的入口地址,搜索引擎蜘蛛程序就是通過(guò)URL列表出發(fā),通過(guò)URL抓取并存儲(chǔ)原始頁(yè)面;同時(shí),提取院士頁(yè)面中的URL資源并加入到URL列表中。如此不斷地循環(huán),就可以從互聯(lián)網(wǎng)中獲取足夠多的頁(yè)面。

URL是頁(yè)面的入口,而域名則是網(wǎng)站的入口。搜索引擎蜘蛛車程序通過(guò)域名進(jìn)入網(wǎng)站,從而展開對(duì)網(wǎng)站的抓取。換而言之,搜索引擎要在互聯(lián)網(wǎng)上抓取到頁(yè)面的首要任務(wù)就是建立一個(gè)足夠大的域名列表,再通過(guò)域名進(jìn)入相應(yīng)的網(wǎng)站,從而抓取網(wǎng)站中的頁(yè)面。

而對(duì)于網(wǎng)站來(lái)說(shuō),如果想要被搜索引擎收錄,首要的條件就是加入搜索引擎的域名列表。下面介紹兩種常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的網(wǎng)站登錄入口,向搜索引擎提交網(wǎng)站域名,例如google的網(wǎng)站登陸地址是,可在此提交自己的網(wǎng)站域名。對(duì)于提交的域名列表,搜索引擎只會(huì)定期進(jìn)行更新。因此,這種做法比較被動(dòng),從域名提交到網(wǎng)站被收錄花費(fèi)的時(shí)間比較長(zhǎng)。

第二,通過(guò)與外部網(wǎng)站建立連接關(guān)系,使搜索引擎可以通過(guò)外部網(wǎng)站發(fā)現(xiàn)我們的網(wǎng)站,從而實(shí)現(xiàn)對(duì)網(wǎng)站的收錄。這種做法的主動(dòng)權(quán)掌握在我們自己的手里(只要我們擁有足夠多高質(zhì)量的連接即可),且收錄速度也比向搜索引擎主動(dòng)提交要快得多。根據(jù)外部連接的數(shù)量、質(zhì)量及相關(guān)性,一般情況下,2-7天左右就會(huì)被搜索引擎收錄。

頁(yè)面收錄原理

  我們可以把網(wǎng)站的組成看成一個(gè)集合,蜘蛛從指定的頁(yè)面出發(fā),沿著頁(yè)面的鏈接,按照特定的方法對(duì)網(wǎng)站頁(yè)面進(jìn)行遍歷,不停的從URL列表中移除已經(jīng)訪問(wèn)的URL,并存儲(chǔ)原始頁(yè)面,同時(shí)提取原始頁(yè)面的URL信息;再將URL分為域名及內(nèi)部URL兩大類,且進(jìn)行判斷URL是否訪問(wèn)過(guò),將未訪問(wèn)過(guò)的網(wǎng)站URL加入到URL列表中,遞歸掃描URL列表,知道把URL地址掃面完為止

頁(yè)面的收錄方式

      在互聯(lián)網(wǎng)數(shù)億計(jì)的頁(yè)面中,搜索引擎怎樣才能從中抓取到相對(duì)重要的頁(yè)面呢?這就涉及搜索引擎頁(yè)面收錄的方式。

      頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略,目的是為了能在互聯(lián)網(wǎng)中篩選出相對(duì)重要的信息。頁(yè)面收錄方式的制定取決于搜索引擎對(duì)網(wǎng)站的結(jié)構(gòu)理解。

      如果使用相同的抓取策略,搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源,則會(huì)在該網(wǎng)站上停留更長(zhǎng)的時(shí)間,

      收錄的頁(yè)面數(shù)自然也就增多了。因此,加深對(duì)搜索引擎頁(yè)面的收錄的認(rèn)識(shí),有利于為網(wǎng)站建立更好的結(jié)構(gòu),提高頁(yè)面被收錄的數(shù)量。

      搜索引擎收錄頁(yè)面的方式分為廣度優(yōu)先,深度優(yōu)先,和用戶提交,這三種的頁(yè)面收錄方式

     1.廣度優(yōu)先,廣度優(yōu)先是一個(gè)橫向的抓取方式,先從較淺層抓取,抓取完同層次的所有頁(yè)面后在進(jìn)入下一頁(yè)面。

     2.深度優(yōu)先,和廣度優(yōu)先相反,深度優(yōu)先是跟蹤淺層頁(yè)面中的某一連接逐步抓取深層頁(yè)面,直至抓取完最深層的頁(yè)面后返回淺層頁(yè)面再跟蹤其另一連接,繼續(xù)向深層頁(yè)面抓取,這是一種縱向頁(yè)面抓取方式。

     3.用戶提交,為了抓取更多的頁(yè)面,搜索引擎還準(zhǔn)許網(wǎng)站管理員主動(dòng)提交頁(yè)面。網(wǎng)站管理員只需要把網(wǎng)站中頁(yè)面的URL按照指定的格式制作成文件,提交給搜索引擎,搜索引擎即可通過(guò)該文件對(duì)網(wǎng)站中的頁(yè)面進(jìn)行抓取及更新。

教你如何在避免內(nèi)容的重復(fù)性收錄


在互聯(lián)網(wǎng)中,內(nèi)容重復(fù)的是無(wú)法避免的。然而。搜索引擎是怎么去識(shí)別重復(fù)的信息的呢?如何去辨別到底哪些是網(wǎng)頁(yè)的信息原創(chuàng)的,哪些是復(fù)制的,又會(huì)認(rèn)為哪些內(nèi)容有價(jià)值的,哪些又是可以舍舍棄的?我來(lái)給大家說(shuō)下答案!

在網(wǎng)站中,重復(fù)的信息主要包括轉(zhuǎn)載內(nèi)容以及鏡象內(nèi)容2大類別,搜索引擎在對(duì)頁(yè)面進(jìn)行分析的時(shí)候必須具備識(shí)別重復(fù)信息的能力,因?yàn)椋罅康闹貜?fù)信息不但占用巨大的服務(wù)器硬盤空間,而且還會(huì)增加用戶尋找信息的時(shí)間,影響用戶的體驗(yàn)度,但這并不意味著重復(fù)信息的沒有價(jià)值,搜索引擎認(rèn)為轉(zhuǎn)載的內(nèi)容不如原創(chuàng)內(nèi)容重要,賦予原創(chuàng)性內(nèi)容更高的權(quán)重,而鏡象內(nèi)容幾乎完全被忽略!

轉(zhuǎn)載頁(yè)面:
轉(zhuǎn)載頁(yè)面是指那些與原創(chuàng)頁(yè)面內(nèi)容相同或者相近的頁(yè)面,然而搜索引擎是如何識(shí)別轉(zhuǎn)載頁(yè)面的呢?首先是把正文內(nèi)容分為N個(gè)區(qū)域,如果有M個(gè)區(qū)域(M是搜索引擎指定的是值)是相同或者是相似的,那么搜索引擎認(rèn)為這些頁(yè)面就是互相轉(zhuǎn)載的頁(yè)面。
在確定頁(yè)面互相轉(zhuǎn)載的關(guān)系后,接下來(lái),搜索引擎在結(jié)合頁(yè)面最后的修改時(shí)間,頁(yè)面權(quán)重等因素來(lái)判斷是原創(chuàng)頁(yè)面還是轉(zhuǎn)載頁(yè)面。

鏡像頁(yè)面:
內(nèi)容完全相同的頁(yè)面叫鏡象頁(yè)面,要判斷頁(yè)面是否是鏡象頁(yè)面,搜索引擎首先把這些頁(yè)面分成N個(gè)區(qū)域來(lái)來(lái)進(jìn)行比較,如果這N個(gè)區(qū)域的內(nèi)容完全都一樣,則認(rèn)為這些頁(yè)面為鏡象頁(yè)面。然后,在綜合多種因素(如頁(yè)面的權(quán)重值,頁(yè)面的最后修改時(shí)間)來(lái)識(shí)別哪個(gè)是鏡象頁(yè)面,哪個(gè)是原頁(yè)面。

如對(duì)本文有疑問(wèn),請(qǐng)?zhí)峤坏浇涣髡搲?,廣大熱心網(wǎng)友會(huì)為你解答?。?點(diǎn)擊進(jìn)入論壇

發(fā)表評(píng)論 (1033人查看0條評(píng)論)
請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī),嚴(yán)禁發(fā)布色情、暴力、反動(dòng)的言論。
昵稱:
最新評(píng)論
------分隔線----------------------------

其它欄目

· 建站教程
· 365學(xué)習(xí)

業(yè)務(wù)咨詢

· 技術(shù)支持
· 服務(wù)時(shí)間:9:00-18:00
365建站網(wǎng)二維碼

Powered by 365建站網(wǎng) RSS地圖 HTML地圖

copyright © 2013-2024 版權(quán)所有 鄂ICP備17013400號(hào)