您現(xiàn)在的位置： 365建站網(wǎng) > 365文章 > 2.1 搜索引擎工作原理

2.1 搜索引擎工作原理

文章來(lái)源：365jz.com 點(diǎn)擊數(shù)：1033 更新時(shí)間：2009-07-14 10:28 參與評(píng)論

搜索引擎模塊組成

一個(gè)典型的網(wǎng)絡(luò)信息檢索系統(tǒng)的系統(tǒng)架構(gòu)由信息收集、信息處理和查詢服務(wù)三個(gè)模塊組成。

從具體運(yùn)行方式上說(shuō)，系統(tǒng)根據(jù)站點(diǎn)/網(wǎng)頁(yè)的URL信息和網(wǎng)頁(yè)之間的鏈接關(guān)系，利用網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上收集數(shù)據(jù)；收集的數(shù)據(jù)分別通過(guò)鏈接信息分析器和文本信息分析器處理，保存在鏈接數(shù)據(jù)庫(kù)和文本索引數(shù)據(jù)庫(kù)中，同時(shí)，網(wǎng)頁(yè)質(zhì)量評(píng)估器依據(jù)網(wǎng)頁(yè)的鏈接關(guān)系和頁(yè)面結(jié)構(gòu)特征對(duì)頁(yè)面質(zhì)量進(jìn)行評(píng)估，并將評(píng)估的結(jié)果保存在索引數(shù)據(jù)庫(kù)中；查詢服務(wù)器負(fù)責(zé)與用戶的交互，它根據(jù)用戶的檢索需求，從索引數(shù)據(jù)庫(kù)中讀取對(duì)應(yīng)的索引，并綜合考慮查詢相關(guān)性與頁(yè)面質(zhì)量評(píng)估結(jié)果之間的關(guān)系，給出查詢結(jié)果列表反饋給用戶。

搜索引擎優(yōu)化的主要任務(wù)之一就是提高網(wǎng)站的搜索引擎友好性，因此，搜索引擎優(yōu)化的每個(gè)環(huán)節(jié)都與搜索引擎存在必然的聯(lián)系，研究搜索引擎優(yōu)化實(shí)際上是對(duì)搜索引擎工作過(guò)程的逆向推理。因此，學(xué)習(xí)搜索引擎優(yōu)化應(yīng)該從了解搜索引擎的工作原理開始.

搜索引擎的主要工作包括：頁(yè)面收錄，頁(yè)面分析，頁(yè)面排序及關(guān)鍵字查詢。

1.頁(yè)面收錄

頁(yè)面收錄指搜索引擎通過(guò)蜘蛛程序在互聯(lián)網(wǎng)上抓取頁(yè)面進(jìn)行儲(chǔ)存的過(guò)程，它為搜索引擎開展各項(xiàng)工作提供了數(shù)據(jù)支持。

2.頁(yè)面分析

頁(yè)面分析首先是對(duì)原始頁(yè)面建立索引，實(shí)現(xiàn)對(duì)頁(yè)面的快速定位；然后，提取頁(yè)面的正文信息，并對(duì)正文信息進(jìn)行切詞及為這些詞（即關(guān)鍵字）建立索引，從而得到頁(yè)面與關(guān)鍵字的對(duì)應(yīng)關(guān)系;最后，對(duì)關(guān)鍵字進(jìn)行重組，并建立關(guān)鍵字與網(wǎng)頁(yè)相對(duì)應(yīng)的反向索引列表，從而能夠根據(jù)關(guān)鍵字快速定位至相應(yīng)網(wǎng)頁(yè).

3.頁(yè)面排序

搜索引擎結(jié)合頁(yè)面的內(nèi)外部因素計(jì)算出頁(yè)面與某個(gè)關(guān)鍵字的相關(guān)程度，從而得到與該關(guān)鍵字相關(guān)的頁(yè)面排度列表。

4.關(guān)鍵字查詢

搜索引擎接收來(lái)自用戶的查詢請(qǐng)求，并對(duì)查詢信息進(jìn)行切詞及匹配后，再向用戶返回相應(yīng)的頁(yè)面排序列表。

頁(yè)面收錄流程

在互聯(lián)網(wǎng)中，URL是每個(gè)頁(yè)面的入口地址，搜索引擎蜘蛛程序就是通過(guò)URL列表出發(fā)，通過(guò)URL抓取并存儲(chǔ)原始頁(yè)面；同時(shí)，提取院士頁(yè)面中的URL資源并加入到URL列表中。如此不斷地循環(huán)，就可以從互聯(lián)網(wǎng)中獲取足夠多的頁(yè)面。

URL是頁(yè)面的入口，而域名則是網(wǎng)站的入口。搜索引擎蜘蛛車程序通過(guò)域名進(jìn)入網(wǎng)站，從而展開對(duì)網(wǎng)站的抓取。換而言之，搜索引擎要在互聯(lián)網(wǎng)上抓取到頁(yè)面的首要任務(wù)就是建立一個(gè)足夠大的域名列表，再通過(guò)域名進(jìn)入相應(yīng)的網(wǎng)站，從而抓取網(wǎng)站中的頁(yè)面。

而對(duì)于網(wǎng)站來(lái)說(shuō)，如果想要被搜索引擎收錄，首要的條件就是加入搜索引擎的域名列表。下面介紹兩種常用的加入搜索引擎域名列表的方法。

第一，利用搜索引擎提供的網(wǎng)站登錄入口，向搜索引擎提交網(wǎng)站域名，例如google的網(wǎng)站登陸地址是,可在此提交自己的網(wǎng)站域名。對(duì)于提交的域名列表，搜索引擎只會(huì)定期進(jìn)行更新。因此，這種做法比較被動(dòng)，從域名提交到網(wǎng)站被收錄花費(fèi)的時(shí)間比較長(zhǎng)。

第二，通過(guò)與外部網(wǎng)站建立連接關(guān)系，使搜索引擎可以通過(guò)外部網(wǎng)站發(fā)現(xiàn)我們的網(wǎng)站，從而實(shí)現(xiàn)對(duì)網(wǎng)站的收錄。這種做法的主動(dòng)權(quán)掌握在我們自己的手里（只要我們擁有足夠多高質(zhì)量的連接即可），且收錄速度也比向搜索引擎主動(dòng)提交要快得多。根據(jù)外部連接的數(shù)量、質(zhì)量及相關(guān)性，一般情況下，2-7天左右就會(huì)被搜索引擎收錄。

頁(yè)面收錄原理

我們可以把網(wǎng)站的組成看成一個(gè)集合，蜘蛛從指定的頁(yè)面出發(fā)，沿著頁(yè)面的鏈接，按照特定的方法對(duì)網(wǎng)站頁(yè)面進(jìn)行遍歷，不停的從URL列表中移除已經(jīng)訪問(wèn)的URL，并存儲(chǔ)原始頁(yè)面，同時(shí)提取原始頁(yè)面的URL信息；再將URL分為域名及內(nèi)部URL兩大類，且進(jìn)行判斷URL是否訪問(wèn)過(guò)，將未訪問(wèn)過(guò)的網(wǎng)站URL加入到URL列表中，遞歸掃描URL列表，知道把URL地址掃面完為止

頁(yè)面的收錄方式

在互聯(lián)網(wǎng)數(shù)億計(jì)的頁(yè)面中，搜索引擎怎樣才能從中抓取到相對(duì)重要的頁(yè)面呢？這就涉及搜索引擎頁(yè)面收錄的方式。

頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略，目的是為了能在互聯(lián)網(wǎng)中篩選出相對(duì)重要的信息。頁(yè)面收錄方式的制定取決于搜索引擎對(duì)網(wǎng)站的結(jié)構(gòu)理解。

如果使用相同的抓取策略，搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源，則會(huì)在該網(wǎng)站上停留更長(zhǎng)的時(shí)間，

收錄的頁(yè)面數(shù)自然也就增多了。因此，加深對(duì)搜索引擎頁(yè)面的收錄的認(rèn)識(shí)，有利于為網(wǎng)站建立更好的結(jié)構(gòu)，提高頁(yè)面被收錄的數(shù)量。

搜索引擎收錄頁(yè)面的方式分為廣度優(yōu)先，深度優(yōu)先，和用戶提交，這三種的頁(yè)面收錄方式

1.廣度優(yōu)先，廣度優(yōu)先是一個(gè)橫向的抓取方式，先從較淺層抓取，抓取完同層次的所有頁(yè)面后在進(jìn)入下一頁(yè)面。

2.深度優(yōu)先，和廣度優(yōu)先相反，深度優(yōu)先是跟蹤淺層頁(yè)面中的某一連接逐步抓取深層頁(yè)面，直至抓取完最深層的頁(yè)面后返回淺層頁(yè)面再跟蹤其另一連接，繼續(xù)向深層頁(yè)面抓取，這是一種縱向頁(yè)面抓取方式。

3.用戶提交，為了抓取更多的頁(yè)面，搜索引擎還準(zhǔn)許網(wǎng)站管理員主動(dòng)提交頁(yè)面。網(wǎng)站管理員只需要把網(wǎng)站中頁(yè)面的URL按照指定的格式制作成文件，提交給搜索引擎，搜索引擎即可通過(guò)該文件對(duì)網(wǎng)站中的頁(yè)面進(jìn)行抓取及更新。

教你如何在避免內(nèi)容的重復(fù)性收錄

在互聯(lián)網(wǎng)中，內(nèi)容重復(fù)的是無(wú)法避免的。然而。搜索引擎是怎么去識(shí)別重復(fù)的信息的呢？如何去辨別到底哪些是網(wǎng)頁(yè)的信息原創(chuàng)的，哪些是復(fù)制的，又會(huì)認(rèn)為哪些內(nèi)容有價(jià)值的，哪些又是可以舍舍棄的？我來(lái)給大家說(shuō)下答案！

在網(wǎng)站中，重復(fù)的信息主要包括轉(zhuǎn)載內(nèi)容以及鏡象內(nèi)容2大類別，搜索引擎在對(duì)頁(yè)面進(jìn)行分析的時(shí)候必須具備識(shí)別重復(fù)信息的能力，因?yàn)椋罅康闹貜?fù)信息不但占用巨大的服務(wù)器硬盤空間，而且還會(huì)增加用戶尋找信息的時(shí)間，影響用戶的體驗(yàn)度，但這并不意味著重復(fù)信息的沒有價(jià)值，搜索引擎認(rèn)為轉(zhuǎn)載的內(nèi)容不如原創(chuàng)內(nèi)容重要，賦予原創(chuàng)性內(nèi)容更高的權(quán)重，而鏡象內(nèi)容幾乎完全被忽略！

轉(zhuǎn)載頁(yè)面:
轉(zhuǎn)載頁(yè)面是指那些與原創(chuàng)頁(yè)面內(nèi)容相同或者相近的頁(yè)面，然而搜索引擎是如何識(shí)別轉(zhuǎn)載頁(yè)面的呢？首先是把正文內(nèi)容分為N個(gè)區(qū)域，如果有M個(gè)區(qū)域（M是搜索引擎指定的是值）是相同或者是相似的，那么搜索引擎認(rèn)為這些頁(yè)面就是互相轉(zhuǎn)載的頁(yè)面。
在確定頁(yè)面互相轉(zhuǎn)載的關(guān)系后，接下來(lái)，搜索引擎在結(jié)合頁(yè)面最后的修改時(shí)間，頁(yè)面權(quán)重等因素來(lái)判斷是原創(chuàng)頁(yè)面還是轉(zhuǎn)載頁(yè)面。

鏡像頁(yè)面：
內(nèi)容完全相同的頁(yè)面叫鏡象頁(yè)面，要判斷頁(yè)面是否是鏡象頁(yè)面，搜索引擎首先把這些頁(yè)面分成N個(gè)區(qū)域來(lái)來(lái)進(jìn)行比較，如果這N個(gè)區(qū)域的內(nèi)容完全都一樣，則認(rèn)為這些頁(yè)面為鏡象頁(yè)面。然后，在綜合多種因素（如頁(yè)面的權(quán)重值，頁(yè)面的最后修改時(shí)間）來(lái)識(shí)別哪個(gè)是鏡象頁(yè)面，哪個(gè)是原頁(yè)面。