由于搜索引擎不可能一次性抓取網(wǎng)站中的所有頁(yè)面,而且網(wǎng)站中的頁(yè)面數(shù)量也不會(huì)不斷的變化,內(nèi)容也在不斷的更新。因此,搜索引擎還需要對(duì)已抓取的頁(yè)面進(jìn)行維護(hù),一邊能及時(shí)獲取頁(yè)面中最新的信息及抓取更多的新頁(yè)面。常見(jiàn)的頁(yè)面維護(hù)方式包括:定期抓取、增量抓取及分類定位抓取。
1.定期抓取
定期抓取也稱周期性抓取,即搜索引擎周期性對(duì)網(wǎng)站中已收錄的頁(yè)面進(jìn)行全面的更新。更新時(shí),用抓取到的新頁(yè)面替換原來(lái)的舊頁(yè)面刪除不存在的頁(yè)面,并存儲(chǔ)新發(fā)現(xiàn)的頁(yè)面。周期性更新針對(duì)的是全部移交收錄的頁(yè)面,一次更新周期比較長(zhǎng)。例如google一般要30~60天才更新一次已經(jīng)收錄的頁(yè)面。
定期抓取算法的實(shí)現(xiàn)相對(duì)簡(jiǎn)單。由于每次更新涉及網(wǎng)站中已經(jīng)收錄的頁(yè)面,一次頁(yè)面權(quán)重的再分配也是同步進(jìn)行的。這種方式適用于維護(hù)頁(yè)面較少、內(nèi)容更新緩慢的網(wǎng)站。但是由于更新周期十分漫長(zhǎng),這就導(dǎo)致不能及時(shí)向用戶反映更新期間頁(yè)面的變化情況。
2.增量抓取
增量抓取是通過(guò)對(duì)已抓取頁(yè)面進(jìn)行定時(shí)監(jiān)控,實(shí)現(xiàn)對(duì)頁(yè)面的更新及維護(hù)。但是對(duì)網(wǎng)站中的每個(gè)頁(yè)面進(jìn)行定時(shí)監(jiān)控的做法是不顯示的?;谥匾?yè)面攜帶重要內(nèi)容的信息,因此增量抓取是針對(duì)某些重要頁(yè)面,對(duì)非所有已收錄的頁(yè)面,也就是為什么搜索引擎的更新周期更短的原因。
由于增量抓取是在原有頁(yè)面的基礎(chǔ)上進(jìn)行的,因此會(huì)大大增減搜索引擎的抓取時(shí)間,而且還可以及時(shí)向用戶展示頁(yè)面中的最新內(nèi)容。
3.分類定位抓取
與增量抓取重要性決定不同,分類定位抓取是指根據(jù)網(wǎng)頁(yè)的類別或性質(zhì)而制定相應(yīng)更新周期的頁(yè)面監(jiān)控方式。例如,對(duì)于新聞資訊和資源下載兩類頁(yè)面,新聞資訊類頁(yè)面的更新周期可以精確的每分鐘,而下載頁(yè)面更新周期可以定位天或者更長(zhǎng)。
分類定位抓取對(duì)不同類別的惡意面進(jìn)行分開(kāi)處理,這樣可以節(jié)省大量的抓取時(shí)間,并大大提高了頁(yè)面內(nèi)容的實(shí)時(shí)性,也增加了頁(yè)面的抓取靈活性。但是按照類別而制定頁(yè)面更新周期方式比較籠統(tǒng),很難跟蹤頁(yè)面的最新情況。因?yàn)榧词故窍嗤悇e的頁(yè)面,在不同網(wǎng)站上內(nèi)容的更新時(shí)間也會(huì)存在很大的差別。
實(shí)際上,搜索引擎對(duì)網(wǎng)站中的頁(yè)面維護(hù)也是結(jié)合多種方式進(jìn)行的,相當(dāng)于間接為每一個(gè)頁(yè)面選擇最合適的維護(hù)方式。這樣,既可以減少搜索引擎的負(fù)擔(dān),又可以為用戶提供及時(shí)的信息。
如對(duì)本文有疑問(wèn),請(qǐng)?zhí)峤坏浇涣髡搲瑥V大熱心網(wǎng)友會(huì)為你解答?。?點(diǎn)擊進(jìn)入論壇