搜索引擎在計(jì)算完所有頁面的權(quán)重后,搜索引擎就可以向用戶提供信息查詢服務(wù)。搜索引擎查詢功能的實(shí)現(xiàn)非常復(fù)雜,用戶對返回結(jié)果的時間要求也非常高(通常是秒級),要在這么短的時間內(nèi)進(jìn)行這么復(fù)雜的計(jì)算是不現(xiàn)實(shí)的。所以,搜索引擎需要通過一套高效的機(jī)制處理來自用戶的查詢。
主要包括:
a:在用戶發(fā)出查詢請求前就完成被查詢關(guān)鍵字的反向索引,相關(guān)頁面權(quán)重計(jì)算等工作;
b:為那些查詢的反向索引,頁面權(quán)重分配等工作已經(jīng)在前面進(jìn)行了詳細(xì)的說明。接下來,向讀者介紹搜索引擎如何建立信息查詢的緩存機(jī)制。
1.查詢流程
首先,介紹搜索引擎處理用戶查詢的流程。如圖所示(theartemis.cn)
(1)先對用戶提供的查詢條件進(jìn)行切詞,并刪除查詢條件中沒有意義的字或詞,例如的,得等停用詞;
(2)再以切詞結(jié)果作為條件在關(guān)鍵字反向索引列表中進(jìn)行匹配;
(3)如果存在匹配結(jié)果,則把所有與關(guān)鍵字相匹配的頁面組成一個列表;
(4)最后,把匹配的頁面按照權(quán)重值從高到低進(jìn)行排序,并返回給用戶。
說明:其中午(3)和(4)兩個步驟在用戶查詢之前已經(jīng)完成.
2.用戶行為
用戶在搜索引擎中的行為主要包括搜索及點(diǎn)擊。搜索是用戶獲取信息的過程,點(diǎn)擊是用戶得到需要信息后的表現(xiàn)。
用戶的搜索及點(diǎn)擊行為中蘊(yùn)含著非常豐富和重要的信息。例如,在用戶搜索行為中包含了“提交的關(guān)鍵字”,“提交時間”,“用戶IP地址”等信息,而在點(diǎn)擊行為中則包含了“每個結(jié)果的點(diǎn)擊次數(shù)”等信息.搜索引擎通過對用戶行為的分析可以進(jìn)一步發(fā)掘用戶的需求,提高搜索結(jié)果的精準(zhǔn)度。
眾所周知,搜索結(jié)果中越靠前的鏈接得到點(diǎn)擊幾率就會越高。按照這樣的邏輯,那么第二,第三甚至第四的頁面被點(diǎn)擊的要會就變得的越來越小,但這并不代表這些頁面就不比排在前面的頁面重要,只是在目前的排序中,用戶還沒機(jī)會發(fā)現(xiàn)它們而已。所以,對于不同位置上鏈接的點(diǎn)擊,搜索引擎會對其權(quán)重進(jìn)行相應(yīng)的補(bǔ)償。假設(shè)排在第一位的結(jié)果每被點(diǎn)擊一次,會產(chǎn)生1分的補(bǔ)償,而排在100名的結(jié)果被點(diǎn)擊一次,則產(chǎn)生10分甚至更多的補(bǔ)償。
3.緩存機(jī)制
為了能在極短的時間內(nèi)響應(yīng)用戶的查詢請求,搜索引擎除了在用戶提交查詢信息前就生成關(guān)鍵字的頁面排序列表外,還需要為那些查詢最頻繁的關(guān)鍵字對應(yīng)的頁面排序列表建立緩存機(jī)制。
經(jīng)過統(tǒng)計(jì),搜索引擎發(fā)現(xiàn)關(guān)鍵字查詢的集中現(xiàn)象非常明顯。查詢次數(shù)最多的前20%的關(guān)鍵字大約占了總查詢次數(shù)的80%(這就是著名的80/20法則)。因此,只要對20%左右的關(guān)鍵字建立緩存就可以滿足80%的查詢需求.
(seo入門專題教程不斷更新中:http://theartemis.cn/Special/seo/)
如對本文有疑問,請?zhí)峤坏浇涣髡搲瑥V大熱心網(wǎng)友會為你解答?。?點(diǎn)擊進(jìn)入論壇