網(wǎng)站優(yōu)化

論文: 搜索引擎排序技術(shù)研究

[日期：11-04-08]

摘要

萬(wàn)維網(wǎng)是一個(gè)包含豐富資源的數(shù)據(jù)庫(kù)，如何有效地從其中獲取所需信息是網(wǎng)絡(luò)數(shù)據(jù)挖掘的一個(gè)關(guān)鍵問(wèn)題。從1990年開(kāi)始，搜索引擎逐漸發(fā)展成為人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式。傳統(tǒng)搜索引擎的工作機(jī)制基于關(guān)鍵字匹配，它們通常利用網(wǎng)頁(yè)文本的內(nèi)容和網(wǎng)絡(luò)鏈接結(jié)構(gòu)來(lái)判斷網(wǎng)頁(yè)與搜索串的相似程度。但隨著越來(lái)越多的地方性資源和服務(wù)出現(xiàn)在因特網(wǎng)上，傳統(tǒng)搜索引擎無(wú)法合理地處理包含位置信息的搜索串和返回令人滿(mǎn)意的結(jié)果，其原因在于以下三點(diǎn)：（1）將地理位置當(dāng)作普通關(guān)鍵字進(jìn)行處理；（2）考慮的是網(wǎng)頁(yè)在全球范圍的受歡迎程度而不是在地方的流行度；（3）沒(méi)有考慮網(wǎng)絡(luò)資源的地理范圍。因此，建立專(zhuān)門(mén)處理包含地理位置信息的搜索引擎是必需的。
搜索引擎優(yōu)化（Seo）是網(wǎng)站采用對(duì)搜索引擎友好的技術(shù)手段，達(dá)到網(wǎng)站在搜索引擎中排名考前及收錄數(shù)量增加。搜索引擎優(yōu)化工作貫穿網(wǎng)站策劃、建設(shè)、維護(hù)全過(guò)程的每個(gè)細(xì)節(jié)。
優(yōu)化好的網(wǎng)站，從搜索引擎來(lái)的流量將會(huì)有很大的提高。
如今搜索引擎的技術(shù)越來(lái)越成熟，性能越來(lái)越好，可供選擇的數(shù)量也越來(lái)越大，這更加促進(jìn)了元搜索引擎的發(fā)展。

關(guān)鍵字：搜索引擎，關(guān)鍵字，排序，網(wǎng)絡(luò)搜索，基于位置的搜索引擎

一、緒論

從1990年開(kāi)始，搜索引擎逐漸發(fā)展成人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式，大多數(shù)搜索引擎通過(guò)基于關(guān)鍵字（Keyword-based）的搜索方式來(lái)獲取相關(guān)網(wǎng)頁(yè)。據(jù)估計(jì)每天大約有上億條搜索串被提交給搜索引擎進(jìn)行處理。以Google為例，Sullivan在2010年的調(diào)查顯示Google每天大約需要處理超過(guò)9100萬(wàn)次搜索。

對(duì)用戶(hù)來(lái)說(shuō)搜索引擎最大的兩個(gè)特點(diǎn)就是高召回率和低精確性。雖然搜索引擎能夠覆蓋相當(dāng)大一部分網(wǎng)絡(luò)資源，但缺乏有效的手段來(lái)對(duì)結(jié)果進(jìn)行排序并呈現(xiàn)在用戶(hù)面前。搜索串通常并不會(huì)很長(zhǎng)，根據(jù)Spink Jansen 在2004年所做的調(diào)查平均長(zhǎng)度只有2.4個(gè)單詞，但搜索引擎卻返回了過(guò)多的結(jié)果。工業(yè)界和學(xué)術(shù)界都提出了許多不同的索引和排序模型，試圖只找出最相關(guān)的文檔并以恰當(dāng)?shù)姆绞脚判?，但結(jié)果任然不盡如人意。根據(jù)Sullivan在2000年的報(bào)告，44%的用戶(hù)覺(jué)得搜索結(jié)果并不理想。顯然我們需要改進(jìn)現(xiàn)有的技術(shù)來(lái)更有效地索引和表現(xiàn)網(wǎng)絡(luò)資源。