摘要
萬(wàn)維網(wǎng)是一個(gè)包含豐富資源的數(shù)據(jù)庫(kù),如何有效地從其中獲取所需信息是網(wǎng)絡(luò)數(shù)據(jù)挖掘的一個(gè)關(guān)鍵問(wèn)題。從1990年開(kāi)始,搜索引擎逐漸發(fā)展成為人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式。傳統(tǒng)搜索引擎的工作機(jī)制基于關(guān)鍵字匹配,它們通常利用網(wǎng)頁(yè)文本的內(nèi)容和網(wǎng)絡(luò)鏈接結(jié)構(gòu)來(lái)判斷網(wǎng)頁(yè)與搜索串的相似程度。但隨著越來(lái)越多的地方性資源和服務(wù)出現(xiàn)在因特網(wǎng)上,傳統(tǒng)搜索引擎無(wú)法合理地處理包含位置信息的搜索串和返回令人滿(mǎn)意的結(jié)果,其原因在于以下三點(diǎn):(1)將地理位置當(dāng)作普通關(guān)鍵字進(jìn)行處理;(2)考慮的是網(wǎng)頁(yè)在全球范圍的受歡迎程度而不是在地方的流行度;(3)沒(méi)有考慮網(wǎng)絡(luò)資源的地理范圍。因此,建立專(zhuān)門(mén)處理包含地理位置信息的搜索引擎是必需的。
搜索引擎優(yōu)化(Seo)是網(wǎng)站采用對(duì)搜索引擎友好的技術(shù)手段,達(dá)到網(wǎng)站在搜索引擎中排名考前及收錄數(shù)量增加。搜索引擎優(yōu)化工作貫穿網(wǎng)站策劃、建設(shè)、維護(hù)全過(guò)程的每個(gè)細(xì)節(jié)。
優(yōu)化好的網(wǎng)站,從搜索引擎來(lái)的流量將會(huì)有很大的提高。
如今搜索引擎的技術(shù)越來(lái)越成熟,性能越來(lái)越好,可供選擇的數(shù)量也越來(lái)越大,這更加促進(jìn)了元搜索引擎的發(fā)展。
關(guān)鍵字:搜索引擎,關(guān)鍵字,排序,網(wǎng)絡(luò)搜索,基于位置的搜索引擎
一、緒論
從1990年開(kāi)始,搜索引擎逐漸發(fā)展成人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式,大多數(shù)搜索引擎通過(guò)基于關(guān)鍵字(Keyword-based)的搜索方式來(lái)獲取相關(guān)網(wǎng)頁(yè)。據(jù)估計(jì)每天大約有上億條搜索串被提交給搜索引擎進(jìn)行處理。以Google為例,Sullivan在2010年的調(diào)查顯示Google每天大約需要處理超過(guò)9100萬(wàn)次搜索。
對(duì)用戶(hù)來(lái)說(shuō)搜索引擎最大的兩個(gè)特點(diǎn)就是高召回率和低精確性。雖然搜索引擎能夠覆蓋相當(dāng)大一部分網(wǎng)絡(luò)資源,但缺乏有效的手段來(lái)對(duì)結(jié)果進(jìn)行排序并呈現(xiàn)在用戶(hù)面前。搜索串通常并不會(huì)很長(zhǎng),根據(jù)Spink Jansen 在2004年所做的調(diào)查平均長(zhǎng)度只有2.4個(gè)單詞,但搜索引擎卻返回了過(guò)多的結(jié)果。工業(yè)界和學(xué)術(shù)界都提出了許多不同的索引和排序模型,試圖只找出最相關(guān)的文檔并以恰當(dāng)?shù)姆绞脚判?,但結(jié)果任然不盡如人意。根據(jù)Sullivan在2000年的報(bào)告,44%的用戶(hù)覺(jué)得搜索結(jié)果并不理想。顯然我們需要改進(jìn)現(xiàn)有的技術(shù)來(lái)更有效地索引和表現(xiàn)網(wǎng)絡(luò)資源。