天蠶在你身邊
不方便打電話?讓天蠶聯(lián)絡你
天蠶在你身邊
不方便打電話?讓天蠶聯(lián)絡你
解說URL權(quán)重,以目錄深度評估網(wǎng)頁重要度參考
1、URL權(quán)值的設定:根據(jù)URL的目錄深度來定,深度是多少,權(quán)值就減少多少,權(quán)值最小為零。
2、URL中出現(xiàn)字符”/”,”?”,或”&” 1次,則權(quán)值減1,出現(xiàn)”search”,”proxy”,或”gate” 1次,則權(quán)值減2;最多減到零。
(包含”?”,或”&”的URL是帶參數(shù)的形式,需要經(jīng)過被請求方程序服務獲得網(wǎng)頁,不是搜索引擎系統(tǒng)側(cè)重的靜態(tài) 網(wǎng)頁,因此權(quán)值相應降低。包含”search”,”proxy”,或”gate”,說明該網(wǎng)頁極大可能是搜索引擎中檢索的結(jié)果頁面,代理頁面,因此要降低 權(quán)值)。
3、定URL初始權(quán)值為10(此值設定的越小,從未訪問URL集合中排序輸出就越快。但是也不能太小,否則URL的權(quán)值意義就不大了,導致搜集策略不明顯);
4、選擇未訪問URL的策略。
因為權(quán)值小不一定說明不重要,所以有必要給一定的機會搜集權(quán)值小的未訪問URL。選擇未訪問URL的策略可以采用輪流 的方法進行,一次按照權(quán)值排序取,一次隨機取;或者N次按照權(quán)值排序取,M次隨機?。∟1,M1)。
N,M 的選擇可以根據(jù)系統(tǒng)實際運行情況獲得。
例如:URL多樣化
抓取優(yōu)先級
爬蟲順著一個個的URL在互聯(lián)網(wǎng)上抓取網(wǎng)頁,它一邊下載這個網(wǎng)頁,一邊在提取這個網(wǎng)頁中的鏈接。假設從搜索引擎某一個節(jié)點出來的爬蟲有爬蟲A、爬蟲B、爬蟲C,當它們到達www.ifaceseo.com這個網(wǎng)站的時候,每個爬蟲都會抓取到很多URL
這里會有一個待抓取列表
重慶網(wǎng)絡公司
地址:重慶市渝中區(qū)上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com