掃二維碼與項目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
近日我們上線了“微構(gòu)網(wǎng)絡(luò)項目管理與客戶服務(wù)管理系統(tǒng)”,得到眾多老客戶的一致好評。我們是紅網(wǎng)論壇的技術(shù)服務(wù)商,因此也在系統(tǒng)中把紅網(wǎng)論壇也納入網(wǎng)站狀態(tài)巡查計劃中,一般情況下即便是普通網(wǎng)站也不太會出現(xiàn)網(wǎng)站訪問異常問題,最多可能是各類預(yù)警級別的信息。然而就在今天收到了系統(tǒng)自動推送的異常信息,發(fā)現(xiàn)異常的項目還是紅網(wǎng)論壇。
當時就很詫異,怎么剛加入巡查網(wǎng)站就出現(xiàn)異常了,怎么回這么巧呢,而且紅網(wǎng)作為較大的媒體網(wǎng)站,不太可能輕易就出現(xiàn)這種異常呀。但細看系統(tǒng)反饋的結(jié)果是403異常返回碼,而不是直接不能訪問或者50x錯誤。
然后用瀏覽器打開紅網(wǎng)論壇,發(fā)現(xiàn)是可以完全正常訪問的。那么系統(tǒng)為啥會反饋這條異常信息的,難道我們的巡查系統(tǒng)誤報了么(客觀上,會存在誤報可能,只是幾率很低)。這個403異常返回碼的預(yù)警信息,在巡查系統(tǒng)中其實是為了識別某些掛馬代碼會單獨為了識別百度蜘蛛進行惡意跳轉(zhuǎn)的,因此在巡查系統(tǒng)中加入了Baiduspider等識別字符。
通過單元測試后發(fā)現(xiàn),紅網(wǎng)論壇之所以被巡查系統(tǒng)發(fā)送異常提示,就是因為當訪問請求中包含了部分百度蜘蛛特征時,系統(tǒng)就會返回異常。
返回異常返回碼403,在返回body內(nèi)容中出現(xiàn)了這樣的:
也就是被網(wǎng)站使用的防火墻工具(創(chuàng)宇盾)攔截了這種請求,因此網(wǎng)站系統(tǒng)會返回403狀態(tài)碼(即禁止訪問)。
憑借筆者有不少seo方面的經(jīng)驗,于是就有兩個猜想:
1、防火墻會攔截所有來自百度蜘蛛的請求,不管是真實的百度蜘蛛,還是用于測試來模擬百度蜘蛛訪問。
2、防火墻比較高級,會識別真實的百度蜘蛛請求(真的蜘蛛)和模擬測試的蜘蛛請求(假的蜘蛛),如果是真實的不攔截,如果是假的攔截。
為了進一步分析,筆者查看了紅網(wǎng)論壇在百度搜索引擎上的表現(xiàn),發(fā)現(xiàn)收錄的內(nèi)容基本是之前創(chuàng)建的。嘗試了很多條新發(fā)布的內(nèi)容,百度均沒有收錄。測試了數(shù)十條一個月以內(nèi)發(fā)布的論壇主題,發(fā)現(xiàn)均不被百度收錄。
但是紅網(wǎng)這種影響力的網(wǎng)站,再者這種網(wǎng)站內(nèi)容更新頻率和內(nèi)容質(zhì)量都比較高,而且網(wǎng)站搜索引擎權(quán)重也比較高。理應(yīng)不會有這么差的收錄表現(xiàn),即便是微構(gòu)網(wǎng)絡(luò)這種企業(yè)官網(wǎng)小網(wǎng)站,幾乎能夠做到95%以上的收錄率,絕大多數(shù)時間都是100%的收錄率。所以,這顯然不正常。
再看下紅網(wǎng)www主站這種模擬請求,返回狀態(tài)是沒有問題(返回200)。
隨便在主站首頁找一篇內(nèi)容,基本都是全部收錄,而且通過百度快照時間判斷,收錄時間很是非??欤梢哉J為是秒收)。
通過以上的信息,基本上可以評估認為,只要是帶有百度等搜索引擎蜘蛛的請求標識,都會被防火墻攔截。這樣一來,百度蜘蛛都被禁止訪問網(wǎng)站了,自然相關(guān)網(wǎng)站頁面也就不會被百度蜘蛛抓取到,抓取不到自然就不會被收錄了。
所以我們?nèi)粘P枰P(guān)注自己網(wǎng)站的一些狀態(tài),比如通過分析網(wǎng)站分析日志,也可以利用一些工具模擬搜索引擎訪問網(wǎng)站,查看返回的信息是否達到預(yù)期。
如上圖就是某網(wǎng)站訪問日志的部分節(jié)選,這段節(jié)選日志標志著百度、谷歌、必應(yīng)等搜索引擎的蜘蛛到訪記錄,且網(wǎng)站返回結(jié)果是200(正常返回碼)。如果這些請求都是異常的,那么顯然網(wǎng)站在搜索引擎的表現(xiàn)不會太好。
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流