關於部落格
月光的BLOG
  • 67079

    累積人氣

  • 0

    今日人氣

    0

    追蹤人氣

Google和百度收錄網站頁面的比較

  Google和Baidu收錄網站頁面的標準是不同的。

  為了驗證這一點,我做一個實驗:我申請了一個新域名www.moon-blog.com,不再其他任何網站做鏈接,而直接往百度和Google搜索引擎的提交頁面進行提交。一個月過去了,百度收錄的網頁是24,900篇,Google收錄的網頁是0,這證實了我以前的猜測。

  這說明了什麽呢?說明百度比Google好嗎?絕對不是的。因為Baidu和Google收錄頁面的標準是完全不同的。

  Google是按照網頁級別來收錄的,衹要你有一定的網頁級別,Google會快速收錄的,而沒有網頁級別的網站,Google則堅決不去收錄。Baidu則很誇張,采用的是來者不拒,多多益善的原則,無休止的進行收錄。Baidu的這種不按網頁級別的收錄方式其實有很大的惡果,最主要的惡果是造成大量的垃圾網站流行,因為衹要做一個垃圾站,Baidu就會立刻收錄(25000頁以內),這等于變相的鼓勵大家去做垃圾站,去盲目采集。當垃圾站橫行的時候,Baidu再通過人工的方式封站,對于大流量的網站再威脅其站長辦理百度競價排名。因此Baidu和大量的個人站長都結有恩怨。

  這兩種收錄方式哪種更好呢?我個人認為Google的這種收錄方式是比較科學的。因為互聯網上的頁面是個天文數字,收錄應該是有選擇的收錄,好的網站則多收錄,新站則應該少收錄,等其慢慢知名了以後再多收錄,這樣也提高了效率,讓用戶搜索到更好的頁面而不是更多的頁面。而且Google的爬蟲占用服務器的資源較少,通常是先用head來查看網頁是否更新,如果更新了再抓取整個頁面,這種方法耗費流量較少。而百度則不管叁七二十一上來就抓整個站,而且其爬蟲數量非常龐大,對于頁面較多的網站通常會耗費驚人的流量,並且常常造成惡劣的後果。例如我以前的月光軟件站有一段時間CPU耗費極大,IIS連接數也逼近1000,每天流量高達10多G,電信機房總威脅要限制我的帶寬,我以前一直以為是被別人DDOS攻擊,但是我購買了新的服務器,換了幾個IP,甚至更換了幾個機房,依然無法解決問題,不得已衹好將服務器托管到外地流量充裕的機房,但CPU負荷還總是居高不下。直到我網站被百度封了後,百度爬蟲也不再光故,這時我才驚奇地發現,我的CPU和流量終于處于一種穩定合理的狀態了,到目前為之,我站每天流量也有十多G,但CPU一直都沒有超過5%,服務器也很少出現死機和大量IIS連接的狀況,因此我開始懷疑,以前的所謂被DDOS攻擊,其實衹是大量的百度爬蟲在抓取我的網站而已,由于其爬蟲數量龐大,才引起我服務器的超負荷運轉以至瀕于崩潰。

  當然,百度這種“貪婪”爬蟲抓取方法,雖然會讓用戶能夠在百度搜索出一些Google裏搜索不到的頁面,但這實在是損人利己。其帶給網站站長不少負面效果:服務器和帶寬資源過度消耗,垃圾站被變相鼓勵了,原創的有特色的網站則被邊緣化,MP3音樂網站則更苦不堪言-自己的MP3被百度盜鏈後帶來大量文件下載卻沒有帶來頁面訪問。

  因此,中國的網民也出現了很奇怪的現象:大量的新網民和菜鳥新手喜歡用百度搜索,因為百度往往搜索到很多別處搜索不到的頁面,但內容的匹配度則令人質疑,而專業人士和老鳥則更喜歡用Google,個人站長則普遍和百度有“個人恩怨”。因此百度在業界的Blog以及社區中口碑都不太好,但在普通的低層次的網民心中卻不錯,這些大量的普通網民給百度帶來了大量流量。

  其實百度也發現這樣所帶來的問題。網絡新手和普通網民的影響力微不足道,被Hao123這樣的流氓網站強奸了,也不會反抗,用Hao123時間長了反而會依賴和喜歡上這樣的低級網站。而IT專業人士則不同,他們建網站、寫博客、開論壇,他們可以影響一大批普通用戶,如果百度長期依靠低端用戶而和大量站長結怨的話,其發展前景也是令人質疑的。

相簿設定
標籤設定
相簿狀態