[進階 SEO 系列] Crawl Budget 如何提高你的 SEO 表現

控制你的 crawl budget

Table of Contents

Crawl Budget 可能大家比較少聽,事實上並不是所有網站會因為 Crawl Budget 而遇上問題,很多時都是網站比較大、頁數比較多的網站發現問題。

學懂了 Crawl Budget,你可以加速 Google 對你網站的更新速度,倘若你的網站比較大型,良好的 Crawl Budget 預算會令你的流量大增 ! 這個部份比較進階,建議先了解 SEO 的基本原理,會比較容易明白。

什麼是 Crawl Budget?

雖然 Google 的資料庫很大、資源亦多,但每日新出現的網頁數量極之龐大,因此,Google 理論上是不能每日抓取每日新生成的頁面,它只能儘能力。因此,為了節省資源,Google 會為每個網站作一個評分,除了排名以外,評分亦對其資源分佈有實際影響,這個資源會直接影響網站的更新速度。

Google 的資源其實即對你網站的關注度,倘若你的網站權重高,內容好,Google 自然會分配更多資源給你,它會安排它的蜘蛛更多的到你網站發掘內容。相反,資源只會越來越少。通常,大型網站 (不是品牌比較大),即頁面比較多的網站,所分配的資源越多。

根據統計,一個網站大概只有 40% 的頁面會被抓取,大型網站雖然資源比較多,但遇上的問題可能更多,例如﹕「網頁每日新產生的頁面超過 500 頁,為何只有50頁被收錄?」

怎樣知道自己網站的 Crawl Budget?

Google 的爬行預算
Google 對大型網站跟小型網站的資源分配分別可以很大

在 Google Search Console 中,你可以看到網站每日的檢索數目,比較小的網站每日檢索數目只有 355 頁,相反大型網站平均檢索數目可以去到幾萬頁以上。

如何增加 Crawl Budget

增加內部連結

內部連結對提升檢索頁數有相當的幫助,根據 Botify 的研究,平均來說,只有 5 條內部連結的頁面很大機會被 Google 忽略。因此,其中一個優化策略就是提高內部連結的數量,詳情可以參考上一篇 <<[內部連結] – 提升網站 SEO 的重要概念>>

內部連結令 Google 更易抓到新頁面
內部連結令 Google 更易抓到新頁面

改善網站的基本結構

其中一個常見問題是,Google 的蜘蛛找不到新頁面,是因為內部結構層數太多,蜘蛛要走多步才找到新內容。你可以想像自己去到一個有 100 層的時代廣場,你被告知廣場只有電梯、沒有升降機,而你新開的店在72/F,你要上 72 樓只能逐條電梯上,一層一層,你會感到不耐煩、然後放棄。

一般網站的網址結構通常都是: abc. com/sub-page

Google 的蜘蛛會沿著這個結構在網站內游走,先到主 Domain: abc. com ,然後到分頁 sub-page ,這是一個頗為理想的結構。惟當網站越大,可能的結構變成﹕

abc. com/sub-page/another-sub-page/extra-sub-page/ultimate-subpage

以上不是說笑,像東方日報網站﹕

由 Domain 到最新新聞,要經過 6 層folder,Google 的蜘蛛要花相當氣力才有機會找到最新新聞

相反,香港 01 的網站結構則簡單得多

這亦解釋了為何當搜尋 「港鐵青衣站」,HK01 在東方日報前

增加頁面強度

頁面強度這個概念跟連結有很大關係,簡單的說法就是有多少強的內部及反向連結到這一頁上。上文提及的內部連結就是其中一個增強頁面強度的一個方式。

要增加某一頁的強度,你可以利用高強度頁面連結到低強度頁面。所謂高強度,現在有很多不同的指標,我自己較多用 Page Authority (PA)作為參考。

網站權重如何分配

像以上情況,為了令同一網站內的頁面強度提升,利用高強度頁面推高低強度頁面。(請先忽略括號內的數字)

你可能會問﹕那就簡單啦,我只要把全部低頁面強度作內部連結便可以提升所有低頁面強度吧?

情形就是,假設你本身頁面有 100 分,你分給兩個頁面,每個頁面就會有 50 分,假若你分配給4個頁面,每個低強度頁面就只會有 25 分。

網站權重有可能被連結減弱

因此,更多的內部連結,有可能會拖低其他頁面的強度。同一時間,強頁面亦會因為連結數量的多寡影響自身的強度,因此,你會明白為何強網頁的連結價錢可以賣得這個高。

再深一點就是,頁面越在網站的深處,所分佈的強度越少,因此,除了蜘蛛難以抓取以外,網站強度亦很難分配給新的頁面。

在我們規劃網站時,我們會經常告訴顧客,假若你真的要連繫到其他外部網站 (很多時沒有太注意),建議在連結上加入 “no follow” 的指示,目的就是防止網站自己的強度溜走。

很多友情連結、贊助連結、我的客戶連結都會有以上問題,要多加注意

刪除重複內容頁面

Google 的蜘蛛只有爬完一整頁內容才會知道自己所看的內容是否曾經出現過,假如你的頁面內容經常重覆 (有意或無意生成這些內容),你會浪費了 Google 蜘蛛的預算。Google 不會把一樣的內容再建立索引 (index),但不能避免蜘蛛再走一次這些內容。

明白有些頁面是不能刪除,不論是系統限制還是公司政策限制,可行的做法是加入一個 .htacess

大部份 SEO 工具都會替各位檢內容是否有重覆
大部份 SEO 工具都會替各位檢內容是否有重覆

比較常見的情況是動態網址,當動態網址中的參數不同卻產生相同內容,當這些動態網址出現太多時,Google 會開始放棄部份索引,有機會令這類動態網址不會出現在搜尋結果上。

細心留意的話,首幾名的搜尋結果很少是動態網址的搜尋結果,例如很多旅遊網站頁面都會有類似結構﹕

famoustravelagency. com/zh-tw/英國特價機票?state=英國&cite=倫敦

可以做的是盡量把動態網址設定回靜態網址,不想涉及太多技術層面工作,不妨問一問你的網站工程師。

famoustravelagency. com/zh-tw/英國特價機票/英國-倫敦.html

這個部份的最佳作法很長,見議看一看以下文章了解 <<什麼是最佳的網站結構(Website architecture)?>>

倘若你覺得 Google 的檢索頻訊真的太低,你可以手動調整。只要在 Google Search Console 的網站設定便可找到,惟筆者甚少見議不太懂得搜尋引擎運作原理的朋友自行調整。

在 Google search console中調整檢索量

清除網站內效果不佳的頁面

正常情況下,網頁之間的表現一定有高有低,建議刪除其中表現較不理想的頁面 (高跳出率 bounce rate 短停留時網頁)或利用 robot.txt 令 Google 的蜘蛛不再爬這些頁面,節省資源。

值得一提的是,部份頁面如「分類頁面」、「頁數頁面」等我們不建議被收錄,很多時不僅內容重覆而且用的資源亦頗多。

總結

在做SEO網站優化,Crawl Budget 對於大型網站尤為重要,也對那些每天有大量新內容的網站如新聞網站等的流量有著關鍵作用,畢竟新聞越早被收錄、流量便越多,希望以上措施可以幫到大家!

與我聯絡