良好收錄

2020-08-13 09:45 更新

機器可讀

百度通過一個叫做 Baiduspider 的程序抓取互聯(lián)網上的網頁,經過處理后建入索引中。目前 Baiduspider 只能讀懂文本內容,flash,圖片等非文本內容暫時不能處理,放置在 flash、圖片中的文字,百度無法識別。


建議使用文字而不是 flash、圖片、Javascript 等來顯示重要的內容或鏈接,搜索引擎暫時無法識別 Flash、圖片、Javascript  中的內容,這部分內容無法搜索到;僅在 flash、Javascript 中包含鏈接指向的網頁,百度可能無法收錄。


我們建議
   ? 使用文字而不是 flash、圖片、Javascript 等來顯示重要的內容或鏈接 

   ? 如果必須使用 Flash 制作網頁,建議同時制作一個供搜索引擎收錄的文字版,并在首頁使用文本鏈接指向文字版 

   ?  Ajax 等搜索引擎不能識別的技術,只用在需要用戶交互的地方,不把希望搜索引擎“看”到的導航及正文內容放到 Ajax 中;

   ? 不使用 frameiframe 框架結構,通過 iframe 顯示的內容可能會被百度丟棄


              不符合百度標準


上面例子中,雖然網頁上提供了很豐富的信息,但由于信息都在 flash 中,搜索引擎無法提?。◤奶崛⌒畔⒅锌梢钥吹街挥芯W頁標題,其他內容都爬取不到),對搜索引擎來講,這個網頁沒有任何內容。


網站結構

網站應該有清晰的結構和明晰的導航,這能幫助用戶快速從你的網站中找到自己需要的內容,也可以幫助搜索引擎快速理解網站中每一個網頁所處的結構層次。


網站結構建議采用樹型結構,樹型結構通常分為以下三個層次:首頁——頻道——文章頁。象一棵大樹一樣,首先有一個樹干(首頁),然后再是樹枝(頻道),最后是樹葉(普通內容頁)。樹型結構的擴展性更強,網站內容變多時,可以通過細分樹枝(頻道)來輕松應對。


理想的網站結構應該是更扁平一些,從首頁到內容頁的層次盡量少,這樣搜索引擎處理起來,會更簡單。


同時,網站也應該是一個網狀結構,網站上每個網頁都應該有指向上、下級網頁以及相關內容的鏈接:首頁有到頻道頁的鏈接,頻道頁有到首頁和普通內容頁的鏈接、普通內容頁有到上級頻道以及首頁的鏈接、內容相關的網頁間互相有鏈接。


網站中每一個網頁,都應該是網站結構的一部分,都應該能通過其他網頁鏈接到。


總結一下,合理的網站結構應該是一個扁平的樹型網狀結構。我們建議: 

   ? 確保每個頁面都可以通過至少一個文本鏈接到達。 

   ? 重要的內容,應該能從首頁或者網站結構中比較淺的層次訪問到。 

   ? 合理分類網站上的內容,不要過度細分。


網站應該有簡明、清晰的導航,可以讓用戶快速找到自己需要的內容,同時也可以幫助搜索引擎更好的了解網站的結構。我們建議: 

   ? 為每個頁面都加上導航欄,讓用戶可以方便的返回頻道、網站首頁,也可以讓搜索引擎方便的定位網頁在網結構中的層次。

               

通過面包屑導航,用戶可以很清楚的知道自己所在頁面在整個網站中的位置,可以方便的返回上一級頻道或者首頁也很方便。   

   ? 內容較多的網站,建議使用面包屑式的導航,這更容易讓用戶理解當前所處的位置:網站首頁 > 頻道 > 當前瀏覽頁面

   ? 導航中使用文字鏈接,不使用復雜的 js 或者 flash

   ? 使用圖片做導航時,可以使用 Alt 注釋,用 Alt 告訴搜索引擎所指向的網頁內容是什么 

子域名與目錄的選擇

選擇使用子域名還是目錄來合理的分配網站內容,對網站在搜索引擎中的表現會有較大的影響。


我們建議

   ? 在某個頻道的內容沒有豐富到可以當做一個獨立站點存在之前,使用目錄形式;等頻道下積累了足夠的內容,再轉換成子域名的形式

一個網頁能否排到搜索結果的前面,“出身”很重要,如果出自一個站點權重較高的網站,那排到前面的可能性就越大,反之則越小。通常情況下主站點的權重是最高的,子站點會從主站點繼承一部分權重,繼承的多少,視子站點質量而定。


在內容沒有豐富到可以做為一個獨立站點之前,內容放到主站點下一個目錄中能在搜索引擎中獲得更好的表現。

 

   ? 內容差異度較大、關聯(lián)度不高的內容,使用子站點形式 

搜索引擎會識別站點的主題,如果站點中內容關聯(lián)度不高,可能導致搜索引擎錯誤的識別。關聯(lián)度不高的內容,放在不同的子域名下,可以幫助搜索引擎更好的理解站點的主題 


   ? 域名間內容做好權限,互相分開,a. example.com 下的內容,不能通過 b. example.com 訪問 

子域名間的內容可以互相訪問,可能會被搜索引擎當做重復內容而進行除重處理,保留的 url 不一定是正常域名下的。 


   ? 不要濫用子域名 

無豐富內容而濫用大量子域名,會被搜索引擎當做作弊行為而受到懲罰。


規(guī)范、簡單的URL  

創(chuàng)建具有良好描述性、規(guī)范、簡單的 url ,有利于用戶更方便的記憶和判斷網頁的內容,也有利于搜索引擎更有效的抓取您的網站。網站設計之初,就應該有合理的 url 規(guī)劃。


我們建議: 

 ? 如果網站中同一網頁,只對應一個 url     

如果網站上多種 url 都能訪問同樣的內容,會有如下危險:  

         1、搜索引擎會選一種 url 為標準,可能會和正版不同   

         2、用戶可能為同一網頁的不同 url 做推薦,多種 url 形式分散了該網頁的權重 

   

如果你的網站上已經存在多種 url 形式,建議按以下方式處理:    

        1、在系統(tǒng)中只使用正常形式 url ,不讓用戶接觸到非正常形式的 url    

        2、不把 Session id 、統(tǒng)計代碼等不必要的內容放在 url 中   

        3、不同形式的 url,301 永久跳轉到正常形式    

        4、防止用戶輸錯而啟用的備用域名,301 永久跳轉到主域名    

        5、使用 robots.txt 禁止 Baiduspider 抓取您不想向用戶展現的形式


        ? 讓用戶能從url判斷出網頁內容以及網站結構信息,并可以預測將要看到的內容 

                 

以W3Cschool 網站為例,url 結構中加入了列表頁信息,用戶在看到頁面的url時,可以方便的判斷是什么的列表頁。url 結構中還加入了 tutorial 、python3 等內容信息,用戶可以通過 url 判斷將要看到的內容是一篇教程,還是一個教程頻道頁。


         ? URL盡量短,長URL不僅不美觀,用戶還很難從中獲取額外有用的信息。另一方面,短url還有助于減小頁面體積,加快網頁打開速度,提升用戶體驗。

           

 例子中的第一個 url,會讓用戶望而卻步,第二個 url,用戶可以很輕松的判斷是貼吧中關于百度的吧。


         ? 正常的動態(tài) url 對搜索引擎沒有影響。url 是動態(tài)還是靜態(tài)對搜索引擎沒有影響,但建議盡量減少動態(tài) url 中包含的變量參數,這樣即有助于減少 url 長度,也可以減少讓搜索引擎掉入黑洞的風險 

         ? 不添加不能被系統(tǒng)自動識別為url組成部分的字符

          

上面例子中,url 中加入了“;”、“,”等字符,用戶在通過論壇、即時通訊工具等渠道推薦這些 url 時,不能被自動識別為鏈接,增加了用戶訪問這些網頁的困難度。


         ? 利用百度提供的 URL 優(yōu)化工具檢查
 百度站長平臺提供了 URL 優(yōu)化工具,可以幫助檢查URL對搜索引擎的友好程度并提出修改建議。


利用站長工具

        互聯(lián)網越來越龐大、復雜,百度為了更好的處理互聯(lián)網上的信息,提供了一些的面向站長的工具,合理的利用這些站長工具,可以起事半功倍的效果。 

        ? 百度站長平臺

     登錄zhanzhang.baidu.com獲取更多幫助信息。


        ? Sitemap :

     百度站長平臺支持通過 sitemap 提交網站內容。通過 sitemap 可以讓百度更全面更快的發(fā)現鏈接,使得收錄更有效率。


         ? Ping

    Ping 是針對 blog 內容的提交方式,實時通知搜索引擎 blog 上有新內容產生。目前主流的博客程序都支持 ping,您只需要將百度的 ping 服務地址 http://ping.baidu.com/ping/RPC2 加入博客后臺并開啟 ping 功能即可。


        ? 死鏈刪除: 
    百度站長平臺支持通過 sitemap 向百度提交網站的死鏈列表。網站死鏈過多,不僅影響用戶訪問體驗,也影響百度對網站質量的判斷。通過死鏈刪除的接口可以讓百度更快更全面的發(fā)現網站死鏈,從而進行有效刪除。 

 
    注:提交需要刪除的網址后,需要做如下處理,才能被百度有效刪除: 

    1、使用 robots.txt 阻止其被抓取; 

    2、或者返回 404 狀態(tài)碼表示當前頁面不存在。


        ? 站長工具

    -URL優(yōu)化工具檢查


    百度站長平臺提供了 URL 優(yōu)化工具,可以幫助檢查 URL 對搜索引擎的友好程度并提出修改建議。

    -網站安全檢測    


百度站長平臺提供工具檢測網站是否被黑并提示站長,幫助修改。


   ? 什么是“網站被黑”?    

              網站被黑,是指黑客利用網站的程序、設置等方面的安全漏洞或管理員安全疏忽(如密碼復雜度低),未經管理員授權,對網站進行了篡改。


   ? 如何處理網站被黑?

    1、分析系統(tǒng)日志、服務器日志,檢查自己站點的頁面數量、流量等是否有異常波動,是否存在異常訪問或操作日志;

    2、檢查網站文件是否有不正常的修改,尤其是首頁等重點頁面;

    3、網站頁面是否引用了未知站點的資源(圖片、JS 等),是否被放置了外站的異常鏈接;

    4、檢查網站是否有不正常增加的文件或目錄;

    5、檢查網站目錄中是否有非管理員打包的網站源碼、未知 txt 文件等。


   ? 如何防止網站被黑?

    1、定期檢查服務器日志等方式發(fā)現問題,檢查是否有可疑的針對非前臺頁面的訪問;

    2、經常檢查網站文件是否有不正常的修改或者增加;

    3、關注操作系統(tǒng),以及所使用程序的官方網站。及時下載補丁,修補安全漏洞;必要時建議直接更新至最新版本;

    4、修改開源程序關鍵文件的默認文件名,作弊者通常通過程序自動掃描某些特定的文件是否存在來判斷是否使用了某套程序;

    5、修改默認管理員用戶名,提高管理后臺的密碼強度,使用字母、數字以及特殊符號多種組合的密碼;

    6、關閉不必要的服務,以及端口;

    7、關閉或者限制不必要的上傳功能;

    8、設置防火墻等安全措施;

    9、若問題反復出現,建議重新安裝服務器操作系統(tǒng),并重新上傳備份的網站文件;

    10、缺乏專業(yè)維護人員的網站,建議向專業(yè)安全公司咨詢;快速發(fā)現并處理被黑內容,并做好被黑的預防,非常體現一個網站的運營水平。

上述的幾點僅僅是初步的參考。做好網站的安全需要站長、管理員們的不斷努力。


        ? 百度搜索框提示功能   

百度向站長開放免費“百度搜索框”代碼和“百度搜索框提示”代碼?! ? 


只需進行簡單的設置,即可將“百度搜索框(帶提示功能)”功能快速加入到您的網頁中。提升用戶在網站中的搜索體驗?!?/p>

              


改版/換域名

網站改版、換域名在互聯(lián)網飛速發(fā)展的情況下是不可避免的,但處理不當,會造成重大的流量損失。改版、換域名需要考慮的第一要點就是如何保證老用戶不流失,當用戶訪問舊內容時,能引導用戶到新網站上對應的內容,避免出現用戶訪問不到以前收藏的網頁的情況。 

 
我們建議在改版或者換域名時,將舊網頁 301永久重定向 到內容對應的新網頁,這樣百度更容易發(fā)現這個轉變,并迅速的將舊網頁積累的權值傳遞給對應的新網頁。


 其他建議: 

        ? 如非必要,不要做整站內容的完全更換 

網站改版或者網站內重要頁面鏈接發(fā)生變動時,應該將改版前的頁面 301永久重定向 到改版后的對應的頁面 

        ? 網站更換域名,應該將舊域名的所有頁面 301永久重定向 到新域名上對應的頁面 

網站更換域名后,維持舊域名能穩(wěn)定訪問盡可能長的時間,給用戶多一些時間記憶新域名 

  ? 網站改版/更換域名后,請把新的 URL /新域名下的 URL,通過 sitemap 提交給百度,幫助百度更快發(fā)現和作出調整。


合理的返回碼

  百度爬蟲在進行抓取和處理時,是根據 http 協(xié)議規(guī)范來設置相應的邏輯的,所以請站長們也盡量參考 http 協(xié)議中關于返回碼的含義的定義來進行設置。


        百度 spider 對常用的 http返回碼 的處理邏輯是這樣的: 

  ? 404
    404返回碼的含義是“NOT FOUND”,百度會認為網頁已經失效,那么通常會從搜索結果中刪除,并且短期內 spider 再次發(fā)現這條 url 也不會抓取。

  ? 503
    503返回碼的含義是“Service Unavailable”,百度會認為該網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503,百度 spider 不會把這條 url 直接刪除,短期內會再訪問。屆時如果網頁已恢復,則正常抓??;如果繼續(xù)返回503,短期內還會反復訪問幾次。但是如果網頁長期返回503,那么這個 url 仍會被百度認為是失效鏈接,從搜索結果中刪除。 

  ? 403
    403返回碼的含義是“Forbidden”,百度會認為網頁當前禁止訪問。對于這種情況,如果是新發(fā)現的 url,百度 spider 暫不會抓取,短期內會再次檢查;如果是百度已收錄 url,當前也不會直接刪除,短期內同樣會再訪問。屆時如果網頁允許訪問,則正常抓?。蝗绻圆辉试S訪問,短期內還會反復訪問幾次。但是如果網頁長期返回403,百度也會認為是失效鏈接,從搜索結果中刪除。

  ? 301
    301返回碼的含義是“Moved Permanently”,百度會認為網頁當前跳轉至新url。當遇到站點遷移,域名更換、站點改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度 spider 現在對301跳轉的響應周期較長,但我們還是推薦大家這么做。


我們建議:

  ? 如果站點臨時關閉,當網頁不能打開時,不要立即返回 404,建議使用 503 狀態(tài)。503 可以告知百度 spider 該頁面臨時不可訪問,請過段時間再重試。

  ? 如果百度 spider 對您的站點抓取壓力過大,請盡量不要使用 404,同樣建議返回 503。這樣百度 spider 會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了。

  ? 有一些網站希望百度只收錄部分內容,例如審核后的內容,累積一段時間的新用戶頁等等。在這種情況,建議新發(fā)內容暫時返回 403,等審核或做好處理之后,再返回正常狀態(tài)的返回碼。

  ? 站點遷移,或域名更換時,請使用301返回。


以上內容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號