1、關于網站搜索的更新頻率
更多精彩請關注:http://www.www25673.cn
百度搜索能夠設定網站的更新頻率和時間,普通關于大網站更新頻度很快,而且會特地開設獨立的爬蟲停止跟蹤,不過百度是比擬勤奮的,中小網站普通也會每天更新。因而,假如你希望自己的網站更新得更快,最好是在大型的分類目錄(例如yahoosina網易)中有你的鏈接,或者在百度自己的相關網站中,有你網站的超鏈接,在或者你的網站就在一些大型網站里面,例如大型網站的blog。
2、關于采集的深度
百度搜索能夠定義采集的深度,就是說不見得百度會檢索你網站的全部內容,有可能只索引你的網站的首頁的內容,特別對小型網站來說。
3、關于對經常不通網站的采集
百度關于網站的通斷是有特地的判別的,假如一旦發現某個網站不通,特別是一些中小網站,百度的自動中止往這些網站派出爬蟲,所以選擇好的效勞器,堅持網站24小時暢通十分重要。
4、關于改換IP的網站
百度搜索可以基于域名或者ip地址,假如是域名,會自動解析為對應的ip地址,因而就會呈現2個問題,第一就是假如你的網站和他人運用相同的IP地址,假如他人的網站被百度懲罰了,你的網站會遭到牽連,第二就是假如你改換了ip地址,百度會發現你的域名和先前的ip地址沒有對應,也會回絕往你的網站派出爬蟲。因而倡議,不要隨意改換ip地址,假如有可能盡量獨享ip,堅持網站的穩定很重要。
5、關于靜態和動態網站的采集
很多人擔憂是不是相似asp?id=之類的頁面很難被搜集,html這樣的頁面容易被搜集,事實上狀況并沒有想的這么糟,如今的搜索引擎大局部都支持動態網站的采集和檢索,包括需求登陸的網站都能夠檢索到,因而大可不用擔憂本人的動態網站搜索引擎無法辨認,百度搜索中關于動態的支持能夠自定義。但是,假如有可能,還是盡量生成靜態頁面。同時,關于大局部搜索引擎,仍然對腳本跳轉(JS)、框架(frame)、 Flash超鏈接,動態頁面中含有非法字符的頁面迫不得已。
6、關于索引的消逝
前面講過,搜索的索引需求創立,普通好的搜索,索引都是文本文件,而不是數據庫,因而索引中需求刪除一條記載,并不是一件便當的事情。例如百度,需求運用特地的工具,人工刪除某條索引記載。據百度員工稱,百度特地有一群人擔任這件事情——接到投訴,刪除記載,手工。當然還能直接刪除某個規則下的一切索引,也就是能夠刪除某個網站下的一切索引。還有一個機制(未經歷證),就是關于過時的網頁和作弊的網頁(主要是網頁標題、關鍵詞和內容不匹配),在重建索引的過程中也會被刪除。
更多精彩請關注:http://www.www25673.cn