接下来进入正题,真正影响百度抓取网站内容频次的原因是什么?
首先,分析了服务器日志中的抓取统计信息,以了解百度每次访问每个网页的频率。然后,我将所有这些数据放入电子表格中,并计算内部链接和抓取预算以及外部链接和抓取预算之间的关联。
1.避免长时间重定向链
如果网站上的连续301和302重定向数量不合理,则搜索蜘蛛将在某个时刻停止跟踪重定向,并且目标网页可能无法抓取,更重要的是,每个重定向的URL都会浪费您的抓取频次的“单元”,确保连续使用重定向不超过两次,并且只有在绝对必要时才使用重定向。
2.保持网站地图最新与抓取正常
XML站点地图有助于提升爬行频次,他们会告诉搜索引擎关于网站内容的组织结构,并让搜索机器人更快地发现新内容,XML站点地图应定期更新并免于垃圾(4xx页面,非规范页面,重定向到其他页面的URL以及阻止索引的页面)。
3.管理网站结构和内部链接
虽然内部链接与抓取频次没有直接关系,但网站结构仍然是使搜索漫游器可发现内容的重要因素,逻辑树状网站的结构具有许多优点–例如用户体验以及访问者在网站上花费的时间–而改进的爬行绝对是其中之一。
最后,你学到了提高网站被百度搜索爬虫抓取的技巧了吗?