理想情况下,我们希望为爬虫提供最有效的爬虫体验 。爬网不应浪费在低价值的页面和URL上,优先级页面(例如产品页面)的索引编制和爬网速度也不应慢,因为网站的自重页面太多 。游戏的名称是抓取预算节省,并且具有良好的抓取预算转换,可以带来更好的自然搜索性能 。
查看按用户代理搜寻的URL了解网站的URL进行爬网的频率可以快速揭示搜索引擎将其时间投入爬网的位置 。
如果您有兴趣查看单个用户代理的行为,这很容易,因为可以过滤掉excel中的相关列 。在这种情况下,使用WC3格式的日志文件,我通过Googlebot过滤了cs(User-Agent)列:

文章插图
然后过滤URI列,以显示Googlebot抓取该示例网站首页的次数:

文章插图
这是通过URI词干查看单个用户代理是否存在任何问题区域的快速方法 。您可以通过查看URI stem列的过滤选项来更进一步,在本例中为cs-uri-stem:

文章插图
从这个基本菜单中,我们可以看到正在爬网的URL(包括资源文件)以快速识别任何问题URL(例如,不应被爬网的参数化URL) 。
您还可以使用数据透视表进行更广泛的分析 。要获取特定用户代理对特定URL进行爬网的次数,请选择整个表(Ctrl / cmd + A),转到“插入”>“数据透视表”,然后使用以下选项:

文章插图
我们要做的只是通过用户代理进行过滤,将URL干作为行,然后计算每个用户代理发生的次数 。
通过示例日志文件,我得到了以下内容:

文章插图
然后,要按特定的User-Agent进行过滤,我点击了包含“(全部)”的单元格上的下拉图标,然后选择了Googlebot:

文章插图
了解哪些不同的漫游器正在爬网,移动漫游器如何以与桌面不同的方式爬网以及发生爬网最多的位置,可以帮助您立即了解哪些地方存在爬网预算浪费以及需要改进的站点区域 。
查找低价值添加网址爬网预算不应浪费在低附加值URL上,这些URL通常是由会话ID,无限的爬网空间和多面导航引起的 。
为此,请返回您的日志文件,并根据URL列中包含“?”或问号符号的URL(包含URL词干)进行过滤 。要在Excel中执行此操作,请记住使用“??”或代字号问号,如下所示:

文章插图
如自动过滤器窗口中所述,单个“?”或问号表示任何单个字符,因此添加代字号就像一个转义字符,并确保过滤出问号符号本身 。
那不容易吗?
查找重复的URL重复的URL可能会浪费抓取预算并造成很大的SEO问题,但是找到它们可能会很麻烦 。有时,URL可能会有一些细微的变化(例如URL的斜杠与非斜杠版本) 。
最终,查找重复URL的最佳方法也是最不有趣的方法-您必须按字母顺序对站点URL进行排序,然后手动对其进行关注 。
查找相同URL的尾随和非尾随斜杠版本的一种方法是,在另一列中使用SUBSTITUTE函数,并使用该函数删除所有正斜杠:
= SUBSTITUTE(C2,“ /”,“”)在我的情况下,目标细胞为C2,因为茎数据位于第三列 。
然后,使用条件格式识别重复的值并突出显示它们 。

文章插图
但是,不幸的是,眼球是目前最好的方法 。
查看子目录的爬网频率找出哪些子目录最常被爬网是揭示爬网预算浪费的另一种快速方法 。尽管要牢记,只是因为客户的博客从未获得过一个反向链接,并且每年仅从企业主的祖母那里获得3次浏览,但这并不意味着您应该认为它浪费了预算,整个网站的内部链接结构应该始终保持良好状态从客户的角度来看,可能很可能需要该内容 。
推荐阅读
- 在React中使用PubSubJS进行组件通信
- dom 中的 nodeType 节点类型
- 3米窗帘买多少个挂钩,3米窗帘杆中间可以不加支撑吗
- 洋葱不能和什么同食?
- 早餐中的营养食物搭配
- 感受安溪茶文化 重庆中庆茶叶店邀您品茶
- 浅说中国茶文化的历史发展与传播
- 安溪中国茶都上榜全国茶叶批发市场十强
- 坏了的热水壶不急换新,无非文中的这几种情况,你试试看
- 中国茶叶学会理事长杨亚军受聘信阳茶业发展顾问
