要按子目录级别查找爬网频率,您需要主要关注它,但是以下公式可以帮助您:
= IF(RIGHT(C2,1)=“ /”,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN(“ /”)+ SUM(LEN(C2) -LEN(SUBSTITUTE(C2,“ =”,“”)))/ LEN(“ =”)-2,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN (“ /”)+ SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ =”,“”))))/ LEN(“ =”)-1) 上面的公式看起来有点笨拙,但是它所做的只是检查是否有斜杠,并根据答案计算斜杠的数目并从该数目中减去2或1 。如果使用RIGHT公式从URL列表中删除所有结尾的斜杠,则可以缩短此公式-但是谁有时间 。剩下的就是子目录计数(从第一个子目录从0开始) 。
将C2替换为第一个URL词干/ URL单元格,然后将公式复制到整个列表中以使其起作用 。

文章插图
确保使用适当的起始单元格替换所有C2,然后按最小到最大的顺序对新的子目录计数列进行排序,以按逻辑顺序获得良好的文件夹列表,或者轻松地按子目录级别进行过滤 。例如,如以下屏幕截图所示:

文章插图
上图是按级别排序的子目录 。

文章插图
上图是按深度排序的子目录 。
如果您不处理大量URL,则可以简单地按字母顺序对URL进行排序,但是您将无法获得子目录计数过滤功能,这对于大型站点可能要快得多 。
按内容类型查看抓取频率找出要爬网的内容,或者是否有任何内容类型在限制爬网预算,这是发现爬网预算浪费的绝佳选择 。使用这种策略可以很容易地发现对不必要的或低优先级的css和JS文件的频繁爬网,或者如果您正在尝试针对图像搜索进行优化,则会在图像上进行爬网 。
在Excel中,按内容类型查看爬网频率就像使用“结尾为”过滤选项按URL或URI茎进行过滤一样容易 。

文章插图
快速提示:您还可以使用“不以...结尾”过滤器,并使用.html扩展名查看非HTML页面文件的爬网方式-始终值得检查,以防不必要的js或css文件浪费爬网预算,或者甚至图像和图像变体(看着您的wordPress/ target=_blank class=infotextkey>WordPress) 。另外,请记住,如果您的站点具有尾随和非尾随的斜杠URL,则使用带有过滤功能的“或”运算符将其考虑在内 。
监视机器人:了解网站爬网行为日志文件分析使我们能够了解机器人的优先级,从而了解它们的行为方式 。不同的机器人在不同情况下的表现如何?有了这些知识,您不仅可以加深对SEO和爬网的理解,还可以使您在了解网站架构的有效性方面取得巨大飞跃 。
查看最多和最少爬行的URL以前,通过查看用户代理抓取的URL可以完善此策略,但是它甚至更快 。
在Excel中,选择表中的单元格,然后单击“插入”>“数据透视表”,确保所选内容包含必要的列(在这种情况下,URL或URI词干以及用户代理),然后单击“确定” 。

文章插图
创建数据透视表后,将行设置为URL或URI词干,并将总和设置为用户代理 。

文章插图
在此处,您可以右键单击“用户代理”列,然后按爬网计数将URL从最大到最小排序:

文章插图
现在,您将拥有一张不错的桌子,可以根据它制作图表或快速查看并查找任何有问题的区域:

文章插图
在查看此数据时要问自己的一个问题是:您或客户想要爬网的页面吗?多常?频繁爬网并不一定意味着会有更好的结果,但这可能表明Google和其他内容用户代理将哪些内容放在了优先位置 。
每天,每周或每月的抓取频率在Google更新或紧急情况下,检查爬网活动以识别一段时间内可见性下降的问题,可以通知您问题可能出在哪里 。这就像选择“日期”列,确保该列为“日期”格式类型,然后使用日期列上的日期过滤选项一样简单 。如果您要分析整个星期,只需选择具有可用过滤选项的相应日期即可 。
推荐阅读
- 在React中使用PubSubJS进行组件通信
- dom 中的 nodeType 节点类型
- 3米窗帘买多少个挂钩,3米窗帘杆中间可以不加支撑吗
- 洋葱不能和什么同食?
- 早餐中的营养食物搭配
- 感受安溪茶文化 重庆中庆茶叶店邀您品茶
- 浅说中国茶文化的历史发展与传播
- 安溪中国茶都上榜全国茶叶批发市场十强
- 坏了的热水壶不急换新,无非文中的这几种情况,你试试看
- 中国茶叶学会理事长杨亚军受聘信阳茶业发展顾问
