揭示SEO中5种常见网站日志文件分析方法见解( 二 ) _网站日志

Amazon Elastic Load Balancing

HA代理

JSON格式

如何快速揭示抓取预算浪费快速回顾一下，抓取预算是指搜索引擎在您每次访问网站时抓取的页面数。许多因素会影响爬网预算，包括链接资产或域权限，站点速度等。借助日志文件分析，我们将能够查看您的网站具有哪种爬网预算，以及在哪里会导致浪费爬网预算的问题。
理想情况下，我们希望为爬虫提供最有效的爬虫体验。爬网不应浪费在低价值的页面和URL上，优先级页面（例如产品页面）的索引编制和爬网速度也不应慢，因为网站的自重页面太多。游戏的名称是抓取预算节省，并且具有良好的抓取预算转换，可以带来更好的自然搜索性能。
查看按用户代理搜寻的URL了解网站的URL进行爬网的频率可以快速揭示搜索引擎将其时间投入爬网的位置。
如果您有兴趣查看单个用户代理的行为，这很容易，因为可以过滤掉excel中的相关列。在这种情况下，使用WC3格式的日志文件，我通过Googlebot过滤了cs（User-Agent）列：

文章插图

然后过滤URI列，以显示Googlebot抓取该示例网站首页的次数：

文章插图

这是通过URI词干查看单个用户代理是否存在任何问题区域的快速方法。您可以通过查看URI stem列的过滤选项来更进一步，在本例中为cs-uri-stem：

文章插图

从这个基本菜单中，我们可以看到正在爬网的URL（包括资源文件）以快速识别任何问题URL（例如，不应被爬网的参数化URL）。
您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理对特定URL进行爬网的次数，请选择整个表（Ctrl / cmd + A），转到“插入”>“数据透视表”，然后使用以下选项：

文章插图

我们要做的只是通过用户代理进行过滤，将URL干作为行，然后计算每个用户代理发生的次数。
通过示例日志文件，我得到了以下内容：

文章插图

然后，要按特定的User-Agent进行过滤，我点击了包含“（全部）”的单元格上的下拉图标，然后选择了Googlebot：

文章插图

了解哪些不同的漫游器正在爬网，移动漫游器如何以与桌面不同的方式爬网以及发生爬网最多的位置，可以帮助您立即了解哪些地方存在爬网预算浪费以及需要改进的站点区域。
查找低价值添加网址爬网预算不应浪费在低附加值URL上，这些URL通常是由会话ID，无限的爬网空间和多面导航引起的。
为此，请返回您的日志文件，并根据URL列中包含“？”或问号符号的URL（包含URL词干）进行过滤。要在Excel中执行此操作，请记住使用“?？”或代字号问号，如下所示：

文章插图

如自动过滤器窗口中所述，单个“？”或问号表示任何单个字符，因此添加代字号就像一个转义字符，并确保过滤出问号符号本身。
那不容易吗？
查找重复的URL重复的URL可能会浪费抓取预算并造成很大的SEO问题，但是找到它们可能会很麻烦。有时，URL可能会有一些细微的变化（例如URL的斜杠与非斜杠版本）。
最终，查找重复URL的最佳方法也是最不有趣的方法-您必须按字母顺序对站点URL进行排序，然后手动对其进行关注。
查找相同URL的尾随和非尾随斜杠版本的一种方法是，在另一列中使用SUBSTITUTE函数，并使用该函数删除所有正斜杠：

= SUBSTITUTE（C2，“ /”，“”）

在我的情况下，目标细胞为C2，因为茎数据位于第三列。
然后，使用条件格式识别重复的值并突出显示它们。

文章插图

但是，不幸的是，眼球是目前最好的方法。
查看子目录的爬网频率找出哪些子目录最常被爬网是揭示爬网预算浪费的另一种快速方法。尽管要牢记，只是因为客户的博客从未获得过一个反向链接，并且每年仅从企业主的祖母那里获得3次浏览，但这并不意味着您应该认为它浪费了预算，整个网站的内部链接结构应该始终保持良好状态从客户的角度来看，可能很可能需要该内容。