揭示SEO中5种常见网站日志文件分析方法见解( 六 ) _网站日志

文章插图

诊断页面问题网站不仅需要为人类设计，还需要为机器人设计。页面不应加载缓慢或下载量过大，并且通过日志文件分析，您可以从漫游器的角度查看每个URL的这两个指标。
查找慢页面和大页面虽然您可以按“花费的时间”或“加载时间”列从最大到最小对日志文件进行排序，以找到最慢的加载页面，但最好查看每个URL的平均加载时间，因为可能还有其他因素导致了除网页实际速度以外的缓慢请求。
为此，请创建一个数据透视表，其中的行设置为URI词干或URL，而总和设置为加载时间或加载时间：

文章插图

然后，在这种情况下，使用下拉箭头显示“花费的时间总和”，然后转到“值字段设置”：

文章插图

在新窗口中，选择“平均”，您已经设置完毕：

文章插图

现在，当按最大时间，最小时间和平均时间对URI词干进行排序时，应该具有与以下内容类似的内容：

文章插图

查找大页面现在，您可以使用以下所示的设置添加下载大小列（在我的情况下为“ sc-bytes”）。请记住，将大小设置为平均值或总和取决于您想要看到的内容。对我来说，我已经完成了平均：

文章插图

并且您应该得到类似于以下内容：

文章插图

机器人行为：验证和分析机器人了解机器人和爬网行为的最佳，最简单的方法是使用日志文件分析，因为您将再次获得真实的数据，并且比其他方法要省时得多。
查找未爬网的URL只需使用您选择的工具对您的网站进行爬网，然后将您的日志文件与URL进行比较以找到唯一的路径。您可以使用Excel的“删除重复项”功能或条件格式执行此操作，尽管前者的CPU占用率要低得多，尤其是对于较大的日志文件。简单！
识别垃圾邮件机器人日志文件和一些基本的命令行操作符很容易识别垃圾邮件和欺骗性僵尸程序对服务器造成的不必要压力。大多数请求还将具有与之关联的IP，因此使用您的IP列（在我的情况下，在W3C格式日志中标题为“ c-ip”），删除所有重复项以查找每个单独的请求IP 。
从那里开始，您应该遵循Google文档中概述的验证IP的过程（注意：对于Windows用户，请使用nslookup命令）：
https://support.google.com/webmasters/answer/80553?hl=zh_CN
或者，如果您要验证Bing机器人，请使用其便捷的工具：
https://www.bing.com/toolbox/verify-bingbot

结论：日志文件分析-听起来并不那么可怕使用一些简单的工具，您可以深入了解Googlebot的行为方式。当您了解了网站如何处理爬网时，您可以诊断出的问题比咀嚼的多得多-但是日志文件分析的真正功能在于能够测试有关Googlebot的理论并扩展上述技术以收集自己的见解和启示。
您将使用日志文件分析测试哪些理论？除了上面列出的日志文件之外，您还可以从日志文件中收集哪些见解？

【揭示SEO中5种常见网站日志文件分析方法见解】