轻松利用日志动态分析平台玩转Nginx运维管理( 二 )


在实际使用的过程中,推荐用户优先定义数据源类型 , 用来限定该数据的适用范围;必要时还需自定义一些字段加工规则,用来和数据源类型进行一一对应 。

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
2、数据处理流程(1) 数据导入鸿鹄系统支持各类数据源的自动化导入操作,通过数据采集器或数据连接器,将数据从不同的数据源拉取并汇总到鸿鹄系统中 。同时数据的格式也是多种多样的 , 包括文件类型、数据库类型、Kafka类型等 。
  • 日志数据导入
注:此演示为手动导入过程,实际生产中多为自动化导入,关于自动化导入的实现 , 请参考使用手册中的“数据导入”章节设定数据源类型 。
轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
完成数据上传后,在预览界面选择自定义的数据源类型 。利用鸿鹄系统实现对时间字段的自动化提?。?⑼ü?だ朗?莸姆绞饺啡鲜奔渥侄翁崛〉恼?沸?。
  • 设定目标数据集

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
将数据存放在目标数据集中,如上图所示,支持通过数据源主机来区分不同的数据来源 , 以达到数据源区分的目的 , 避免混乱 。
  • 数据导入验证

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
  • CPU监控数据
  •  设定数据源类型

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
由于CPU数据为csv文件,因此采用内置的csv数据源类型就可以进行导入(平台支持csv类型文件的时间字段自动识别功能) 。
  • 设定目标数据集

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
同样地,通过数据源主机以及数据源的方式,对数据来源进行区分 。
  • 资产关系映射数据
资产映射数据是相对“静态”、不带时间属性的数据,表达从A到B的映射关系 。对于这类数据,鸿鹄系统支持用户通过构建“查找表”来记录这种映射关系,实现资产映射的管理 。
  • 构建“查找表”

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
上图中 , 构建了fqdn、ip、service这3个查找表 。新建查找表的具体界面如下图所示 。
  • FQDN <-> 系统 映射表

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
  • IP <-> 系统 映射表

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
  • URL节点<-> Web服务模块 映射表

轻松利用日志动态分析平台玩转Nginx运维管理

文章插图
(2) 数据解析完成了数据的导入,下一步是解析数据,提取数据字段,为建模做准备 。对于本例中的数据格式,由于其是非结构化数据,故采用正则表达式的方式来提取字段 。在鸿鹄系统中,正则解析方式有两种实现方式:互动划词,和手动编辑 。
  • 方式1:互动划词 (“数据管理” -> “字段加工” -> “新建规则应用”)
    轻松利用日志动态分析平台玩转Nginx运维管理

    文章插图
上图可以看出 , 蓝色方框内彩色部分是手动划分的词;完成划词后,会提示输入字段名称(右下角红色圆圈);确定字段名称后,鸿鹄系统将自动生成正则并提取字段,并提供预览界面,实现可视化互动 。
  • 方式2:手动编辑
如果遇到较为复杂的正则表达,样例数据不能满足已有的正则匹配,则可以进行一些手动的编辑 。一般首先利用互动划词生成自动化正则表达式,然后使用手动编辑的方式进行调整 。


推荐阅读