当前位置:首页>网络学院>服务器>Mail服务器教程>文章内容

多服务器的日志合并统计——apache日志的cronolog轮循和webalizer合并统计 评注

[ 来源: | 作者: | 时间:2007-07-21 | 收藏 | 推荐 ] 【

#160; 如何合并多个日志文件?
            下面以标准的clf格式日志(apache)为例:
            apche的日志格式是这样的:
            %h %l %u %t \"%r\" %>s %b
            具体的例子:
            111.222.111.222 - - [03/Apr/2002:10:30:17 +0800] "GET /index.html HTTP/1.1" 200 419

            最简单的想法是将日志一一读出来,然后按日志中的时间字段排序
            cat log1 log2 log3 |sort -k 4 -t " "
            注释:
            -t " ": 日志字段分割符号是空格 www.it55.com在线教程
            -k 4: 按第4个字段排序,也就是:[03/Apr/2002:10:30:17 +0800] 这个字段
            -o log_all: 输出到log_all这个文件中

            但这样的效率比较低,要知道。如果一个服务已经需要使用负载均衡,其服务的单机日志条数往往都超过了千万级,大小在几百M,这样要同时对多个几百M的日志进行排序,机器的负载可想而之……
            其实有一个优化的途径,要知道:即使单个日志本身已经是一个“已经按照时间排好序“的文件了,而sort对于这种文件的排序合并提供了一个优化合并算法:使用 -m merge合并选项,
            因此:合并这样格式的3个日志文件log1 log2 log3并输出到log_all中比较好方法是:
            sort -m -t " " -k 4 -o log_all log1 log2 log3

免费资源www.it55.com


            注释:
            -m: 使用 merge优化算法

            注意:合并后的日志输出最好压缩以后再发给webalizer处理
            有的系统能处理2G的文件,有的不能。有的程序能处理大于2G的文件,有的不能。尽量避免大于2G的文件,除非确认所有参与处理的程序和操作系统都能处理这样的文件。所以输出后的文件如果大于2G,最好将日志gzip后再发给webalizer处理:大于2G的文件分析过程中文件系统出错的可能性比较大,并且gzip后也能大大降低分析期间的I/O操作。

            日志的按时间排序合并就是这样实现的。

            日志的轮循机制:
            让我们关心一下数据源问题:webalizer其实是一个按月统计的工具,支持增量统计:因此对于大型的服务,我可以按天将apache的日志合并后送给webalizer统计。WEB日志是如何按天(比如每天子夜00:00:00)截断呢? IT资讯之家 www.it55.com
            如果你每天使用crontab:每天0点准时将日志备份成access_log_yesterday
            mv /path/to/apache/log/access_log /path/to/ap

45398 www.it55.com it55学习IT知识,享受IT生活 4dfkjn

(编辑:IT资讯之家 www.it55.com

网友评论

[以下评论为网友观点,不代表本站。请自觉遵守互联网相关政策法规,所有连带责任均有评论者自负。]
[不超过250字]