赞
踩
如果说在IT时代是以自我控制、自我管理为主,那么到了DT(Data Technology)时代,则是以服务大众、激发生产力为主。阿里巴巴大数据系统体系架构主要分为数据采集、数据计算、数据服务和数据应用四大层次。
阿里巴巴的日志采集体系方案包括两大体系:Aplus.JS是Web端(基于浏览器)日志采集技术方案:UserTrack是APP端(无线客户端)日志采集技术方案。
浏览器的页面型产品/服务的日志采集可分为如下两大类。
在HTML文档内增加一个日志采集节点,当浏览器解析时将自动触发一个特定的HTTP请求到日志采集服务器。主要过程如下:
阿里巴巴的页面浏览日志采集框架,不仅指定了上述的采集技术方案,同时也规定了PV日志的采集标准规范,其中规定了PV日志应采集和可采集的数据项,并对数据格式做了规定。
在阿里巴巴,通过一套名为“黄金令箭”的采集方案来解决交互日志的采集问题。“黄金令箭”是一个开放的基于HTTP协议的日志服务,采集步骤如下。
在大部分场合下,经过上述解析处理之后的日志并不直接提供给下游使用,一般还需要进行相应的离线预处理。
在阿里巴巴内部,多使用名为UserTrack的SDK来进行无线客户端的日志采集。UserTrack(UT)把事件分成了几类,常用的包括页面事件和控件点击事件等。
每条页面事件日志记录三类信息:①设备及用户的基本信息;②被访问页面的信息;③访问基本路径。UT提供了透传参数功能,即把当前页面的某些信息,传递到下一个页面甚至下下一个页面的日志中。
交互类的行为呈现出高度自定义的业务特征,因此UT提供了一个自定义埋点类,其包括:①事件名称;②事件时长;③事件所携带的属性;④事件对应的页面。UT还提供了一些默认的日志采集方法,比如可以自动捕获应用崩溃,并且产生一条日志记录崩溃相关信息。
随着业务的不断发展,业务的复杂性不断提高,采集需要处理的特殊场景也层出不穷。比如,为了平衡日志大小,减小流量消耗、采集服务器压力、网络传输压力等,采集SDK提供了聚合功能。
考虑到后续日志
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。