传统企业信息化系统采用关系数据库来进行数据存储,其中规模较大的通常被称为“数据集市”(Data Mart)。随着采集数据的种类越来越多,部分行业领先的公司看到了把不同数据集市集中到一个大系统中的价值,这个大系统称为企业级数据仓库(Enterprise Data Warehouse, EDW),由专门的数据团队(或称为数据中心)负责集中式的数据管理和维护。
如果是面向互联网业务的新型企业,则会更关注诸如网站的流量、移动APP的日活跃用户数(DAU,Daily Active Users)、登录用户数、停留时间等数据,这类数据统计则很多来源于半结构化数据,网络访问日志就是典型的一种半结构化数据。半结构化数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的,有价值的信息参杂在大量的噪声和无用的数据中,分析起来比结构化数据复杂。
图6:大数据处理的三类数据交叉融合
比半结构化数据更复杂的是非结构化数据。文本信息是目前已记录的数量最为庞大的数据形式,例如网页中的文字内容、聊天记录、电子邮件,企业的各类文档等,它们包含了大量有价值的信息,对它们的分析处理催生出了自然语言处理(NLP , Natural Language Processing)这样专门的计算机学科。