数加平台如何通过Serverless 架构实现普惠大数据

作者：煮酒与君饮 | 2024-08-14 06:55:56

踩

serverless 大数据处理

阿里云大数据 Serverless 理念

Serverless是一种架构理念，指的是以服务的形式来提供计算能力而不是以服务器形式，让开发者在构建应用的过程中不用过多考虑基础设施的问题。大数据业务本来就是最典型的计算业务，从计算的场景上来说，涵盖了离线批量计算、实时流计算、在线实时计算等，在很多情况下还需要把这些计算能力组合起来才能满足需求。所以Serverless 的架构天生就能很好的适用于大数据应用的场景，能把数据科学家从底层服务器层的运维管理等解放出来，让数据科学家专注在数据价值的探索挖掘上。

当前大数据云服务商里面只有Google 跟阿里云可以给用户提供完整的大数据Serverless 服务。Google 和阿里巴巴本身都是真正的大数据公司，对大数据的应用代表了行业领先的水平，今天在大数据云服务的提供上都一致的选择Serverless 的架构，也能很好的代表Serverless 架构在大数据应用领域的先进性。

以阿里云最重要的大数据产品MaxCompute 为例，无论是计算还是存储能力都是以服务的形式对外提供的，是典型的Serverless 服务。事实上，阿里云从一开始就坚持要把计算能力做成像水电煤一样的公共服务，而不是卖服务器给客户，这跟当下流行的Serverless 架构理念是一致的。这个理念在数加平台得到了很好的体现，数加平台能工一站式提供完整的大数据能力，离线，在线处理，大规模机器学习等，但没有一个服务以服务器形式提供的。

在更高层面的抽象，阿里云大数据平台今天已经可以提供很多业务场景化的计算服务，比如推荐引擎，规则引擎，以及各种人工智能的服务，甚至可以把数据和计算融合起来提供服务，典型的场景如下：

数据分析服务化：按需组合使用各类Serverless 的服务，将多种数据源集成，清洗转换，关联分析，并以可视化的方式展现数据的洞察。过程中不用关心任何的物理架构，也不用关心各种工具的集成。
数据服务化：指将已有的数据通过Serverless的方式（如API化）提供给使用者，常见的有：气象数据获取，根据地理位置获取对应位置的地点信息，图像识别（指能识别出特定的图片信息），特征新闻抓取服务等。
算法服务化：主要是将输入的数据根据特定的算法进行提炼和运算，然后将结果输出，如人脸特征值提取，基因计算，图像渲染等。开发者无需考虑计算资源，只需将计算代码托管到大数据平台或者通过API接口调用大数据计算服务，由服务商提供计算资源的调度，监控和维护工作，能极大的降低运维工作量，同时具有更好的资源弹性伸缩能力。

阿里云大数据Serverless 实践

大数据应用相比流程性的应用有以下特点，

流程长，从采集，存储，清洗，关联，到分析挖掘，直到变成数据服务
逻辑复杂，大数据的价值就是要关联非常多的维度来分析
不确定性强，数据的应用很多都是探索性质的
技术体系复杂，不存在一个通用的引擎可以解决所有大数据的场景，离线处理，流式处理，在线分析都需要使用不同的引擎来支持

这些特点使得Serverless 的架构对大数据应用尤为重要，如果数据科学家陷入到这么复杂的底层构建和运维的细节，效率会变得非常低，甚至会导致很多的想法无法落地。

数加平台从用户视角来看，输入的是数据，输出的是智慧的服务。数加平台从底层将整个数据应用的链条全部打通，并提供了一系列的Serverless 服务，从数据采集，存储，各种处理，到最终变成数据服务。用户需要做的是开发、配置业务相关的处理逻辑、业务规则和算法等，把所有精力关注在数据价值的实现上，而不用关心底层技术和运维层面的架构，也不用关心系统资源管理等。

d2a4ba9d4ce44fe983ff8d9b240f5852fb591fb9

案例1：智慧水务

整体架构如下图：

1d9d5af7a8fc6090db7a6ddcd771051c43636817

利用IoT 套件采集设备数据，通过简单的配置即可将数据实时对接到大数据平台的DataHub.驱动以下典型的计算场景，

1) 在流计算中自定义SQL 对这些数据做实时的汇总统计，比如流量的统计

2) 在规则引擎中配置业务规则，通过这些规则对数据进行实时分析，判断设备的状态

3) 在规则引擎中配置异常检测的算法对设备状态进行预测，或者利用时间序列算法对管网运行状态进行预测，底层会应用到Maxcompute 对历史数据进行分析，产出的模型对接到StreamCompute，进而对新产生的数据进行实时预测

这个案例里面，利用到了大量的大数据的能力，离线存储和计算，流式计算，机器学习模型训练，数据可视化等等，但对使用者来说，需要做的是流计算SQL 的开发，业务规则的配置，以及偏业务的算法参数配置。而不用去管底层的平台要如何搭建，不同引擎之间的数据如何流转，以及系统的扩展性，稳定性，更不用关心要准备多少的物理资源。

案例2：智能服务机器人

将跟机器人交互的语音数据实时上传到大数据平台，驱动语音识别引擎对交互的内容进行识别，自然语言处理，构建知识库，最终形成一个问答系统。随着数据的积累，问答系统会变得越来越智能。

在这个案例里面，用户只需要将语音数据接入，输出的就是一个智能问答系统，完全不用关心底层的实现，而这个实现是非常复杂的，有能力的用户都需要花很大的成本才能搭建起来。

案例3：参考小红唇 https://yq.aliyun.com/articles/57256

这个案例组合使用数加的各种服务，快速的获得了大数据BI 的能力，所有的投入都是在数据业务价值的发现上，而没有花精力在技术平台的构建上。

上面这些案例都很好的展示了Serverless 架构对于大数据应用的价值：把用户从底层的部署，运维，以及资源管理的复杂性中解放出来，让所有的精力都可以投入在数据业务价值的探索和实现上。并且，利用数加平台，可以大大的提升数据应用的效率，传统的模式要数以月计才能完成的事情，使用Serverless 服务，几天就能完成，甚至可以更快，时效对于数据价值的最大化是至关重要的。

阿里云数加平台简介

阿里云数加平台是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案，主要基于大数据基础服务提供用户大数据存储和计算能力。开发者使用数加可以轻松进行各种数据采集、数据加工、BI商业智能、人工智能和数据创新等操作。阿里云数加平台作为大数据Serverless的典范，助力企业在DT时代更敏捷、更智能、更具洞察力。

透过数加平台的数据市场相关API，开发者可以通过几行代码调用数据市场中由第三方提供商开发的各种数据服务（如获取各种交通数据、气象数据、海洋数据、水利数据等），方便快捷的获取各种数据，缩短开发时间，降低开发难度。通过数据市场的各种数据原料、数据API，数据越用越有价值，数据越关联越有价值。用户可以按需以服务的方式调用所需的第三方数据，并结合自有数据实现大数据分析和应用，以得到数据价值的最大化。数据服务化是数加平台的典型特点。

在数加平台，各种计算服务开箱即用，用户不必关心大数据集群的搭建、配置和运维工作，仅需简单的几步操作，用户就可以在数加平台中上传数据、分析数据并得到分析结果。用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼，数加平台根据用户的数据规模自动扩展大数据集群的存储和计算能力，使用户专心于数据分析和挖掘，最大化发挥数据的价值。

转载于:https://my.oschina.net/u/3154814/blog/860544

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/978571