赞
踩
云原生机器学习平台cube-studio介绍:https://juejin.cn/column/7084516480871563272
cube-studio是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智能修正;nni,katib,ray的超参搜索;多集群多资源组,算力统筹,联邦调度;tf/pytorch/onnx模型的推理服务,serverless流量管控,tensorrt gpu推理加速,依据gpu利用率/qps等指标的 hpa能力,虚拟化gpu,虚拟显存等服务化能力。
目前cube-studio由腾讯音乐开源到github:https://github.com/tencentmusic/cube-studio
开源试用环境:http://114.96.98.168:20080/frontend/ 可自定义用户名与密码,若未注册过会自动注册
平台控制端为fab-python框架,基于Flask框架,可先了解Flask框架相关
myapp/models 中存储数据库结构,如图所示
如图所示,在cli.py中初始化写入数据库,对数据的操作通过db.session来进行
迭代版本文件在myapp/migrations/versions
1、先使用myapp db upgrade命令,将数据库依据versions目录下的接口更新到最新,
2、然后myapp db migrate 将代码中的最新接口更新到versions目录下,
3、然后再调用myapp db upgrade命令更新到最新版数据库
如图所示,通过定义一个类,设置route_base基本路由,之后通过@expose定义具体的api接口及restful方法,之后通过appbuilder.add_api将类添加,即可定义一个后端接口。
#所有api操作header headers = { 'Content-Type': 'application/json', 'Authorization': '$rtx|$token' } - api:(GET):http://x.x.x.x/$view/api/ #获取当前view 增删改查搜索接口中需要发送的参数,以及参数的描述 - api: (GET):http://xx.xx.xx.xx/$view/api/_info #list接口,其中$value为json序列化后的字符串 - api: (GET):http:/xxx/api/?form_data=$value - api:(POST):http://x.x.x.x/$view/api/ - api:(PUT):http://x.x.x.x/$view/api/<id> - api:(GET):http://x.x.x.x/$view/api/<id> - api:(DELETE):http://x.x.x.x/$view/api/<id> #单数据操作 - api:(GET):http://x.x.x.x/$view/api/action/$action_name/<id> #批数据操作 - api:(POST):http://x.x.x.x/$view/api/multi_action/$action_name/ json参数为{"ids":[xx,xx,xx]}
过滤函数: Starts with:sw Not Starts with:nsw Ends with:ew Not Ends with:new Contains:ct Not Contains:nct Equal to:eq Not Equal to:neq Greater than:gt Smaller than:lt Relation:rel_o_m No Relation:nrel_o_m elation as Many:rel_m_m Filter view with a function:eqf Filter view where field is in a list returned by a function:inf #filter示例: #查询name列包含aa的记录 "filters":[ { "col": "name", "opr": "ct", "value": "aa" } ] #filter示例: #a表通过外键b_id绑定b表,查询指定b_id为1的所有a "filters":[ { "col": "b", "opr": "rel_o_m", "value": 1 } ] # 分页 "page":0, "page_size":10, # 排序 order_column: $column1 order_direction: 'desc'
定时任务代码开发:myapp/tasks/schedules.py
使用场景: 1、定时任务,比如定时删除旧的workflow,tfjob,pytorchjob,测试的任务,服务,notebook等。 定时提交定时任务的配置,监控gpu资源,以及在多项目组间进行资源调配
异步任务代码开发:myapp/tasks/async_task.py
使用场景: 1、异步任务,需要花费比较长时间完成的功能,比如灰度升级服务,构建镜像等
任务配置:config.py中CeleryConfig
代码开发:myapp/tools/watch_xx.py
使用场景:监听训练和推理workflow的状态变化,推送消息,并通过redis缓存记录任务队列
本地运行起来主要需要两个配置文件mysql-compose.yml,docker-compose.yml
1 启动本地的docker,windows可启用docker-desktop
2 运行起来mysql数据库
cd ./install/docker目录下执行 docker-compose -f .\mysql-compose.yml up
3.build前后端镜像,
前端镜像dockerfile:install/docker/dockerFrontend/Dockerfile
后端镜像dockerfile:install/docker/Dockerfile.dashboard
4.修改/install/docker/docker-compose.yml中的前后端镜像,并运行docker-compose, 就可以在浏览器中查看页面http://localhost:8888/frontend
docker-compose -f /install/docker/docker-compose.yml up
如上图所示:
kubeflow-dashboard:后端容器
kubeflow-dashboard-frontend:前端容器
kubeflow-dashboard-schedule:异步、定时等任务调度容器
kubeflow-dashboard-worker:异步、定时等任务工作容器
kubeflow-watch: crd等监视容器
mysql:数据库
redis:缓存数据库,记录异步、定时等任务队列
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。