赞
踩
Amazon SageMaker是亚马逊AWS提供的一项托管式机器学习服务,旨在简化和加速机器学习开发的整个生命周期。它为机器学习工程师和数据科学家提供了一套完整的工具和功能,用于构建、训练、调优和部署机器学习模型。本文将会通过一个简单的例子,来介绍Sagemaker的使用,并且完成一个简单的深度学习任务
官方例子中的代码由于调用了一些SageMaker专用的SDK,因此需要在SageMaker的JupyterNotebook实例下进行。创建的操作如下:
进入亚马逊控制台后选择Amazon SageMaker
之后选择左侧边栏的笔记本->笔记本实例
点击创建笔记本实例。
一开始新创建的笔记本实例,状态为pending,等待一段时间后,状态会变为InService。
之后选择打开Jupyter就可以进入Jupyter Notebook实例内
亚马逊创建Jupyter notebook实例相关内容 视频链接
下面是亚马逊官方关于sagemaker例子的github地址
https://github.com/aws/amazon-sagemaker-examples
这里选择一个sagemake预测用户流失的例子,进行训练和部署的操作。
将git上的例子下载到本地后,对应的文件在以下目录
amazon-sagemaker-examples\introduction_to_applying_machine_learning\xgboost_customer_churn
进入JupyterNotebook实例中,点击Upload,将xgboost_customer_chun.ipynb上传到实例中。
点击这个ipynb文件,进入到实例中按步骤执行即可。
例子所有的代码都在xgboost_customer_chun.ipynb文件中,例子的前半部分都是对数据进行分析和清理,就不详细讲解。直接从清理之后的部分开始
将数据分成了训练集,验证集,测试集。并且将训练集和验证集保存成train.csv,validation.csv文件
- train_data, validation_data, test_data = np.split(
- model_data.sample(frac=1, random_state=1729),
- [int(0.7 * len(model_data)), int(0.9 * len(model_data))],
- )
- train_data.to_csv("train.csv", header=False, index=False)
- validation_data.to_csv("validation.csv", header=False, index=False)
之后将这两个数据上传到s3服务器中
- boto3.Session().resource("s3").Bucket(bucket).Object(
- os.path.join(prefix, "train/train.csv")
- ).upload_file("train.csv")
- boto3.Session().resource("s3").Bucket(bucket).Object(
- os.path.join(prefix, "validation/validation.csv")
- ).upload_file("validation.csv")
然后创建xgboost的容器
- container = sagemaker.image_uris.retrieve("xgboost", sess.boto_region_name, "1.7-1")
- display(container)
然后读取之前上传的两个csv文件作为训练的输入
- s3_input_train = TrainingInput(
- s3_data="s3://{}/{}/train".format(bucket, prefix), content_type="csv"
- )
- s3_input_validation = TrainingInput(
- s3_data="s3://{}/{}/validation/".format(bucket, prefix), content_type="csv"
- )
然后设置完超参数进行训练
- sess = sagemaker.Session()
-
- xgb = sagemaker.estimator.Estimator(
- container,
- role,
- instance_count=1,
- instance_type="ml.m4.xlarge",
- output_path="s3://{}/{}/output".format(bucket, prefix),
- sagemaker_session=sess,
- )
- xgb.set_hyperparameters(
- max_depth=5,
- eta=0.2,
- gamma=4,
- min_child_weight=6,
- subsample=0.8,
- verbosity=0,
- objective="binary:logistic",
- num_round=100,
- )
-
- xgb.fit({"train": s3_input_train, "validation": s3_input_validation})
等待训练完成之后,就可以把这个预测器进行部署
- xgb_predictor = xgb.deploy(
- initial_instance_count=1, instance_type="ml.m4.xlarge", serializer=CSVSerializer()
- )
部署完成后就可以调用predict接口将一开始分出来的测试集进行预测
- def predict(data, rows=500):
- split_array = np.array_split(data, int(data.shape[0] / float(rows) + 1))
- predictions = ""
- for array in split_array:
- predictions = "".join([predictions, xgb_predictor.predict(array).decode("utf-8")])
-
- return predictions.split("\n")[:-1]
-
-
- predictions = predict(test_data.to_numpy()[:, 1:])
最后就是对预测的结果正确性进行对比。
pd.crosstab(index=test_data.iloc[:, 0],columns=np.round(predictions),rownames=["actual"],colnames=["predictions"],)
下面是预测后的结果,绿色方框均为预测正确结果,红色方案内为预测错误的结果。正确率为94.6%
附上官方教程,教程内显示执行后的整个输出。(里面部分代码在真实环境中可能会报错,实际还是要用放在github上的代码)
创作不易,如果觉得这篇文章对你有所帮助,可以动动小手,点个赞哈,ღ( ´・ᴗ・` )比心
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。