当前位置:   article > 正文

Sagemaker基础操作指南

sagemaker

简介

Amazon SageMaker是亚马逊AWS提供的一项托管式机器学习服务,旨在简化和加速机器学习开发的整个生命周期。它为机器学习工程师和数据科学家提供了一套完整的工具和功能,用于构建、训练、调优和部署机器学习模型。本文将会通过一个简单的例子,来介绍Sagemaker的使用,并且完成一个简单的深度学习任务

创建Jupyter Notebook实例

官方例子中的代码由于调用了一些SageMaker专用的SDK,因此需要在SageMaker的JupyterNotebook实例下进行。创建的操作如下:

进入亚马逊控制台后选择Amazon SageMaker

之后选择左侧边栏的笔记本->笔记本实例

点击创建笔记本实例。

一开始新创建的笔记本实例,状态为pending,等待一段时间后,状态会变为InService。

之后选择打开Jupyter就可以进入Jupyter Notebook实例内

参考连接

亚马逊创建Jupyter notebook实例相关内容 视频链接

训练和部署

下面是亚马逊官方关于sagemaker例子的github地址

https://github.com/aws/amazon-sagemaker-examples

这里选择一个sagemake预测用户流失的例子,进行训练和部署的操作。

将git上的例子下载到本地后,对应的文件在以下目录

amazon-sagemaker-examples\introduction_to_applying_machine_learning\xgboost_customer_churn

进入JupyterNotebook实例中,点击Upload,将xgboost_customer_chun.ipynb上传到实例中。

点击这个ipynb文件,进入到实例中按步骤执行即可。

关键代码解析

例子所有的代码都在xgboost_customer_chun.ipynb文件中,例子的前半部分都是对数据进行分析和清理,就不详细讲解。直接从清理之后的部分开始

将数据分成了训练集,验证集,测试集。并且将训练集和验证集保存成train.csv,validation.csv文件

  1. train_data, validation_data, test_data = np.split(
  2. model_data.sample(frac=1, random_state=1729),
  3. [int(0.7 * len(model_data)), int(0.9 * len(model_data))],
  4. )
  5. train_data.to_csv("train.csv", header=False, index=False)
  6. validation_data.to_csv("validation.csv", header=False, index=False)

之后将这两个数据上传到s3服务器中

  1. boto3.Session().resource("s3").Bucket(bucket).Object(
  2. os.path.join(prefix, "train/train.csv")
  3. ).upload_file("train.csv")
  4. boto3.Session().resource("s3").Bucket(bucket).Object(
  5. os.path.join(prefix, "validation/validation.csv")
  6. ).upload_file("validation.csv")

然后创建xgboost的容器

  1. container = sagemaker.image_uris.retrieve("xgboost", sess.boto_region_name, "1.7-1")
  2. display(container)

然后读取之前上传的两个csv文件作为训练的输入

  1. s3_input_train = TrainingInput(
  2. s3_data="s3://{}/{}/train".format(bucket, prefix), content_type="csv"
  3. )
  4. s3_input_validation = TrainingInput(
  5. s3_data="s3://{}/{}/validation/".format(bucket, prefix), content_type="csv"
  6. )

然后设置完超参数进行训练

  1. sess = sagemaker.Session()
  2. xgb = sagemaker.estimator.Estimator(
  3. container,
  4. role,
  5. instance_count=1,
  6. instance_type="ml.m4.xlarge",
  7. output_path="s3://{}/{}/output".format(bucket, prefix),
  8. sagemaker_session=sess,
  9. )
  10. xgb.set_hyperparameters(
  11. max_depth=5,
  12. eta=0.2,
  13. gamma=4,
  14. min_child_weight=6,
  15. subsample=0.8,
  16. verbosity=0,
  17. objective="binary:logistic",
  18. num_round=100,
  19. )
  20. xgb.fit({"train": s3_input_train, "validation": s3_input_validation})

等待训练完成之后,就可以把这个预测器进行部署

  1. xgb_predictor = xgb.deploy(
  2. initial_instance_count=1, instance_type="ml.m4.xlarge", serializer=CSVSerializer()
  3. )

部署完成后就可以调用predict接口将一开始分出来的测试集进行预测

  1. def predict(data, rows=500):
  2. split_array = np.array_split(data, int(data.shape[0] / float(rows) + 1))
  3. predictions = ""
  4. for array in split_array:
  5. predictions = "".join([predictions, xgb_predictor.predict(array).decode("utf-8")])
  6. return predictions.split("\n")[:-1]
  7. predictions = predict(test_data.to_numpy()[:, 1:])

最后就是对预测的结果正确性进行对比。

pd.crosstab(index=test_data.iloc[:, 0],columns=np.round(predictions),rownames=["actual"],colnames=["predictions"],)

下面是预测后的结果,绿色方框均为预测正确结果,红色方案内为预测错误的结果。正确率为94.6%

附上官方教程,教程内显示执行后的整个输出。(里面部分代码在真实环境中可能会报错,实际还是要用放在github上的代码)

https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_applying_machine_learning/xgboost_customer_churn/xgboost_customer_churn_outputs.html

创作不易,如果觉得这篇文章对你有所帮助,可以动动小手,点个赞哈,ღ( ´・ᴗ・` )比心

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/362196
推荐阅读
相关标签
  

闽ICP备14008679号