ML.NET 是 Microsoft 开源的针对 .NET 应用程序的 跨平台机器学习库,允许您使用 C#、F# 或任何其他 .NET 语言执行机器学习任务。此外,ML.NET 支持在其他机器学习框架中构建的模型,如TensorFlow,ONNX,PyTorch 等,它也具有极高的性能,可用于各种机器学习任务。
对于那些还没有深厚的数据科学技能和各种机器学习算法知识的人来说,ML.NET 还提供AutoML,Auto ML 是 ML.NET 的子集,它抽象出选择机器学习算法、为这些算法调整超参数以及相互比较算法以确定最佳性能的过程。这有助于刚接触数据科学的人找到一个表现良好的模型,而不需要更大的数据科学技能。
所有这些因素结合在一起,使 ML.NET 成为一种非常有效的方式,可以使用您已经拥有的应用程序和您已经知道的技能来处理机器学习任务。
对于支持 .NET Standard 的任何项目,都可以通过 Visual Studio 中的 NuGet Package Manager 安装 ML.NET(几乎所有 .NET 项目都可以执行此操作)。如果要向项目添加 ML.NET,请转到 NuGet 包管理器并安装最新版本的 。我还建议您安装Microsoft.ML和
,因为AutoML是开始使用 ML.NET 的好方法。有关使用 NuGet 包管理器的更多详细信息,请参阅 Microsoft 的 NuGet 包管理器文档
首先,我将重点介绍使用 AutoML 支持的 ML.NET 五个机器学习任务。由于它们支持AutoML,因此这些任务更容易入门,因此我将为每种类型的任务提供一些代码。我建议最好查看Microsoft关于 ML.NET 的文档以获取更多详细信息,或者在GitHub上查看他们的 ML.NET 示例。
使用 AutoML 运行二元分类试验的代码可能如下所示:
- public ITransformer PerformBinaryClassification(IDataView trainingData, IDataView validationData)
- {
- // Set up the experiment
- MLContext context = new MLContext();
- uint maxSeconds = 10;
- BinaryClassificationExperiment experiment = context.Auto().CreateBinaryClassificationExperiment(maxSeconds);
- // Run the experiment and wait synchronously for it to complete
- ExperimentResult<BinaryClassificationMetrics> result =
- experiment.Execute(trainingData, validationData, labelColumnName: "ShouldApproveLoan");
- // result.BestRun.ValidationMetrics has properties helpful for evaluating model performance
- double accuracy = result.BestRun.ValidationMetrics.Accuracy;
- double f1Score = result.BestRun.ValidationMetrics.F1Score;
- string confusionTable = result.BestRun.ValidationMetrics.ConfusionMatrix.GetFormattedConfusionTable();
- // Return the best performing trained model
- ITransformer bestModel = result.BestRun.Model;
- return bestModel;
- }
- public LoanPrediction PredictBinaryClassification(ITransformer bestModel, IDataView trainingData, LoanData loan)
- {
- MLContext context = new MLContext();
- // Create an engine capable of evaluating one or more loans in the future
- PredictionEngine<LoanData, LoanPrediction> engine =
- context.Model.CreatePredictionEngine<LoanData, LoanPrediction>(bestModel, trainingData.Schema);
- // Actually make the prediction and return the findings
- LoanPrediction prediction = engine.Predict(loan);
- return prediction;
- }
此处 LoanData 和LoanPrediction 分别表示数据集中的行和算法的最终预测的类。
用于使用 AutoML 训练多类分类实验的代码可能如下所示:
- public ITransformer PerformMultiClassification(IDataView trainingData, IDataView validationData)
- {
- // Set up the experiment
- MLContext context = new MLContext();
- uint maxSeconds = 10;
- MulticlassClassificationExperiment experiment = context.Auto().CreateMulticlassClassificationExperiment(maxSeconds);
- // Run the experiment and wait synchronously for it to complete
- ExperimentResult<MulticlassClassificationMetrics> result =
- experiment.Execute(trainingData, validationData, labelColumnName: "RiskCategory");
- // result.BestRun.ValidationMetrics has properties helpful for evaluating model performance
- string confusionTable = result.BestRun.ValidationMetrics.ConfusionMatrix.GetFormattedConfusionTable();
- // Return the best performing trained model
- ITransformer bestModel = result.BestRun.Model;
- return bestModel;
- }
除此之外,使用经过训练的多分类模型的代码与使用二元分类模型的代码非常相似。与二元分类模型一样,可以在不使用 AutoML 的情况下使用多类别分类模型。
- public ITransformer PerformRegression(IDataView trainingData, IDataView validationData)
- {
- // Set up the experiment
- MLContext context = new MLContext();
- uint maxSeconds = 10;
- RegressionExperiment experiment = context.Auto().CreateRegressionExperiment(maxSeconds);
- // Run the experiment and wait synchronously for it to complete
- ExperimentResult<RegressionMetrics> result =
- experiment.Execute(trainingData, validationData, labelColumnName: "Temperature");
- // result.BestRun.ValidationMetrics has properties helpful for evaluating model performance
- double error = result.BestRun.ValidationMetrics.MeanAbsoluteError;
- // Return the best performing trained model
- ITransformer bestModel = result.BestRun.Model;
- return bestModel;
- }
与这两种分类模型类型一样,在训练回归模型时也可以不需要使用 AutoML,但如果对各个算法的了解有限,则可能会很有帮助。
AutoML 支持推荐,推荐代码与回归代码非常相似:
- public ITransformer PerformRecommendation(IDataView trainingData, IDataView validationData)
- {
- // Set up the experiment
- MLContext context = new MLContext();
- uint maxSeconds = 10;
- RecommendationExperiment experiment = context.Auto().CreateRecommendationExperiment(maxSeconds);
- // Run the experiment and wait synchronously for it to complete
- ExperimentResult<RegressionMetrics> result =
- experiment.Execute(trainingData, validationData, labelColumnName: "Rating");
- // result.BestRun.ValidationMetrics has properties helpful for evaluating model performance
- double error = result.BestRun.ValidationMetrics.MeanAbsoluteError;
- // Return the best performing trained model
- ITransformer bestModel = result.BestRun.Model;
- return bestModel;
- }
推荐算法使用矩阵分解,这是一个更复杂的主题。有关不使用 AutoML 的推荐系统的更多详细信息,请参阅 Microsoft 的矩阵分解教程。还有一篇来自Rubik's Code的精彩文章,进一步深入探讨了这个话题。
- public ITransformer PerformRanking(IDataView trainingData, IDataView validationData)
- {
- // Set up the experiment
- MLContext context = new MLContext();
- uint maxSeconds = 10;
- RankingExperiment experiment = context.Auto().CreateRankingExperiment(maxSeconds);
- // Run the experiment and wait synchronously for it to complete
- ExperimentResult<RankingMetrics> result =
- experiment.Execute(trainingData, validationData, labelColumnName: "Temperature");
- // result.BestRun.ValidationMetrics has properties helpful for evaluating model performance
- IEnumerable<double> gains = result.BestRun.ValidationMetrics.DiscountedCumulativeGains;
- IEnumerable<double> normalizedGains = result.BestRun.ValidationMetrics.NormalizedDiscountedCumulativeGains;
- // Return the best performing trained model
- ITransformer bestModel = result.BestRun.Model;
- RankingEvaluatorOptions options = new RankingEvaluatorOptions();
- RankingMetrics metrics = context.Ranking.Evaluate(trainingData, labelColumnName: "Label", rowGroupColumnName: "Group", scoreColumnName: "Score");
- return bestModel;
- }
接下来让我们简要介绍一下 AutoML 当前不支持的五个机器学习任务。
聚类分析通常通过选择任意数量的聚类并允许机器学习遵循 K-Means 聚类算法来优化每个聚类的中心位置,以最小化从每个数据点到其聚类中心的总距离。聚类算法还倾向于在可能的情况下尝试将聚类彼此隔开。
图像分类类似于二元或多类分类,但不是处理数字特征,而是处理图像以确定给定图像中的特征。与分类问题一样,您必须为 ML.NET 提供各种不同大小、照明和排列方式的标记图像,这些图像具有您尝试检测的事物,以便对图像进行可靠的分类。
对象检测是 Azure 认知服务的一部分,当前它只能通过模型生成器在 ML.NET 中使用。
简而言之,ML.NET 的 Auto ML 功能是一种令人惊叹的完全免费的方式,可帮助日常程序员利用您通常需要数据科学家才能获得的功能。ML .NET 允许你和你的团队使用你已经熟悉的语言将机器学习功能集成到你的应用程序中,而无需深入了解各种机器学习算法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。