赞
踩
本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展
曾经在15、16年那会儿使用Spark做机器学习,那时候pyspark并不成熟,做特征工程主要还是写scala。后来进入阿里工作,特征处理基本上使用PAI 可视化特征工程组件+ODPS SQL,复杂的话才会自己写python处理。最近重新学习了下pyspark,笔记下如何使用pyspark做特征工程。
我们使用movielens的数据进行,oneHotEncoder、multiHotEncoder和Numerical features的特征处理。
from pyspark import SparkConf from pyspark.ml import Pipeline from pyspark.ml.feature import OneHotEncoder, StringIndexer, QuantileDiscretizer, MinMaxScaler from pyspark.ml.linalg import VectorUDT, Vectors from pyspark.sql import SparkSession from pyspark.sql.functions import * from pyspark.sql.types import * from pyspark.sql import functions as F if __name__ == '__main__': conf = SparkConf().setAppName('featureEngineering').setMaster('local') spark = SparkSession.builder.config(conf=conf).getOrCreate() file_path = 'file:///资源文件夹路径' movieResourcesPath = file_path + "/webroot/sampledata/movies.csv" movieSamples = spark.read.format('csv').option('header', 'true').load(movieResourcesPath) print("Raw Movie Samples:") movieSamples.show(10) movieSamples.printSchema() print("OneHotEncoder Example:") oneHotEncoderExample(movieSamples) print("MultiHotEncoder Example:") multiHotEncoderExample(movieSamples)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。