赞
踩
目录
240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值。
列名 | 说明 |
---|---|
Date | 日期 |
Time | 时间 |
Globalactivepower | 该家庭所消耗的总有功功率(千瓦) |
Globalreactivepower | 该家庭消耗的总无功功率(千瓦) |
Voltage | 向家庭输送电力的电压(伏特) |
Global_intensity | 输送到家庭的平均电流强度(安培) |
Submetering1 | 厨房消耗的有功功率(千瓦) |
Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
Submetering3 | 电热水器和空调所消耗的有功功率(千瓦) |
导入数据集并读取头部
- import numpy as np
- import pandas as pd
- import matplotlib.pyplot as plt
- data_path = "./household_power_consumption.csv"
- df = pd.read_csv(data_path,index_col='index')
- df.head()
面向特定客户时可将列名替换为中文
- # # 将列名替换为中文
- # df.rename(columns={
- # 'Date': '日期',
- # 'Time': '时间',
- # 'Global_active_power': '有功功率',
- # 'Global_reactive_power': '无功功率',
- # 'Voltage': '电压',
- # 'Global_intensity': '电流',
- # 'Sub_metering_1': '厨房的有功功率',
- # 'Sub_metering_2': '洗衣房的有功功率',
- # 'Sub_metering_3': '电热水器和空调的有功功率',
- # },inplace=1)
- # # 再次预览前5行数据
- # df.head()
对DataFrame 中的数值列进行统计
df.describe()
查看DataFrame中各列的数据类型
df.dtypes
转换数据格式
- from tqdm.auto import tqdm
- from ipywidgets import HBox, FloatProgress, HTML
- # 将'Date'列转换为日期时间格式
- df['Date']=pd.DatetimeIndex(df['Date'])
- # 定义需要转换为数字的列
- make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
- # 定义一个函数,将字符串转换为浮点数,如果转换失败则返回0
- def floating(string):
- try:
- return float(string)
- except:
- return float(0)
- # 遍历需要转换为数字的列
- for column in tqdm(make_em_num):
- # 将列中的每个元素应用floating函数,转换为浮点数
- df[column] = df[column].apply(lambda item: floating(item))
- # 创建一个水平布局,包含一个浮点进度条和一个HTML元素
- HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
查看转换效果,转换后的数据类型
df.dtypes
查看转换效果,转换后的数据头部
df.head()
绘制相关系数热力图。使用Seaborn库中的heatmap函数来绘制一个热力图,展示数据框df中各列之间的相关性
- import seaborn as sns
- sns.heatmap(df.drop(['Date','Time'], axis=1).corr(), annot=True)
https://github.com/facebook/prophet
Prophet是一种基于可加性模型预测时间序列数据的程序,其中非线性趋势可以按年度、每周和每日的季节性,以及假日效应进行拟合。它最适合于具有强烈季节效应的时间序列和有几个季节的历史数据。Prophet对于缺失的数据和趋势的变化是稳健的,并且通常能够很好地处理异常值。
获取DataFrame的形状
- from prophet import Prophet
- df.shape
通过 Prophet 对有功功率和电压进行预测
- # 从数据框中随机抽取10000行
- df=df.sample(n=10000)
- # 定义一个函数,用于使用Prophet模型进行预测
- def prophet_forecaster(data, x, y, period=100):
- # 创建一个新的数据框,包含日期和目标变量
- new_df = pd.DataFrame(columns=['ds', 'y'])
- new_df['ds']= data[x]
- new_df['y'] = data[y]
- # 创建一个Prophet模型
- model = Prophet()
- # 使用新的数据框进行模型训练
- model.fit(new_df)
- # 创建未来日期的数据框
- future_dates = model.make_future_dataframe(periods=period)
- # 使用模型进行预测
- forecast = model.predict(future_dates)
- # 绘制预测结果
- model.plot(forecast)
- # 设置图表标题
- plt.title(f"Forecasting on the next {period} days for {y}")
- # 使用Prophet模型对Global_active_power进行预测
- prophet_forecaster(df, x='Date', y='Global_active_power', period=180)
- # 使用Prophet模型对Global_reactive_power进行预测
- prophet_forecaster(df, x='Date', y='Global_reactive_power', period=180)
- # 使用Prophet模型对Voltage进行预测
- prophet_forecaster(df, x='Date', y='Voltage', period=180)
- # 使用Prophet模型对Global_intensity进行预测
- prophet_forecaster(df, x='Date', y='Global_intensity', period=180)
未来半年有功功率预测结果:
未来半年无功功率预测结果
未来半年电压预测结果:
未来半年电流预测结果
g(t) 表示趋势函数,能够拟合非周期性变化;
s(s)表示周期性变化,例如每周,每年,每季节等;
h(t)表示假期变化,节假日通常为一天或多天;
ϵt为噪声项,表示随机无法预测的波动,通常假设ϵt是高斯的。
趋势中有两个增长函数,分别是分段线性函数(linear)和非线性逻辑回归函数(logistic)。通过从数据中选择变化点,Prophet自动探测趋势变化;
使用傅里叶级数建模每年的季节分量;
使用虚变量代表过去,将来的相同节假日,属于节假日就为1,不属于就是0;
用户提供的重要节假日列表
Modeling:建立时间序列模型。分析师根据预测问题的背景选择一个合适的模型。
Forecast Evaluation:模型评估。根据模型对历史数据进行仿真,在模型的参数不确定的情况下,我们可以进行多种尝试,并根 据对应的仿真效果评估哪种模型更适合。
Surface Problems:呈现问题。如果尝试了多种参数后,模型的整体表现依然不理想,这个时候可以将误差较大的潜在原因呈现给分析师。
Visually Inspect Forecasts:以可视化的方式反馈整个预测结果。当问题反馈给分析师后,分析师考虑是否进一步调整和构建模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。