赞
踩
2.1.2 数据采集技术的功能及特点
数据采集技术是指通过各种手段和工具,从各种数据源中采集、提取和处理数据的过程。数据采集技术的主要功能包括:
上一章介绍了课题研究中所涉及的相关技术,包括数据采集技术、数据预处理技术、数据存储技术、数据分析技术、预测或决策及其分析技术等。本章介绍了如何使用Python爬虫技术进行数据采集并如何对数据进行预处理、存储。
3.1 数据采集的规划
3.1.1 构建价值数据模型
数据采集的规划构建价值数据模型是数据分析的关键步骤之一。该步骤包括确定价值数据模型的各个组成部分,以及构建数据采集规划以实现所需的数据采集。下面是数据采集规划的构建价值数据模型的步骤:
1.确定价值数据模型的目标:确定价值数据模型的目标,即需要分析的业务问题和数据需求,例如,需要分析新冠病毒疫情在不同地区的传播趋势,需要收集每日新增病例、治愈病例、死亡病例等数据。
2.确定数据源:确定数据采集的来源,例如,新冠病毒疫情的数据可以从政府公开数据、新闻报道、社交媒体等不同渠道获取。
3.确定数据采集方式:根据数据源和数据需求,确定采集数据的方式。例如,可以使用网络爬虫从政府公开数据网站上爬取疫情数据,也可以从新闻报道和社交媒体上获取数据。
4.数据采集规划的制定:制定数据采集规划,包括确定采集的时间、频率和采集数据的格式等细节。例如,每天晚上定时从政府公开数据网站上爬取最新疫情数据,将数据存储为CSV格式。
5.数据采集实施:按照制定好的数据采集规划进行数据采集,并将数据存储在数据库中。
6.数据清洗与处理:对采集到的数据进行清洗和处理,包括去除重复数据、填补缺失值、处理异常值等。
7.构建价值数据模型:根据业务问题和数据需求,构建价值数据模型,包括定义变量、建立模型、选择算法等。
通过以上步骤,可以构建出适用于疫情数据的价值数据模型,并得出有用的分析结果。
3.1.2 源数据分析
源数据分析是指对原始数据进行深入探索和理解的过程,旨在发现数据的特征、结构、关系以及潜在的模式和趋势。通过源数据分析,我们可以获取对数据的初步认识,为后续的数据处理和分析提供基础。
源数据分析的主要步骤如下:
3.2.3 异常值处理
异常值是指数据集中存在的不合理值,它的观察值远远超出了样本历史的整体模式。与错误值不同,异常值是偏离正常范围的值[25]。一般情况下,总体均值呈现正态分布,大部分数据聚集在一个较小的范围内,研究的目标是适合于大多数样本的规律。因此,异常值通常不是研究的对象,但如果不对其进行处理,可能会导致结果产生偏差。所以需要对异常值进行处理。异常值是指在数据集中与其他观测值相比明显不同的数据点,可能是数据采集或处理过程中的误差、噪声或者真实的异常数据。异常值会对数据分析和建模产生很大影响,因此需要进行处理。所使用的异常值处理方法包括:
删除异常值:直接将异常值删除掉。但是需要注意,如果异常值占比较大,则可能导致样本数量减少过多,影响模型的精度。
1.替换异常值:使用其他数值替换异常值,比如用中位数或者平均值替换。
2.插值法:根据相邻数据点的值对异常值进行插值处理,比如线性插值、多项式插值等。
3.离群点检测算法:使用聚类、回归或统计学方法检测异常值,并进行处理。
在数据预处理过程中,应根据实际情况选择合适的异常值处理方法,以保证数据的准确性和可靠性。
3.2.4 重复值处理
重复数据在Python数据分析中经常出现。如果不进行处理,可能会导致数据分析和建模结果的误差,甚至会影响整个分析过程。因此,在进行数据分析时,必须对重复数据进行处理。具体处理方法因实际情况和需求而异。
数据预处理中的重复值处理指的是在数据集中去除完全相同的重复行或列的过程。重复值可能会对数据分析产生负面影响,例如引入不必要的噪音,降低分析的准确性。因此,数据预处理中需要进行重复值处理。
处理重复值的方法通常有两种:删除重复值和替换重复值。删除重复值是指从数据集中删除完全相同的行或列,而替换重复值则是用其他值来代替重复值。
首先通过pandas库中的read_csv函数导入数据,并将其存储在data变量中。接着,使用drop_duplicates函数删除完全相同的行或列,并通过inplace参数使操作直接在原数据集上进行。另外,通过replace函数替换指定列中的重复值,to_replace参数中可以指定需要替换的值和其对应的替换值。
3.2.5 数据规约
本文疫情数据量庞大,采取到有用并具有代表性的数据极为重要,数据归约在尽可能保持数据原貌的前提下,最大限度地精简数据量,使数据更加直观,简洁。达到使用更少的数据,提高挖掘效率。避免数值过大,部分数据显示不完全的问题,使数据进行可视化之后的图表更加美观。
3.3数据存储
数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。本文通过python数据采集所采集到的数据对其进行存储,从保存好的本地文件存储到csv,选择导入,数据就会存储到CSV文件之中。数据存储是数据分析的基础,是实现数据分析和挖掘的前提。本章将详细介绍如何将获取的数据存储到csv文件中。
首先,需要使用Python编程语言来完成数据存储的任务。Python提供了csv模块来处理csv文件,使得存储数据变得简单而高效。
在数据存储之前,需要先将获取的数据转换为DataFrame类型。DataFrame是Pandas库中一个强大的数据结构,可以将数据存储为表格形式。可以使用Pandas库中的read_csv函数来读取csv文件,使用to_csv函数来将数据存储为csv文件。
3.4本章小结
本章介绍了数据采集和存储的基础知识和技术。首先讲解了数据采集的概念、流程和方法,还介绍了数据存储的重要性和不同类型的数据存储方式,并以实际案例演示了如何将采集到的数据存储为CSV文件。
第4章 数据分析
上一章主要对数据进行了数据的采集、预处理并存储。本章利用价值数据模型计算,通过描述性分析、预测性分析了解数据的相关信息,最后得到了价值数据模型数据结论。
4.2价值数据模型数据计算
在数据分析中,价值数据模型是指利用数据分析方法对企业或个人的价值体系进行建模和分析,帮助他们更好地理解自身的业务模式和商业价值。在本章中,将运用价值数据模型对新型冠状病毒肺炎疫情数据进行分析和计算。
首先,需要定义价值指标。在本次研究中,以疫情对经济和社会的影响作为价值指标,具体包括以下方面:
4.3价值数据模型数据结论
根据本章的数据分析结果,得出以下结论:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。