赞
踩
数据对象是数据库的核心组成部分,代表着各种实体。可以把数据对象视作一个实体的属性集合。例如,销售数据对象可以表示客户、销售记录或购买详情。当这些数据对象在数据库中被组织和列出时,我们称之为数据元组。
可以这样定义,用于描述给定对象的一组属性称为属性向量或特征向量。数据属性的示例包括数值(例如,年龄、身高)、分类标签(例如,颜色、类型)、文本描述(例如,名称、描述)或数据对象的任何其他可测量或定性方面。
数据预处理的初始阶段,涉及将属性分类为不同类型,为后续数据处理步骤奠定基础。属性大致可以分为两种主要类型:
数据类型 | 子类型 | 细分 |
---|---|---|
定性数据 | 名义数据 | |
有序数据 | ||
二元数据 | 对称 | |
非对称 | ||
定量数据 | 数值数据 | |
离散数据 | ||
连续数据 |
与名称相关的名义属性是指分类数据,其值代表不同的类别或标签,但这些类别之间没有固有的顺序或排名。这些属性通常用于表示与对象、实体或概念相关的名称或标签。
属性 | 值 |
---|---|
颜色 | 黑色、棕色、白色 |
分类数据 | 讲师、教授、副教授 |
二元属性是一种定性属性,其中数据只能呈现两个不同的值或状态。这些属性通常用于表示数据集中是/否、存在/不存在或真/假条件。它们对于表示只有两种可能结果的分类数据特别有用。例如,在医学研究中,二元属性可以表示患者是否受到特定状况的影响。
属性 | 值 |
---|---|
性别 | 男性,女性 |
属性 | 值 |
---|---|
是否检测到癌症 | 是,否 |
结果 | 通过,未通过 |
属性 | 值 |
---|---|
等级 | A, B, C, D, E, F |
基本薪资等级 | 16, 17, 18 |
数值属性是定量的,因为它是一个可测量的量,以整数或实际值表示。数值属性有 2 种类型:间隔属性和比率缩放属性。
离散数据是指可以采用特定、独立值的信息,而不是连续的范围。这些值通常是不同的,彼此独立,它们本质上可以是数字型,也可以是分类型。
属性 | 值 |
---|---|
ZIP 代码 | 301701,110040 |
与离散数据不同,连续数据可以在给定范围内呈现无限数量的可能值。它的特点是能够在指定的间隔内假设任何值,通常包括小数或小数值。
属性 | 值 |
---|---|
高度 | 5,4,6.2, …etc |
重量 | 50, 33…etc |
标属性,也称为目标变量或响应变量,是数据集中的特定属性或列,表示监督学习问题中的结果或预测目标。在监督学习中,目标通常是根据其他属性的值(称为预测变量或特征)预测或建模目标属性的值。
例如,在房价数据集中,目标属性可能是房屋的销售价格,而预测变量可能包括卧室数量、平方英尺和位置等属性。目标属性是模型旨在根据输入特征预测或估计的内容。
属性的数据类型是指描述它们在数据集中可以采用的值的性质的类别,包括定性类型(如名义和顺序)和定量类型(如离散和连续)。
名义属性表示没有任何固有顺序或排名的类别,而序数属性在值之间具有有意义的序列或排名,但值之间的大小并不精确已知。
离散属性表示可计数值或整数,而连续属性可以采用范围内的任何值,并且通常与测量值相关联。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。