搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
很楠不爱3
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
软件测试|解决 Git Push 出现 “error: failed to push some refs to“错误_git error: failed to push some refs to
2
JAVA常量池和在基本数据类型包装器类及String的应用_java常量池只能引到基本类型和string
3
离线程序激活功能实现思路第二版(ts实现)_离线激活原理
4
常用的java反编译工具介绍
5
Opencv cv2 Python 安装教程_cv2包怎么安装
6
python collections 模块中 deque_from collections import deque
7
git stash pop不删除stash内容_git stash pop了,stash还存在吗
8
与 Apollo 共创生态:Apollo 7 周年大会的启示与心得
9
编译chromium 87 时用到的命令_chromium87
10
基于STM32设计的室内环境监测系统(华为云IOT)_2023_室内环境监测系统设计
当前位置:
article
> 正文
【数据分析】数据预处理—数据离散化、信息熵_数据处理 熵 寻找需要的数据
作者:很楠不爱3 | 2024-06-09 09:37:51
赞
踩
数据处理 熵 寻找需要的数据
【数据分析】数据预处理—数据
离散化
数据离散化
非监督离散化
有监督离散化
信息熵
熵与数据离散化
基于熵的离散化
数据离散化
数据离散化
连续数据过于细致,数据之间的关系难以分析
划分为离散化的区间,发现数据之间的关联,便于算法处理
同学们成绩
:100分制分数使用五分制离散化表示
A(大于等于85分),B,C,D,F(小于60分)
人的年龄
:离散化为不同的年龄段(引源自世卫组织)
未成年人:0至17岁;
青年人:18岁至45岁;
中年人:46岁至69岁;
老年人:大于70岁。
一年365天
:离散化表示为12个月份或四个季节
非监督离散化
分箱
排序数据,并将他们分到等深的箱中
按箱平均值平滑、按箱中值平滑、按箱边界平滑等
聚类:监测并且去除噪声数据
将类似的数据聚成簇
每个簇计算一个值用以将该簇的数据离散化
有监督离散化
有监督离散化—基于熵的离散化
熵用来度量系统的
不确定程度
熵是由 克劳德·艾尔伍德·香农 将热力学的熵,引入到信息论,因此它又被称为香农熵
香农提出了信息熵的概念,为信息论和数字通信奠定了基础,被誉为“信息论之父”
信息熵
信息熵:度量系统的不确定程度
信息量
定义一个事件x的概率分布为P(x)
则事件x的自信息量是-logP(x), 取值范围:[0,+∞]
信息熵
平均而言,发生一个事件我们得到的自信息量大小
即:熵可以表示为自信息量的期望
熵与数据离散化
熵与数据离散化有什么关系?——
不确定程度
数据点单词(ENTROPY)
完整
的时候,容易理解表达的意思,
确定程度较高
,对应的
信息熵也较小
。
数据点被完全打乱的时候,难以理解其意思,造成不确定性也就多了,对应的
信息熵也变大
了。
目标:对数据进行离散化后,每个区间的数据的确定性(又称“纯度”)更高,因此用熵来对数据进行离散化。
基于熵的离散化
在x轴上对数据划分
熵—计算不确定性以及不纯性
假设数据已经离散,计算离散后的某个区间 t 中的熵:
其中,p( j | t) 表示 第 j 类在区间 t 中的概率;一般对数log以2为底
计算 单个区间 的 Entropy
熵—计算不确定性以及不纯性
假设数据已经离散,计算离散后的某个区间 t 中的熵
其中,p( j | t) 表示 第 j 类在区间 t 中的概率;一般对数log以2为底
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/很楠不爱3/article/detail/693518
推荐阅读
article
python
数据分析
numpy
矩阵
与
数组
基本运算_
numpy
数组
与
矩阵
运算...
一、
numpy
矩阵
numpy
:计算模块;主要有两种数据类型:
数组
、
矩阵
特点:运算块[]+[]import
numpy
...
赞
踩
article
豆瓣
电影
评分
分析
(数据
分析
)_
电影
评分
地区能
分析
出
什么...
本文主要通过对
豆瓣
电影
影评爬取的数据进行的简要
分析
,观察得
出
各部分之间对应的关系影响。一.数据抓取我们要想进行数据
分析
,...
赞
踩
article
Python
教材(
数据分析
、
数据挖掘
与可视化
)
——第四章课后习题_
python
图表样式
的
美化
练习题
...
题目1.接收一个正整数作为参数,返回对齐进行因式分解后
的
结果列表。例如,接收参数50,返回[2,5,5]2.接收两个正整...
赞
踩
article
数据
科学导论
大
作业(
数据
分析
/
收入
预测
分析
...
参考python
数据
分析
-- 实战1(
收入
预测
分析
) - sinlearn - 博客园 (cnblogs.com)_数...
赞
踩
article
Python
大
作业
——爬虫+可视化+
数据分析
+
数据库
(
数据分析
篇)。_
python
连接
数据库
大
作业
含...
其中x是歌曲量占比的列表,labels是对应的标签(在此图中则为歌手的姓名),explode就是上文提到的突出显示,这三...
赞
踩
article
Python
"
大
"
数据分析
——《
庆
余年
》为啥这么火?...
作者 | 俊欣 来源 | AI篮球与生活年末尾上映的古装剧《
庆
余年
》可谓是赚足了眼球,号称投资了7个亿,集齐陈道明吴刚袁...
赞
踩
article
如何
使用
Python
快速上手
数据分析
_
python
数据分析
快速上手...
Python
是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。
Python
入门简单,代码可读性强,...
赞
踩
article
python
数据分析
快速入门_
python
数据分析
快速入门...
笔者建议通过学习pyecharts来进行弯道超车。_
python
数据分析
快速入门
python
数据分析
快速入门 ...
赞
踩
相关标签
numpy
数据分析
python
pandas
课程设计
人工智能
开发语言
爬虫
数据挖掘
大数据分析
庆余年
Python爬虫
学习