赞
踩
此贴仅做课程作业使用!!!按自己的理解对上课内容进行总结
分类问题与预测问题的区别
图像分类问题:当前输入->当前输出
时间序列预测问题:当前+过去输入->当前输出
在预测的过程中保留一些对过去的观察总结,并且同时更新预测
与总结
,构成序列模型。
(1)特征编码
特征编码是将原始数据转换成机器学习算法可以处理的特征表示形式的过程。在特征编码中,原始数据的各种属性或特征被映射到数值化的形式,以便机器学习算法能够对其进行有效的处理和分析。常见的编码方式有:
独热编码:将分类变量转换为二进制向量的形式,其中每个可能的类别对应一个二进制位,只有属于某个类别的位被设置为1,其余位被设置为0。
标签编码:将分类变量转换为从0到N-1的整数形式,其中N是类别的数量。这种编码适用于某些机器学习算法,如决策树和随机森林。
(2)文本处理
文本处理是对文本数据进行预处理、分析、理解和转换的过程。它是自然语言处理(NLP)的一个重要组成部分,涉及到从原始文本中提取信息、进行文本挖掘、文本分类、文本生成等各种任务。常见的处理方式有:
按字母处理:
按单词处理:
一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将解析文本的常见预处理步骤。 这些步骤通常包括:
词嵌入是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。将词映射为向量比较直接的想法是使用独热向量:
但是这样的编码维数过高,因此可以将独热向量映射为低维向量:
原始向量:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。