赞
踩
简单回忆记录2020学年秋季学期的限选课数据科学导论的期末考试题目,记忆可能有偏差,请谅解。相关内容为个人观点,不是正确答案…
个人观点:能别选这课就尽量别选了 TAT
from 韬
不知道为什么扯上了大数据,韬仍写了数据处理流程:采集、表示与存储、清洗、集成、分析、展现、决策
好像还有作用?韬记得啥就都写上了
数据探索性分析:
指对已有的数据在尽量量少的先验假定情况下进行探索,逐步了解数据的特点
数据探索性分析作用:
利用人机交互技术和数据可视化技术,通过不断揭示数据的规律和数据间的关联,引导 分析人员发现并认识以前不知道的数据模式或规律。对未知的数据模式和规律的探索是其价值所在。
探索式数据分析的基本方法:
(1)计算一些汇总统计量,了解数据的典型值,还可以通过确定异常值,了解数据的异常情况
(2)制图和指表,展示变量的分布情况、时间序列数据的变化趋势以及变量之间的关系。
相关示例可以参考(来自NoSQL的资料https://blog.csdn.net/lwt1597532486/article/details/112004608)
关系数据库的不足:大量数据的写入处理;表结构变更及建立索引;字段不固定的应用;对简单查询需要快速返回结果的处理
NoSQL数据库的优势:易于数据的分散;提升性能和增大规模;模式自由;扩展性好
NewSQL 是对各种新的可扩展/高性能数据库的简称 ,具有 NoSQL 对海量数据的存储管理能力 ,保持了传统数据库支持 ACID 和 SQL 等特性
韬主要根据关系数据库的不好和其他数据库的好扯了一些乱七八糟的…
Redis的相关信息
数据高并发的读写 ;海量数据的读写;对扩展性要求高的数据 ;支持的数据类型包括 string、list、set、zset(有序集合)和 hash ;支持 push/pop、add/remove、集合并交差等丰富的操作,而且操作都是原子的
韬不知道怎么弄索引机制好…
网上的简单明了的图解释有很多,可以自己找个喜欢的,学习都这么痛苦了尽量找个顺眼的吧
MapReduce自然连接图解
https://www.cnblogs.com/fanweisheng/p/11262303.html
下图为示意图,原题为“中国”“软件”“开发”,其他数据好像一模一样。老师应该是懒得改…
韬还以为就除一下没加log,裂开…
TF即词频(Term Frequency),每篇文档中关键词的频率(该文档单词/该文档单词总数)
IDF即逆文档频率(Inverse Document Frequency),文档总数/关键词t出现的文档数目,即I D F ( t ) = l n ( ( 1 + ∣ D ∣ ) / ∣ D t ∣ ) IDF(t)=ln((1+|D|)/|D_t|)IDF(t)=ln((1+∣D∣)/∣D_t ∣)(还有log等形式,自然对数被证明是最有效的一个公式)
TF-IDF的定义及计算
网络图片,侵删
手绘图,数据记忆中应该差不多
随机游走的简单介绍https://blog.csdn.net/qq_38842357/article/details/80872480
这个写的也挺好数导复习
实验很多很多(大概5+5吧,后来放宽了可以选做),一节2学分的课有两个老师上不同内容不同进度的课,每个老师有不同的多个实验,甚至还有难以水的公开课, 真的超值!!!
图片为网络图片或来自他人网页,附部分链接。(同时感谢翔同学辅助回忆、提供相似题目图片)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。