赞
踩
(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论)
1. 请说明随机森林较一般决策树稳定的几点原因
1)bagging的方法,多个树投票提高泛化能力
2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力
2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总
2)聚类方法主要有:
a. 层次聚类
b. 划分聚类:kmeans
c. 密度聚类
d. 网格聚类
e. 模型聚类:高斯混合模型
3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。
3. 根据要求写出SQL
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID
4. 销售数据分析
以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
表如下:一组每天某网站的销售数据
(没有表,所以略)
5. 用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
b) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样,然后灰度。
需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验。
(不知道这算不算事前实验。如果不执行行为直接分析的话,那分析行为应该是在提出改进方案前进行的)
6. 观测宇宙中单位体积内星球的个数,属于什么分布:
A 学生分布:小样本量下对正态分布的均值进行估计
B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布:多组(多次独立重复实验下的随机变量的均值)
D 二项分布:多次抛硬币的独立重复试验
把体积看成时间,那么本题符合B泊松分布。
7. 一些关于数据挖掘说法是正确的
A 数据挖掘是万能的(错)
B 如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了(错)
C 数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法(错,业务上的时间大部分在调研和沟通需求,技术上大部分时间在清洗数据)
D ABC均有错(√)
8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:
A 2,9
B 4,9
C 4,4.5(√)
D 2,4.5
9. 下面算法中哪一种不属于广义线性回归算法
A 生存模型算法(如Cox比例风险回归,属于)
B beta回归算法(属于)
C logit回归算法(属于)
D 判别分析算法(如线性判别分析LDA,不清楚是否属于)
10. 有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?
A proc sort
B proc rank
C proc univariate(√)
D proc freq
11. X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率
A 0.84375(√)
B 0.75275
C 0.65275
D 0.80370
12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是?
A 回归系数的符号与专家经验知识不符(对)
B 方差膨胀因子(VIF)<5(错,大于10认为有严重多重共线性)
C 其中两个预测变量的相关系数>=0.85(对)
D 变量重要性与专家经验严重违背(对)
13. 由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算
A 采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值(要求的是总的分布,分层抽样每层抽一样的把分布改变了)
B 采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值(√)
C 采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环(√)
D 采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环(理论上会改变样本分布,虽然很小)
14. 请找出数列4,9,23,60,157的下一项()
A 411(√)
B 314
C 425
D ABC均错
60*3-23=157,157*3-60=411
15. 以下哪个语法不是R的基础语言
A proc glot(这个是sas)
B select *from table(这个是sql)
C kc<-kmeans(data,3)(是R)
D print ”hello world”(这个是python2.7)
E sd<-summary(data)(是R)
F import(python有,R不知道有没有)
16. 分析师在工作中的良好习惯是
A 将工作空间的密码共享给别人
B 将数据下载到私人电脑进行分析处理
C 在处理资源高峰期提交大任务运算
D 不定期地将分析报告分享给团队(√)
E 定期清理存储空间
F 固化日常需要分析的数据表方便计算(√)
17.
18.
A 错,只表示没有存在线性相关性。
B 错,余弦互信息等也可以
C 对
D 对
E 错,如果A==C
F 错
19.
A 错,只需要是正态分布,不需要是标准正态分布
B 对
C 对
D 错
F 对
G 错,变大
20. 请分析淘宝消费者的流失情况
1)明确问题:某时间段淘宝消费者为什么流失(需要先定义好流失)
2)两层模型定位问题:按用户画像、时间、来源渠道等分群,计算每个群体的流失率,确定到底是哪些群体超出自然流失率了
3)分析原因:这里流失率指标不需要拆解,因此直接分析原因
a. 内部:发生流失率变化的时候是否进行了什么行为,技术、产品、运营、营销还是大的定位发生变化?细分
b. 外部:PEST等方法,政策环境、竞争对手、经济趋势、消费偏好、技术变化
21. 淘宝和天猫上每天都有大量的用户在线上购买,作为分析师可以从哪些角度对用户进行分析,说明理由
1)首先还是明确这次分析的目标:提高GMV?了解某个指标异动?了解用户消费心理?支持某次产品改版或者是运营活动?
2)所以这一题问的实际是可以从哪些维度进行分析。大的方向说,线上购买行为是 用户-商品 交互,用户这边有用户属性、行为偏好,商品方面有商品、商家、品牌等。加上淘宝平台,因此有三种角色:
a. 用户
b. 商家
c. 平台
分别思考三种角色所关心的问题,然后考虑我们的数据是否有能支持分析的信息,最后再考虑分析方法
22.
方法1:
1)第一次随机得到state,[1,4]作为0,[5,8]作为1,[9]重新来
2)第二次随机得到count,[1,5]作为count,[6,9]重新来
3)随机结果为 5*state+count
23.
select shop_id from t group by shop_id having min(month_amount) > 10000
24. 已知A商家近五年每月的成交数据,请列出两种不同的时间序列预测模型可以用来预测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法
1)自回归模型:包括AR、MA、ARMA、ARIMA模型。
a. 需要先检验数据的平稳性,如果不平稳,需要通过差分、取对数等方式先让数据平稳(ARMA、ARIM的参数调整)
2)指数平滑法:包括单指数平滑、双指数平滑、霍尔特指数平滑等
(本人对时间序列模型掌握不深,后续深入学习后再补充答案)
25. 你理解中的分析师是什么样的?你觉得自己目前应聘分析师职位的优势是什么?并说明理由。
略。
26. 异常值是指什么?请列举1种识别连续型变量异常值的方法?
1)异常值 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
2)识别连续性变量异常值的方法:
a. 拉依达准则法:认为值的分布符合正态分布,因此大于均值上下3个标准差的认为是异常值。简单可行,但由于通过观测到的标准差认为是总体标准差,因此样本不能太少
b. Grubbs test:设该样本为x1,x2,x3,…,xn,当xj服从正态分布时,计算其均值`X及标准差σ。为了检验xi ( i=1,2,…,n) 中是否存在异常值,将xi按大小顺序排列成顺序统计量x(i),即:x (1)<x (2)<…<x (n),然后计算统计量g(1)=(`X-x(1))/σ和g(n)=(x(n)-`X)/σ。对于统计量g(1) 和g(n),Crubbs导出了其统计分布,并给出了当显著度a 为0. 05或0.01时的临界值。当统计量g(1)和g(n)大于临界值时,则认为x(1)、x(n)可疑,应予以剔除
c. 该准则采用极差比的方法,可得到简化而严密的结果。设样本为x1,x2,x3,…,xn,其顺序统计量为:x (1)<x (2)<…<x (n)。 这里x (1)为最小值,x (n)为最大值,当顺序统计量x (i)服从正态分布时,Dixon给出了不同样本数量n时统计量D的计算公式。当显著水平α为0.05或0.01时,Dixon给出了其临界值D1-α(n)。如果某样本的统计量D>D1-α(n),则x(n)为异常值,如果某样本的统计量D′> D1-α(n),则x(1)为异常值,否则为正常值
d. 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法
27. 常用降维的方法
1)PCA与因子分析
2)LDA
3)流形法:LLE(局部线性嵌入)、拉普拉斯特征映射、ISOMAP
4)自动编码机抽特征
5)SVD
6)树模型抽特征
7)embedding
28. 如何评价一个评价指标的性能?
这里不太理解题意,是指评价 评价指标的性能么?比如说在某种场景下,使用AUC作为评价指标好还是F1作为评价指标好,如何定义这个好?
29. logistic的优化方法
这里理解题意为如何优化LR的效果。
1. 引入非线性(能为模型引入非线性信息;onehot还能提高LR计算能力;同时还能处理缺失值特征;还能提高对异常值的鲁棒性)
1)特征分箱+onehot
2)特征项引入n次方
2. 处理共线性特征
1)计算特征间的pearson或者互信息,将相似的特征剔除
2)GBDT+LR,用树模型构造特征,能得到组合特征信息,并避免原始特征中的共线性问题
3. 特征标准化,样本归一化
4. 去异常值
30. 某地区重男轻女,所以人们生孩子要一直生到得到一个男孩为止,现在的男女比例是1:1,那么若干年后,男女比例是多少?
1比1。
31. 有A,B,C三个门,三个门后面随机站着高矮不同的三个人,问题是,你依次打开三个门,那么在什么时刻,你说一句什么话,可以推断出最高的那个人所站在那一扇门后面的概率最大。
看不懂题意,是否说话会得到反馈,以及是否会得到正确反馈。
32. 预测一下 下个月的淘宝销售情况,你从那几个方面去分析?
1)思考:淘宝很大,如果用整体数据算的话会忽略了很多类目变化的信息;如果细分到很小的类目,那么数据波动较大,预测不准确。因此需要先确定一个细分的范围,一方面能涵盖类目的信息,一方面数据要比较稳定(如一阶差分满足正态分布等)
2)分析:
a. 从数字到数字法:直接用之前的数据,建立时间序列模型,预测下个月的淘宝销售数据,加总后得到销量
b. 分解法:由于淘宝销售会受到季节与节日的影响,因此直接从数字到数字模型的预测能力有限。分解销售数据,销量 = 流量 * 转化率(太细分了的话工作量太大),参考以往数据和下个月的实际情况(如有双十一等),对流量和转化率进行预估,加总后得到销量
33. 淘宝办了一次促销活动,从哪些方面来评价这次活动是否成功,结合支付宝来考虑了这个问题
1)明确目标:拉新?促活?提客单?
2)根据目的确定核心指标
3)效果评估:
a. 自身比较:活动前与活动中比较
b. 与预定目标比
c. 与同期其它活动比
d. 与往期同类活动比
4)持续监控:
a. 检查活动后情况,避免透支消费情况发生
b. 如果是拉新等活动,根据后续数据检验这批新客的质量
34. 柴静的穹顶之下前段时间很火,你来分析一下为什么能这么火?
1)明确问题:“火”这里有三个方面:
a. 微博上传播大
b. 媒体曝光量大
c. 线下传播与讨论多
2)分析原因(对(1)中abc三种情况分别分析,先用a举例):
传播能力 = 初始曝光能力 * 裂变能力
初始曝光能力是由于柴静自身有巨大的曝光能力,裂变能力是因为信息满足了传播者的需求。对传播者需求进行分析:
a. 内部:信息对传播者有影响(价值、震撼、鼓动等)、信息传播对传播者有利(内在想警醒别人、外在的社会形象、参与社会讨论等)
b. 外部:PEST
35. 是聊项目,主要围绕三个方面:(1)数据(2)模型(3)效果,还有在做项目过程中最大的挑战在哪里,怎么解决的。
略。
36. 以下算法对缺失值敏感的模型包括:
A、Logistic Regression (√)
B、随机森林
C、朴素贝叶斯
D、C4.5
37. 找出数列2,5,13,34,89,…的下一项:
A、233 B、144 C、267 D、ABC均错误
选A。2*3-1=5, 5*3-1=13,13*3-5=34,34*5-13=89
38. 某人卖掉了两张面值为30元的电话卡,均是30元价格成交的,其中一张赚了20%,其中一张赔了20%。问他总体是盈利还是亏损,赢/亏多少?
A、不盈不亏
B、盈利2.5元
C、亏损2.5元 (√)
D、盈利2元
39. 以下场景中,对应使用的挖掘算法不合适的是:
A、用关联规则算法分析购买了羽毛球的买家,是否适合推荐羽毛球鞋 (对)
B、根据用户最近几年的消费金额数据,用主成分分析法你何处用户未来一个月可能的消费金额公式 (错,PCA用于降维)
C、根据用户最近一年的购物日志数据,用K-means算法聚类出淘宝卖家中的高富帅和白富美 (对)
D、根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男是女(对)
40. 投掷均匀正六面体骰子的熵是:
A 1bit
B 2.6bit(√)
C 3.2bit
D 3.6bit
H = -(6 * (1/6 * log(1/6) ) = 2.6
41. 某调查公司接受委托满意度调查,满意分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均的置信区间,结果是:
A、9~15分
B、11~13分
C、12~14分
D、6~18分
95%置信区间是上下2个标准差,99%置信区间是上下3个标准差。
42. 市场部选择部分用户来进行产品A的短信推广,获取了用户在时间窗口内是否购买了A产品的数据。数据挖掘同学通过这些已知的是否购买数据,用来判断其他用户的购买倾向,这在数据挖掘中属于什么任务?
A、聚类
B、预测 (√)
C、探索性分析
D、关联规则
43. 如何将一个EXCEL文件单元格C2中的手机号13501245678的第四位至第七位隐藏为*
A、=replace(C2,4,4,**)
B、=replace(C2,4,4,”**“) (√)
C、=replace(C2,4,7,”**“)
D、=replace(C2,4,7,**)
44. 逻辑回归中回归参数可以用以下哪些方法求解?
A、最小二乘法 (√)
B、牛顿迭代法
C、蒙特卡洛法
D、似然估计法(√)
45. 微软的EXCEL软件是强大的数据分析工具,以入门简单、扩展功能强大、可视化丰富著称,其中EXCEL图表是数据分析师最常用的用于展现分析结果的工具,EXCEL图表选择描述正确的有:
A 折线图用来展现数据随着时间推移而发生变化,并可以预测未来的发展趋势 (√)
B 散点图用来说明同一类别的数个事物中各项的组成比重,或者某一事物随着时间推移其各个组成的比重变化 (×)
C、饼图主要用来分析内部各个组成部分的占总体的比重,反映对总体的影响(√)
D、雷达图主要是对同类别的二组事物在多种项目上的对比(√)
46. 印象最深刻的项目,说说为什么
略。
47. 考察SQL语句:
有一张交易表A(trade_no为主键),一张交易异常表B(trade_no为主键),
1)计算交易表A中的交易总数
2)通过关联表的方式实现A表中去除B表异常交易(保留A中的字段即可):select * from A where trade_no not in (select trade_no from B)
48. 某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几方面进行分析
1)确定大促的目的:拉新?促活?清库存?
2)根据目的确定核心指标
3)效果评估:
a. 自身比较:活动前与活动中比较
b. 与预定目标比
c. 与同期其它活动比
d. 与往期同类活动比
4)持续监控:
a. 检查活动后情况,避免透支消费情况发生
b. 如果是拉新等活动,根据后续数据检验这批新客的质量
49. 世界上每十万人中就有一人是艾滋病患者。某一种药物可以帮助检测艾滋病,如果一人真是艾滋病,可以百分百检测出来,而如果一个人没有艾滋病,它的检测出错的概率是1%。请问利用这种检测药物,监测正确的概率有多高?
全概率问题,设艾滋患病为A,无患病为B;检测结果艾滋为a,非艾滋为b,那么 P(a|A)=1, P(a|B)=0.01。
检测正确的概率为 P(a|A)*P(A)+P(b|B)*P(B)。
50. 阅卷官明天要去爬山,希望正在答卷的你帮他准备个包,里面放一些必须的物品,请详述一下你会如何处理
1)明确问题:爬山的目的是什么,场景是什么(为什么要爬山,和谁去,去哪座山,开始与持续时间等)
2)需求分解
3)需求对应的物品
4)检查物品是否可以放进包里,不行的话,评估需求优先级
5)完成后故事板检验,确定每个环节都ok
(怎么感觉这是产品经理的题目)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。