AllinToyou

这个屌丝很懒，什么也没留下！

热门标签

【超详细】数据分析笔试题分享，可以收藏后仔细阅读_数据分析岗位笔试题目

作者：AllinToyou | 2024-03-07 08:04:29

踩

数据分析岗位笔试题目

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！

感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家分享哦。

又到了笔试题分享环节，今天的数据分析笔试题来自于迅雷网络，尽管你不打算投这家公司，也完全可以仔细做一遍题，增长一下笔试经验。

另外，对于第二大题，有想法的朋友也可以和我交流。

一、21道不定项选择题

1、以下选项不正确的是（） A,B,D
A、使用drop会释放空间
B、Truncate可以搭配where使用
C、alter…drop… 可用于除去表中字段
D、Delete会释放空间

解析：

A项，drop后的表被放在回收站(user_recyclebin)里，而不是直接删除掉。这样，回收站里的表信息就可以被恢复，或彻底清除，若要彻底删除表，则使用语句：drop table <table_name> purge；
B项D项，truncate 删除表同时释放表空间，不能加where条件，delete只是删除记录，不释放表空间；
C项，alter table [表名] drop column [列名]用于除去表中特定字段。

2、以下常用于衡量用户粘性的指标有哪些（） A,B,D
A、DAU
B、Usage Penetration
C、Revenue
D、Retention

解析：

A项，DAU，日活跃用户数量；
B项，Usage Penetration，使用行为渗透率，一段时间内使用该应用的用户百分比；
C项，Revenue，收入；
D项，Retention，用户留存。

3、一年四个季度，第二到第四个季度对于上个季度的销售额增长率分别为5%、10%、15%，请问第四个季度相对于第一季度的增长率约为（） D
A、50%
B、80%
C、30%
D、33%

解析：

$1.05 * 1.10 * 1.15 = 1.32825$

4、有两个拥有完全相同字段的表，其中一个有10行数据，另一个有5行数据，以下结论不正确的是（） A
A、使用left join连接后的表的数据一定不超过10行
B、使用left join连接后的表的数据可能为10行
C、使用left join连接后的表的数据可能超出10行
D、使用left join连接后的表的数据可能小于10行

解析：

Left Join 连接后的表的数据量可能大于小于或等于左表的数据量。
当where 条件在外，会先聚合后过滤，结果会变少；连接的判断条件也可能使左表的一行数据连接的数据超过一行，结果会变多。

5、以下算法哪些属于聚类算法（） A, B, D
A、DBSCAN
B、EM
C、KNN
D、K-means

解析：

KNN算法属于分类算法。

6、有关hive内部表和外部表与元数据之间的关系的题，具体也忘了。

7、下列有关欠采样的说法，不正确的有（） A,B
A、欠采样是通过增加少数类的数据来达到平衡的效果
B、神经网络算法对于不平衡数据并不敏感
C、欠采样可以用于平衡数据（这个我也忘记了）
D、欠采样是通过减少多数类的数据来达到平衡的效果，可能导致过拟合的情况

8、忘了题目的数据，但主要就是考察你是否认识以下指标。

LT，用户生命周期，是用户自激活开始至最后一次活跃期间的活跃天数
LTV，用户生命周期价值，是产品从用户获取到流失所得到的全部收益的总和。
ROI，投资回报率，是指通过投资而应该返回的价值，即企业从某项投资行为中得到的经济利益回报。
ARPU，计算公式为：ARPU 值=总收入 / 用户数
ARPPU，平均每付费用户收益

9、下列哪些方法可用于缺失值的处理（） A,B,C,D
A、均值填充
B、高维映射
C、建模预测
D、删除缺失数据

解析：

B项，将属性映射到高维空间，采用独热码编码（one-hot）技术。将包含K个离散取值范围的属性值扩展为K+1个属性值，若该属性值缺失，则扩展后的第K+1个属性值置为1。这种做法是最精确的做法，保留了所有的信息，也未添加任何额外信息，若预处理时把所有的变量都这样处理，会大大增加数据的维度。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值；缺点是计算量大大提升，且只有在样本量非常大的时候效果才好。

10、以下哪些方法不属于过滤式特征选择（） C
A、相关系数法
B、卡方检验
C、PCA
D、方差选择

解析：

A项，使用pearson系数作为特征评分标准，相关系数绝对值越大，相关性越强（相关系数越接近于1或-1时，相关性越强；相关系数越接近于0时，相关性越弱）。特点：皮尔森相关系数法能够衡量线性相关的特征集；
B项，使用统计量卡方检验作为特征评分标准，卡方检验值越大，相关性越强（卡方检验是评价定性自变量对定性因变量相关性的统计量）；
D项，使用方差作为特征评分标准，如果某个特征的取值差异不大，通常认为该特征对区分样本的贡献度不大，因此在构造特征过程中去掉方差小于阈值的特征。

11、问以下哪种情况可能会提高GMV（） A,B,C,D
A、商品涨价
B、商品降价
C、日活量提高
D、新用户增多

解析：

GMV指标通常称为网站成交金额，属于电商平台企业成交类指标。

12、以下哪种方法无法定义出dict类型的数据（） B
A、d = {123: ‘abc’}
B、d = {[123]: ‘abc’}
C、d = {(1,2,3): ‘abc’}
D、d = {}

解析：

python中字典的key不能是可变类型。字典可存储任意类型对象，其中值可以取任何数据类型，但键必须是不可变的，如字符串、数字或元组。
所以B项不可以，而D项也是可以的，大家不信可以自己去定义一个然后type一下。

13、以下关于原假设 $H_0$ 和备择假设 $H_1$ 的说法，不正确的是（） C,D
A、 $H_1$ 通常是支持结论
B、 $H_0$ 和 $H_1$ 是相互对立的
C、假设检验前，先确定备择假设
D、 $H_0$ 也称对立假设

解析：

A项我也没懂啥意思（如果意思 $H_1$ 是我们希望被证实的结论，那就没错），C项感觉也有歧义（按我理解应该是先确定原假设再确定备择假设）；D项错了，应该是 $H_1$ 备择假设也称对立假设。

14、一道SQL选择题，考group by 和where，简单。

15、在某座城市出现了某种流行病，且已知某座城市男女人数相同，男性患该病的概率为5%，女性为0.25%，现已知该城市的小明得了此病，请问小明为男性的概率是（） B
A、5%
B、95%
C、40%
D、60%

解析：

令人是男性为事件A，女性为事件B，患病为事件C，则 $P(A)=0.5,P(B)=0.5,P(C|A)=0.05,P(C|B)=0.0025\\P(A|C)=\frac{P(C|A)*P(A)}{P(C|A)*P(A)+P(C|B)*P(B)}=0.952$

16、ABtest可以用于以下哪些场景（），挺简单的，具体我忘了

17、某类app产品发送优惠短信给很久未使用该产品的用户，不可能出于以下哪种目的（）） B
A、留住用户
B、增长新用户量
C、提高营业额
D、忘了

18、有关arpu和arppu的计算，挺简单的，是单选题

19、x=1, y=2, z=3, 以下说法正确的是（）
A、x = (y==z+1) 结果x=1，y=2，z=3
下面三个没印象了，挺简单的
然后A是错的

20、某一电视台的播放量下降了，可能是以下哪些原因（）
选项忘了，不难

21、离散系数的计算公式是（）

解析：

离散系数的计算公式：标准差与平均数的比值称为离散系数或变异系数。
我记得题目中没有这种说法，而是方差的算法平方根与平均数的比值称为离散系数或变异系数。

二、3道客观题+1道SQL题

1、某一支付类app的会员支付金额上涨了，分析为什么？可以以某一类app为例

2、举出你熟悉的app体验不满意的地方，并作为分析师，给出分析方法。可以以某一类app为例

3、说说你对用户画像的理解。并且分析怎么利用用户画像提高利润额。可以以某一类app为例

4、是一道SQL综合题，一共有3小题，都不难，主要考察到差窗口函数和left join，以及判断数据是否只含有字母和数字（需要用到REGEXP）。

结束语

文中的答案仅为参考答案，而非标准答案，请仔细阅读后自行判断，有意见的朋友可以评论区留言讨论。

推荐关注的专栏

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/204397

【超详细】数据分析笔试题分享，可以收藏后仔细阅读_数据分析岗位笔试题目

目录

一、21道不定项选择题

二、3道客观题+1道SQL题

结束语