在线问答5

这个屌丝很懒，什么也没留下！

热门标签

小红书2020校招数据分析笔试题卷四解析_如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

作者：在线问答5 | 2024-06-29 05:05:36

踩

如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

小红书2020校招数据分析笔试题卷四解析

单选题
多选题
填空题
简答题

题目来自小红书2020校招数据分析笔试题卷四

单选题

如果在小红书商城中某一商户给一产品定价，如果按照全网最低价500元定价，那么客人就一定会选择在此购买；价格每增加1元，客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为550元

题解：这里500元为成本，总利润 = 单件利润 * 成交数量

设定价为x 总利润 = (x -500) * (1 - (x - 500)/100 ) = -1/100x² +11x-3000

x = -b/2a = 550

在一次集卡活动中，有5种不同的卡片以相同的概率出现，每分享一次笔记就可以得到一张卡片，集齐所有卡片所需点赞的笔记数量的期望，与以下哪个结果最为接近？11

题解：对于一个几何分布，每次成功概率为p，期望就是1/p

首先考虑从拥有0种到拥有任意1种卡片需要抽取的卡片数量的期望，易知E0=1=5/5；

再考虑从拥有1种卡片到拥有任意2种卡片需要抽取的卡片数量的期望，此时每抽取一张卡片,有4/5的概率完成此事件，因此期望E1=5/4；

依次类推，收集5种卡片的期望是E=1+5/4+5/3+5/2+5/1≈11.42

在excel中如何将列a的字符值与列b的字符值合并为一个字符串c

题解：c=a&b

调查全公司1000名员工平均交通费用支出情况，采取不重置抽样，从其中抽取100名进行调查。根据以往调查可知总体方差s²为100，则样本均值的方差为 100/111

题解：在重置抽样时，样本均值的方差为总方差的1/n，即s² /n

在不重置抽样时，样本均值的方差为 s² /n * (N - n)/(N - 1)

100/100 * 900/999 = 100/111

已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%，则5月对比1月的增速是

题解：由环比增长速度推算定基增长速度，可先将各环比增长速度加1后连乘，再将结果减1 定基增长速度：(105.6%×107.1%×108.5%×106.4%)-100%

“鱼与熊掌不可得兼”的意思是：

要么得鱼，要么得熊掌
得熊掌就不得鱼
或者得鱼，或者得熊掌
不得熊掌就得鱼

题解：熊掌与鱼互斥（互斥时间），但并不互补（对立时间），可能还有其他东西可选

得熊掌就不得鱼

多选题

哪些是判别模型？

判别式模型：线性回归、逻辑回归、线性判别分析、支持向量机(SVM)、CART(决策树) 、神经网络(NN)、高斯过程、条件随机场(CRF)

生成式模型：朴素贝叶斯、K近邻、混合高斯模型、隐马尔科夫模型(HMM)、贝叶斯网络、马尔科夫随机场、深度信念网路

关于正态分布,下列说法正确的是以下都是

正态分布具有集中性和对称性

正态分布的均值和方差能决定正态分布的位置和形态

正态分布的峰度为3

标准正态分布的峰度和偏度都为0

标准正态分布的均值为0，方差为1

填空题

X服从区间（1,5）上的均匀分布，求对X进行3次独立观测中，至少有2次的观测值大于2的概率

题解：P(X>=2) = $ C_3^2 $ * (3/4) * (1/4) + $C_3^3$ * (3/4)³ = 27/32

抽样估计的优良标准有三个

无偏性
一致性
有效性

影响时间序列的因素有四个

长期趋势
季节变动
循环波动
不规则波动

三种常见的聚类算法

题解：1. K-means聚类

2. EM算法(期望最大化算法)

3. optics算法、dascan算法

简答题

小红书在首页上线了一个新的模块，目的是为了提升用户的浏览时长，请设计一套分析方案，衡量模块上线后对用户停留时长是否有提升？

题解：

采用假设检验的方法衡量模块上线后对用户停留时长是否有提升

假定，用户停留时长为stay_time

将用户均匀分为两组，一组为对照组，一组为实验组。对照组不上线新模块，实验组上线新模块，采集对照组和实验组用户每天的浏览时长，分别为stay_time_X0，stay_time_X1

（1）原假设：用户停留时长没有提升，即，stay_time_X0 = stay_time_X1

备择假设 ：用户停留时长提升，即，stay_time_X0 < stay_time_X1

（2）选取5%为显著性水平临界值

（3）计算最小样本量，采集数据考虑到指标的周期性，时间周期选取2周。采集实验开始前一天，两组用户的数据，是否存在明显差异，如无，继续观察前两天的数据，是否存在异常。如无异常，继续采集数据。(保证用户同分布)

（4）使用T检验，计算p值

（5）得出结论：若p值<5%，则推翻原假设，备择假设成立，新的模块能显著提升用户停留时长。反之，不能推翻原假设，不能判断新的模块是否能提升用户停留时长。

请用一句SQL取出所有用户对商品的行为特征，特征分为已购买、购买未收藏、收藏未购买、收藏且购买（输出结果如下表）

CREATE TABLE orders (
  id int(11) NOT NULL,
  user_id char(11) NOT NULL,
  item_id int(11) NOT NULL,
  pay_time date NOT NULL,
  item_num int(11) NOT NULL,
  PRIMARY KEY (id,user_id,item_id));
 
INSERT INTO orders VALUES(1,'001',201,'2018-08-31',1);
INSERT INTO orders VALUES(2,'002',203,'1987-06-26',2);
INSERT INTO orders VALUES(3,'003',203,'1996-08-03',1);
INSERT INTO orders VALUES(4,'003',203,'1997-08-03',1);
 
 
CREATE TABLE favorites (
  id int(11) NOT NULL,
  user_id char(11) NOT NULL,
  item_id int(11) NOT NULL,
  fav_time date NOT NULL,
  PRIMARY KEY (`id`,`user_id`,`item_id`));
 
INSERT INTO favorites VALUES(1,'001',201,'2018-08-31');
INSERT INTO favorites VALUES(2,'002',202,'1987-06-26');
INSERT INTO favorites VALUES(3,'003',204,'1996-08-03');

-- 目标框架
user_id  item_id  已购买  购买未收藏  收藏未购买  收藏且购买
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

select o.user_id, o.item_id,
(case when o.pay_time is not null then 1 else 0 end) as '已购买'
(case when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '已购买未收藏'
(case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '已购买且收藏'
from orders as o
left join favorites as f on o.user_id = f.user_id and o.item_id = f.item_id
union 
select f.user_id, f.iteam_id,
(case when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买'
from favorites as f
left join order as o on o.user_id = f.user_id and o.item_id = f.item_id
order by user_id,item_id
1
2
3
4
5
6
7
8
9
10
11
12

好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日，用户’小张’提交的"母婴"类目"DW"品牌的好评率（好评率=“好评”评价量/总评价量），请写出SQL/Python/其他语言查询语句:
- 用户评价详情表：a
  
  字段：id（评价id，主键）,create_time（评价创建时间，格式’2019-01-01’）,user_name(用户名称)，goods_id(商品id，外键) ，sub_time（评价提交时间，格式’2019-01-01 23:10:32’）,sat_name（好评率类型，包含：“好评”、“中评”、“差评”）
- 商品详情表：b
  字段：goods_id（商品id，主键），goods_name（商品类目）, brand_name(品牌名称)

select sum(case when sat_name = '好评' then 1 else 0 end)/ 
sum(case when sat_name is not null then 1 else 0 end) as '好评率'
from a join b on a.goods_id = b.goods_id
where a.user_name = '小张'
and b.goods_name = '母婴'
and b.brand_name = 'DW'
and a.create_time between '2019-03-01' and '2019-03-31'
1
2
3
4
5
6
7

经过一番研究后，我们开发出了商品页面上“相关商品”模块的一个新的推荐算法，并且打算通过AB Test（50%用户保留原先的算法逻辑为控制组，50%用户使用新的算法逻辑为实验组）来对新的算法效果进行评估。假设你是此次实验的数据分析师，请问你会如何评估控制组和实验组的表现？（假设需要数据都可取到）请按重要性列出最重要的三个指标并给出你的分析过程/思考。

指标：

销售总额（GMV），反映新的推荐算法是否为商家带来更高的利润。

进入相关商品页面后的付费率(转化率)，反映推荐商品是否是顾客所需要的；

相关商品的点击量，**ctr(相关商品卡片的点击/曝光)**直观的反映新的推荐算法推荐的商品是否吸引顾客；

过程：假设分析

设原假设为使用新的推荐算法后上述指标降低或不变，备择假设为使用新的推荐算法后上述指标增加

选择显著性水平临界值为5%,采集数据选择周期时间为2周，在数据采集前检查两组数据是否有明显差异，若无，继续采集数据

使用T检验，计算P值

分析结论，如果P值小于5%，那么原假设不成立，备择假设成立，即使用新算法后指标提升，反之无法推翻原假设，不能证明使用新算法后指标提升

如果我们发现，某店铺的X品类在今年3月的销量，比去年3月的销量下降了50%，如果你是负责此次分析的数据分析师，你会如何分析？请写出你的分析思路/过程/想法。

检验数据是否正确
指标拆分
销量 = 日均销量30=订单数（1-订单取消率-退货率）30；
退货率 = 退货数/订单总数，进一步分析退货原因：质量问题/恶意退货/客服服务问题；
订单取消率 = 订单取消数/订单总数，进一步分析订单取消原因，竞品性价比高/服务好/店面设计好/店铺评分高
订单数 = 咨询数（1-咨询流失率）+加入购物车*（1-购物车流失率）+直接下单咨询流失定位原因回复不及时/不准确
用户群体，老用户销量新用户销量不同渠道转化率
产品分析 ，产品是否更新，价格变动、产品周期性
市场分析，有什么活动、政策
将指标与同期进行对比，定位问题，同时关注关键指标GMV是否下降明显

某APP 7月份DAU(日活)比同年5月份上涨了10%，作为数据分析师，你会从哪些方面分析DAU增长的原因？请列举至少两种以上拆分思路。

按短期和长期因素拆分
此处DAU上升现将其拆分为长期因素和短期因素，长期因素表现在用户量的长期趋势，如一年来app的日活指标都是呈上升态，可估算5月到7月按既往趋势的DAU增长量（换算为量而非百分比），比如使用移动平均等预测手法计算；在剔除了趋势增长量的基础上，考虑短期因素，考虑在7月和5月间有无重大社会事件、商业事件，社会事件可以是某种舆论造成App的关注度提升，商业事件可考虑商业合作和商业活动（618），可以以各月的舆论热度作为对比的指标。

按内外部变化拆分
日活的变化第一是产品本身某个改动点获得认可，可以通过ABtest、用户研究等方式来检验；外部变化是市场环境，可以从市场趋势和市场竞争（交互作用）两方面来分析，市场趋势开始提倡或推动本类产品的增长（用户增长潜力），而从分割市场的角度解释市场竞争，一个固定容量的市场，一些产品倒下或增加，必将导致用户量的集中和分散，因此可考虑分析近几个月的行业舆情和竞争对手运营情况。

按时空来拆分
可以将日活细拆为地区、城市的粒度，然后进行相应的对比，分析具体的日活增长点是某一个城市、还是某些城市还是所有城市，如果是某个或某几个城市，如可以分析这些城市的渗透率的变化，是否和其他日活变化不大的城市的渗透率相差较大，则可以归结于业务推广的功劳。若所有城市日活都在上升，则可以考虑该增长与野夫分析无关，考虑其他因素，如竞品退出、市场趋势、产品改进等有关

如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库，那么怎么发挥它的作用？

App可以根据定位信息获取用户的生活区域，从而分析出用户的消费水平，推荐相应价格区间适合用户消费的商品。

App可以根据定位信息获取用户的生活以及活动习惯，例如如果用户经常出入健身房可以推荐运动器材，如果用户经常出入服装店，美容店餐厅等地可以为用户推荐服装，美容项目等。

还原用户行为轨迹，交通拥堵分析，热点区域确定，各区域停留时长，从而确定用户的行为习惯，进行更好的服务提供、及消费迎合

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/在线问答5/article/detail/768332

小红书2020校招数据分析笔试题卷四 解析_如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

小红书2020校招数据分析笔试题卷四 解析

单选题

多选题

填空题

简答题

小红书2020校招数据分析笔试题卷四解析_如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

小红书2020校招数据分析笔试题卷四解析