当前位置:   article > 正文

小红书2020校招数据分析笔试题卷四 解析_如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人

小红书2020校招数据分析笔试题卷四 解析

题目来自小红书2020校招数据分析笔试题卷四

单选题

  1. 如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为550

​ 题解:这里500元为成本,总利润 = 单件利润 * 成交数量

​ 设 定价为x 总利润 = (x -500) * (1 - (x - 500)/100 ) = -1/100x2 +11x-3000

x = -b/2a = 550

  1. 在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?11

​ 题解:对于一个几何分布,每次成功概率为p期望就是1/p

​ 首先考虑从拥有0种到拥有任意1种卡片需要抽取的卡片数量的期望,易知E0=1=5/5;

​ 再考虑从拥有1种卡片到拥有任意2种卡片需要抽取的卡片数量的期望,此时每抽取一张卡片,有4/5的概率完成此事件,因此期望E1=5/4;

​ 依次类推,收集5种卡片的期望是E=1+5/4+5/3+5/2+5/1≈11.42

  1. excel中如何将列a的字符值列b的字符值合并为一个字符串c

​ 题解:c=a&b

  1. 调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 100/111

​ 题解:在重置抽样时,样本均值的方差为总方差的1/n,即s2 /n

​ 在不重置抽样时,样本均值的方差为 s2 /n * (N - n)/(N - 1)

​ 100/100 * 900/999 = 100/111

  1. 已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是

​ 题解:由环比增长速度推算定基增长速度,可先将各环比增长速度加1后连乘,再将结果减1 定基增长速度:(105.6%×107.1%×108.5%×106.4%)-100%

  1. “鱼与熊掌不可得兼”的意思是:
  • 要么得鱼,要么得熊掌
  • 得熊掌就不得鱼
  • 或者得鱼,或者得熊掌
  • 不得熊掌就得鱼

题解:熊掌与鱼互斥(互斥时间),但并不互补(对立时间),可能还有其他东西可选

​ 得熊掌就不得鱼

多选题

  1. 哪些是判别模型?

判别式模型:线性回归、逻辑回归、线性判别分析、支持向量机(SVM)、CART(决策树) 、神经网络(NN)、高斯过程、条件随机场(CRF)

生成式模型:朴素贝叶斯、K近邻、混合高斯模型、隐马尔科夫模型(HMM)、贝叶斯网络、马尔科夫随机场、深度信念网路

  1. 关于正态分布,下列说法正确的是 以下都是

​ 正态分布具有集中性和对称性

​ 正态分布的均值方差能决定正态分布的位置和形态

​ 正态分布的峰度为3

​ 标准正态分布的峰度和偏度都为0

​ 标准正态分布的均值为0方差为1

填空题

  1. X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率

​ 题解:P(X>=2) = $ C_3^2 $ * (3/4) * (1/4) + C 3 3 C_3^3 C33 * (3/4)3 = 27/32

  1. 抽样估计的优良标准有三个
  1. 无偏性
  2. 一致性
  3. 有效性
  1. 影响时间序列的因素有四个
  1. 长期趋势
  2. 季节变动
  3. 循环波动
  4. 不规则波动
  1. 三种常见的聚类算法

​ 题解:1. K-means聚类

​ 2. EM算法(期望最大化算法)

​ 3. optics算法、dascan算法

简答题

  1. 小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?

题解:

采用假设检验的方法衡量模块上线后对用户停留时长是否有提升

假定,用户停留时长为stay_time

将用户均匀分为两组,一组为对照组,一组为实验组。对照组不上线新模块,实验组上线新模块,采集对照组和实验组用户每天的浏览时长,分别为stay_time_X0,stay_time_X1

(1)原假设:用户停留时长没有提升,即,stay_time_X0 = stay_time_X1

备择假设 :用户停留时长提升,即,stay_time_X0 < stay_time_X1

(2)选取5%为显著性水平临界值

(3)计算最小样本量,采集数据 考虑到指标的周期性,时间周期选取2周。采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。如无异常,继续采集数据。(保证用户同分布)

(4)使用T检验,计算p值

(5)得出结论:若p值<5%,则推翻原假设,备择假设成立,新的模块能显著提升用户停留时长。反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长。

  1. 请用一句SQL取出所有用户对商品的行为特征,特征分为已购买、购买未收藏、收藏未购买、收藏且购买(输出结果如下表)
CREATE TABLE orders (
  id int(11) NOT NULL,
  user_id char(11) NOT NULL,
  item_id int(11) NOT NULL,
  pay_time date NOT NULL,
  item_num int(11) NOT NULL,
  PRIMARY KEY (id,user_id,item_id));
 
INSERT INTO orders VALUES(1,'001',201,'2018-08-31',1);
INSERT INTO orders VALUES(2,'002',203,'1987-06-26',2);
INSERT INTO orders VALUES(3,'003',203,'1996-08-03',1);
INSERT INTO orders VALUES(4,'003',203,'1997-08-03',1);
 
 
CREATE TABLE favorites (
  id int(11) NOT NULL,
  user_id char(11) NOT NULL,
  item_id int(11) NOT NULL,
  fav_time date NOT NULL,
  PRIMARY KEY (`id`,`user_id`,`item_id`));
 
INSERT INTO favorites VALUES(1,'001',201,'2018-08-31');
INSERT INTO favorites VALUES(2,'002',202,'1987-06-26');
INSERT INTO favorites VALUES(3,'003',204,'1996-08-03');

-- 目标框架
user_id  item_id  已购买  购买未收藏  收藏未购买  收藏且购买
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
select o.user_id, o.item_id,
(case when o.pay_time is not null then 1 else 0 end) as '已购买'
(case when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '已购买未收藏'
(case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '已购买且收藏'
from orders as o
left join favorites as f on o.user_id = f.user_id and o.item_id = f.item_id
union 
select f.user_id, f.iteam_id,
(case when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买'
from favorites as f
left join order as o on o.user_id = f.user_id and o.item_id = f.item_id
order by user_id,item_id
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户’小张’提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:

    • 用户评价详情表:a

      字段:id(评价id,主键),create_time(评价创建时间,格式’2019-01-01’),user_name(用户名称),goods_id(商品id,外键) ,sub_time(评价提交时间,格式’2019-01-01 23:10:32’),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)

    • 商品详情表:b
      字段:goods_id(商品id,主键),goods_name(商品类目), brand_name(品牌名称)

select sum(case when sat_name = '好评' then 1 else 0 end)/ 
sum(case when sat_name is not null then 1 else 0 end) as '好评率'
from a join b on a.goods_id = b.goods_id
where a.user_name = '小张'
and b.goods_name = '母婴'
and b.brand_name = 'DW'
and a.create_time between '2019-03-01' and '2019-03-31'
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  1. 经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。

指标:

  1. 销售总额(GMV),反映新的推荐算法是否为商家带来更高的利润。

  2. 进入相关商品页面后的付费率(转化率),反映推荐商品是否是顾客所需要的;

  3. 相关商品的点击量,**ctr(相关商品卡片的点击/曝光)**直观的反映新的推荐算法推荐的商品是否吸引顾客;

过程:假设分析

  1. 原假设为使用新的推荐算法后上述指标降低或不变备择假设为使用新的推荐算法后上述指标增加

  2. 选择显著性水平临界值为5%,采集数据选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据

  3. 使用T检验,计算P值

  4. 分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升,反之无法推翻原假设,不能证明使用新算法后指标提升

  • 如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。
  1. 检验数据是否正确
  2. 指标拆分
    销量 = 日均销量30=订单数(1-订单取消率-退货率)30;
    退货率 = 退货数/订单总数,进一步分析退货原因:质量问题/恶意退货/客服服务问题;
    订单取消率 = 订单取消数/订单总数,进一步分析订单取消原因,竞品性价比高/服务好/店面设计好/店铺评分高
    订单数 = 咨询数
    (1-咨询流失率)+加入购物车*(1-购物车流失率)+直接下单 咨询流失定位原因回复不及时/不准确
  3. 用户群体,老用户销量 新用户销量 不同渠道转化率
    产品分析 ,产品是否更新,价格变动、产品周期性
    市场分析,有什么活动、政策
    将指标与同期进行对比,定位问题,同时关注关键指标GMV是否下降明显
  1. 某APP 7月份DAU(日活)比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。
  1. 短期和长期因素拆分
    此处DAU上升现将其拆分为长期因素短期因素,长期因素表现在用户量的长期趋势,如一年来app的日活指标都是呈上升态,可估算5月到7月按既往趋势的DAU增长量(换算为量而非百分比),比如使用移动平均等预测手法计算;在剔除了趋势增长量的基础上,考虑短期因素,考虑在7月和5月间有无重大社会事件、商业事件,社会事件可以是某种舆论造成App的关注度提升,商业事件可考虑商业合作和商业活动(618),可以以各月的舆论热度作为对比的指标。

  2. 内外部变化拆分
    日活的变化第一是产品本身某个改动点获得认可,可以通过ABtest、用户研究等方式来检验;外部变化是市场环境,可以从市场趋势和市场竞争(交互作用)两方面来分析,市场趋势开始提倡或推动本类产品的增长(用户增长潜力),而从分割市场的角度解释市场竞争,一个固定容量的市场,一些产品倒下或增加,必将导致用户量的集中和分散,因此可考虑分析近几个月的行业舆情和竞争对手运营情况。

  3. 时空来拆分
    可以将日活细拆为地区、城市的粒度,然后进行相应的对比,分析具体的日活增长点是某一个城市、还是某些城市还是所有城市,如果是某个或某几个城市,如可以分析这些城市的渗透率的变化,是否和其他日活变化不大的城市的渗透率相差较大,则可以归结于业务推广的功劳。若所有城市日活都在上升,则可以考虑该增长与野夫分析无关,考虑其他因素,如竞品退出、市场趋势、产品改进等有关

  1. 如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
  1. App可以根据定位信息获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的商品。

  2. App可以根据定位信息获取用户的生活以及活动习惯,例如如果用户经常出入健身房可以推荐运动器材,如果用户经常出入服装店,美容店餐厅等地可以为用户推荐服装,美容项目等。

  3. 还原用户行为轨迹,交通拥堵分析,热点区域确定,各区域停留时长,从而确定用户的行为习惯,进行更好的服务提供、及消费迎合

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/768332
推荐阅读
相关标签
  

闽ICP备14008679号