赞
踩
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!
感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。
最近正值秋招,许多朋友也都拿到了心仪的offer,不过也有不少的朋友还在网申 ——> 笔试 ——> 被刷
之中反复循环,而导致这一现状的重要原因很有可能是自己不懂得总结归纳,就算是一次简单的笔试,自己也应该懂得去总结复盘,切勿在每次的笔试中犯同样的错误。
那么今天,我给大家带来了一份关于数据分析岗位的笔试题,题目基本上还原了全部的真实考题,并附带了详细解析,希望有需要的朋友赶紧收藏起来,并仔细阅读,后续我也会不断更新其他的笔试卷子,有需要的朋友可以关注我,或者订阅我的数据分析专栏,里面还有许多与数据分析相关的博文,快去阅读吧。
1、mysql导出数据的命令是()
解析:
mysqldump -u 用户名 -p 数据库名 > 导出的文件名
mysqldump -u root -p --databases db_name > test_db.sql ##得到整个数据库,最全面;不要–databases也行,就是不够信息全面。
2、0, 3, 2, 5, ()
解析: 4
分开看奇数位和偶数位,视其为等差数列。
3、PMF, PDF, CDF
解析:
PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。
4、某长度为n的字符串,且串中字符不重复,问有多少个子串?
解析: n ( 1 + n ) 2 \frac{n(1+n)}{2} 2n(1+n)
5、1/2, 1/6, 1/12, 1/20, 1/30, ()
解析:
分母分别为 1 ∗ 2 , 2 ∗ 3 , 3 ∗ 4 , 4 ∗ 5 , 5 ∗ 6 1 * 2, 2*3, 3*4, 4*5, 5*6 1∗2,2∗3,3∗4,4∗5,5∗6,所以答案为1/42。
6、原题链接
解析:
CRF的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF缺点:速度慢
7、原题链接
8、原题链接
解析:
轮流制: 先抛的人吃到苹果的概率: 1/2 + 1/2^3 + 1/2^5 + … 求得结果为 2/3
9、原题链接
解析:
n个顶点,每两个顶点连成一条线,一共有 n ( n − 1 ) / 2 n(n-1)/2 n(n−1)/2条线。
10、一道SQL题
11、考交集并集
12、一道情景理解题好像,简单。
13、1, 13, 45, 169, ()
14、顺序查找的平均时间是多少?
A、n/2
B、n
C、n * n
D、log n
解析:
正确答案:A
平均时间的计算方式如下~
首先,假定这个数组的长度为n。
目标等概率出现在任意位置,即出现在每个位置的概率均为1/(n+1),其中,找不到的概率也是1/(n+1)
然后,对于第i个位置,需要i次比较才能找出来,则找到的情况下,共需1+2+…+n次查询,即(n*(n+1))/2。
找不到的情况下,也是n次查询。
故平均时间为总比较数,除以位置数,即((n*(n+1))/2+n)/(n+1)=n/2+n/(n+1)。
如果一开始直接当找到,算出来就是(n+1)/2
两个结果都可以当作是n/2
15、一道简单的逻辑理解题。
16、原题链接
17、一道简单的考单调区间的题,应该是问 e x 2 e^{x^2} ex2的单调递增区间。
18、问以下哪个属于分类算法?() B
A、EM
B、C4.5
C、DBSCAN、
D、Kmeans
19、图形推理题
20、求四分位数极差(11, 23, 27, 33, 68, 55, 23)
解析:
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为 IQR = Q3 - Q1
排序后:11 ,23, 23, 27,33 ,55,68
Q1位置:(7+1)0.25 = 2 对应数23
Q3位置:(7+10.75) = 6 对应数55
四分位数极差55-24 = 32
21、计算题,easy
22、SVM能用于线性不可分的数据吗?能
23、500桶酒,其中有一桶毒酒,喝下后一周发作,现要用小白鼠来做实验,且要求一定要在一周后找出毒酒,请问最少需要多少只小白鼠?9
解析:
需要9只小白鼠
将500桶毒酒进行编号,并用二进制表示.得到000000001~111110100.
每只小白鼠对应二进制的每一位,然后喝下对应位数为1的那个编号的毒酒
然后根据死亡的小白鼠编号,进而获得毒酒的编号。
如毒酒编号为350,那么二进制对应为101011110.难么囚犯234579会死亡.
24、矩阵A、B、C,大小分别为
m
∗
n
,
n
∗
p
,
p
∗
q
m * n, n * p, p * q
m∗n,n∗p,p∗q,且
m
<
n
<
p
<
q
m<n<p<q
m<n<p<q,请问下列哪种计算方法效率最高?B
A、(AC)B
B、(AB)C
C、A(BC)
D、一样
解析:
A显然是错的,不论这些矩阵是否能那样乘,乘出来的结果都无法保证和ABC相等
只有B, C这两种计算次序能产生正确结果
B的计算量是2mnp+2mpq,C的计算量是2npq+2mnq,两者相减可得A的计算量较小
这里假定“效率”直接由计算量决定。
25、原题链接
解析:
数据库中的数据模型有三种,分别为层次模型、网状模型和关系模型。其中,层次模型是树型结构,网状模型为网状结构,关系模型是表结构或二维表结构。
26、对于含有n个顶点的带权连通图,它的最小生成树是指图中任意一个()C
A、由n-1条权值最小的边构成的子图
B、由n-1条权值之和最小的边构成的子图
C、由n-1条权值之和最小的边构成的连通子图
D、由n个顶点构成的边的权值之和最小的连通子图
27、有n个顶点的平衡二叉搜索树,每个顶点都是整数,现有一个整数a,请问找出树中与整数a最接近的数的时间复杂度是()
A、
O
(
l
o
g
n
)
O(logn)
O(logn)
B、
O
(
n
2
)
O(n^2)
O(n2)
C、
O
(
n
l
o
g
n
)
O(nlogn)
O(nlogn)
D、
O
(
n
)
O(n)
O(n)
解析:
平衡二叉树的时间复杂度是log(n),如果二叉树的元素个数为n,那么不管是对树进行插入节点、查找、删除节点都是log(n)次循环调用就可以了。它的时间复杂度相对于其他数据结构如数组等是最优的。
28、原题链接
解析:
D(XY) = E{[XY-E(XY)]^2}
= E{X²Y²-2XYE(XY)+E²(XY)}
= E(X²)E(Y²)-2E²(X)E²(Y)+E²(X)E²(Y)
= E(X²)E(Y²)-E²(X)E²(Y)
如果 E(X) = E(Y) = 0,
那么 D(XY) = E(X²)E(Y²) = D(X)D(Y),
也就是说当 X,Y独立,且X,Y的数学期望均为零时,X,Y乘积 XY的方差D(XY)等于:
D(XY) = D(X)D(Y).
29、一道SQL题
30、下列哪种方法不属于创建新属性的方法? B
A、映射数据到新的空间
B、特征修改
C、特征提取
D、特征生成
31、有关线性变换的题
32、有序列表的最快排序算法是?
解析:
简单排序的算法(直接插入,冒泡,简单选择排序)简单且稳定,适合与待排记录较小的情况,当当待排序的关键码序列已经基本有序时,用直接插入排序最快。
就平均时间的性能而言,快速排序最佳,即排序速度最快,所以在随机情况下,快速排序是最佳选择。一般情况下,快速排序效率最好。
33、求时间复杂度的题。
34、语境理解题
35、原题链接
解析:
1
2
∗
1
2
∗
1
2
+
1
2
∗
1
2
∗
1
2
=
1
4
\frac{1}{2}*\frac{1}{2}*\frac{1}{2}+\frac{1}{2}*\frac{1}{2}*\frac{1}{2}=\frac{1}{4}
21∗21∗21+21∗21∗21=41
1、原题链接
select *
from order_info
where datediff(date,"2025-10-15")>0
and status = "completed"
and product_name in("C++","Java","Python")
order by id
2、原题链接
select a.user_id, min(a.date) as first_buy_date, max(a.date) as second_buy_date, a.cnt from (select user_id, date, row_number() over(partition by user_id order by date) as rank_no, count(*) over(partition by user_id) as cnt from order_info where date>='2025-10-16' and status='completed' and product_name in('C++','Java','Python') ) a where a.rank_no<=2 and a.cnt>=2 group by a.user_id,a.cnt order by a.user_id ;
感谢收看,祝学业和工作进步!
推荐关注的专栏
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。