赞
踩
一面(40分钟)
主要是在问简历里的项目和比赛。附带问了一下简单的机器学习,比如SVM如何处理多分类,这几种方法的优缺点。出了两道极其简答的算法题,给一个头指针,判断它是不是一棵树。大概40分钟
二面(35分钟)
还是首先问简历,花了10分钟一个劲问我为什么之前在腾讯实习后来离职……然后介绍一下决策树,介绍一下LR,介绍一下SVM,反正各种自己介绍,中间会打断问两个问题。然后就发过来链接写代码,两道题,一个求数组中第二大的数,一个求最长回文子序列。
三面(30分钟)
三面没怎么问细节了,主要还是介绍比赛和之前的实习,然后开始各种聊,问什么对机器学习未来的看法啊,对深度学习了解多少,有没有读过什么源码,有没有手动去实现一些机器学习算法。
交叉面(30分钟)
又是一轮聊天面,介绍项目,然后问我开题了没?!!问未来机器学习你觉得最有前景落地在哪一方面……还聊了啥我都忘了,阿里流程实在太长了。。
阿里妈妈:
阿里面试五轮,加上等的时间,持续了一个半月,但是感觉很直接,不拖泥带水。
一面:
手写算法题,有序数组里找到目标数的重复次数,二分找第一个目标和最后一个目标,问怎么设计test case。
如何从n个数等概率采样出k的数,蓄水池采样问题。
项目,论文,实习。
二面:
概率题:抛一个骰子,直到集齐六面,问抛骰子的期望次数。
设计题:如何在淘宝商品库里找相似商品
讲讲做得最好的项目。
三面:
概率题:randN()转randM()。
设计题:推荐系统的设计,开放设计题
其他讲讲项目和算法之类的。
四面交叉:
概率题:抛色子连续n次正面向上的期望次数。
讲讲项目和算法,开放性的思考题等,具体记得不清了。
五面hr:
优缺点,做得最好的项目,为什么想来阿里等等
1. 项目介绍(根据项目问问题)
2. XGboost、lightgbm、Catboost三者介绍
3. 聚类算法了解程度、kmeans介绍、K值选择、kmeans++算法
1. 项目介绍
2. 基础知识
2. 给定10G的文件,只有2G的内存,如何将文件放到内存中
3. 推荐系统的框架了解(召回和ranking)
4. 系统设计:推荐系统还有融合框架,假如通过两种不同的召回和ranking系统得到结果,如何在两种备选结果中最终给用户推荐出最适合的十个广告
百度4.22下午面完还在等……
一面(40分钟)
首先介绍实习经历,然后问实习中做的一些事情有没有想过怎么去优化,比如在优图做人脸检索,问我如果人脸库比较大,大到上百万上千万,怎么加快匹配检索速度……然后问了两个C++问题,其中一个是浅拷贝和深拷贝的区别。。另一个忘了是啥了,反正比较简单。然后问了两道题,两个栈实现队列说思路,求最长公共子串写代码。
二面(40分钟)
上来直接问题,C++内存机制介绍一下,C++和Python的异常处理机制区别,为什么要有异常处理等等。然后开始做题,一维数轴上有N个数散布在数轴,给一个长度为L的绳子,问绳子放在轴上最多能覆盖多少个点;另一个是一个二维矩阵,0是路,1是墙,问矩阵中有没有被墙围起来的路;说思路不需要写代码。然后问机器学习方法,集成学习有哪几种,区别是什么等等。
三面(30分钟)
讲讲项目,聊聊天,问点宏观的东西。。一周能来几天,什么时候能开始。得知三面面试官都是做计算广告的,问对广告感兴趣吗(能不感兴趣吗?)然后结束,被告知两周内会有结果。
一面:
聊了一个半小时吧,算法题比较常规
合并k个排序链表-》优先级队列和归并合并都可以
mapreduce实现kmeans
然后聊了一下fm和ffm以及deepfm,所以下介绍下常见的处理过拟合的方法,1和l2的作用,dropout的作用,然后bn的作用
说了下常见的优化方法,了解过流式计算吗,对于online-learning有了解吗
二面:
nlp的面试官,感觉对我的简历不是很熟悉,我好不容易把graphembedding引到nlp方向
算法就一道 后序遍历,手写堆排
三面:
面试官是女面试官,负责垂类推荐的把,聊天面试,以一个pm的角度去分析一个功能的优劣,以及设计上线的流程,然后就是性格面试
1. 项目介绍
2. Xgboost和LGB原理
3. 样本不平衡的处理方法(涉及到业务知识)
4. TCP/IP四层模型
5. 代码:反转链表
1. 计算机网络:TCP和UDP的区别,OSI七层模型、全双工和单工
2. 算法:GBDT的原理、LR的原理、对数据倾斜处理的方法
3. 大数据:map-reduce、spark使用
4. 计算机语言:JAVA的了解程度
5. 代码题:给定一串字符,含有数字字母等,按照需求写代码,略
一面
进去聊实习,聊比赛,然后问了个海量数据Top K问题。。15分钟就结束了
几乎全部是项目相关的:
1、说说矩阵分解
2、围绕LLE来问:LLE全称是什么;简述LLE和PCA的特点和区别;LLE里面涉及的图拉普拉斯有没有了解(应该问的是LE:Laplace Eigenmaps)(一定要了解相近的一类对比算法)
3、整体代码的实现(一定要有条理地说清楚啊);deepwalk是手写还是工具包,有没有用numpy;图嵌入的训练集是什么,矩阵分解的训练集是什么
4、简述word2vec;说说滑动窗口大小以及负采样个数的参数设置以及设置的比例;怎么衡量学到的embedding的好坏
5、是否了解图卷积
6、说说推荐系统算法大概可以分为哪些种类:(1)基于内容;(2)基于协同过滤:基于内存(UB IB);基于模型(MF)
1、推导LR
2、图结构是怎么存储的?利用你所做的这个图结构实现深度/广度优先遍历,格式是:
def find_path(graph, root, destination)
深度优先遍历用栈结构实现;广度优先遍历用队列结构实现
3、聊到了宏观会问到的业务上的问题:
如果图表只存储了学校这片区域的中心点,但是我们下单的宿舍地址不在中心点附近,怎么去确定这个具体位置?说:可以遍历走过该地址的外卖员的轨迹,大量相交的交点大概率是具体位置;
还问,如果要给外卖员分配订单,怎么去分配?从外卖员到下单地址的距离远近,下单的紧急程度,外卖员正在派送的位置与下一个要派送的位置是否顺路(不可以时东时西)
1、详细描述工作,画出来整体框架
2、工作最大创新点,在代码实现方面遇到的难点
3、看你对比的都是传统的或者是基于图的推荐算法,有没有尝试过对比一下或者有没有了解其他不同数据源的深度学习算法?
4、说到上面提到了attention机制,问了怎么看待attention机制,为什么有这么多工作去使用它
5、除了优化模型,还可以从什么方面去取得更好的性能:说了特征工程的处理,GBDT得到feature importance取topk贡献较大的特征作为模型输入
6、上面说到的特征处理,提到了会筛选出来特别的节日来单独处理,问:为什么要把平常日、周末、节假日分开处理
7、怎么去规划工作几年中的小目标
1、推导SVM公式,挨个步骤说清楚,我说错了y的取值范围,应该是{ 1,-1};没说清楚函数间隔和几何间隔的物理含义
2、问了满二叉树和完全二叉树,大概画了一下;问了红黑树,说没学过,没有接着问了
3、问了随机森林有了解吗?知道里面的有放回的采样方法吗?后面问了个数学问题:
给定n个小球,有放回地采样。当n趋向于无穷的时候,某小球不被取到的概率是多少?
提前批
第一轮:
17号清华双选会,一人可以选两个部门面试,每个面试就大概15min
两个部门共问到的问题有(模型多是根据项目问):
1. xgboost原理,怎么防过拟合
2. gbdt推导
3. boosting和bagging在不同情况下的选用
4. DBSCAN原理和算法伪代码,与kmeans,OPTICS区别
5. LSTM原理,与GRU区别
6. 算法题:翻转中间由各种符号隔开的字符串
第二轮第三轮:
20号在望京,每个部门两轮
共问到:
1. EM算法推导,jensen不等式确定的下界
2. xgboost和lightgbm的区别和适用场景
3. LR的推导,损失函数
4. gbdt推导和适用场景
5. DNN的梯度更新方式
6. 算法题:2sum,3sum
7. 算法题: 从右边看被遮挡的二叉树,求露出的node
8. 概率题,抽蓝球红球,蓝结束红放回继续,平均结束游戏抽取次数
美团提前批:
可能提前批简历筛选比较严,觉得面的不难,选了nlp中心和外卖事业部,当场拿到了这俩offer,最终选了nlp中心的offer。
nlp中心:
一面:实习,项目,论文,手写了一道根号n
二面:实习,项目,论文,手写了n个有序链表合并
三面:大佬面,人生理想规划等
四面:hr面,hr很nice,大概问了下求秋招规划,怎么选择第一份工作,希望你来美团之类的。
外卖平台:
一面:项目,实习加论文。
二面:项目,实习,论文,手写lcs
三面:大佬面,很多比较刁钻的问题,比如短query大家词频一样,tfidf就不管用了,怎么改进。seq2seq做序列标注和crf做短语抽取怎么样,为什么不行。
四面:hr
加面:项目实习论文在问了一遍,有没有follow最新的论文,讲讲elmo的优点,为什么有效。
腾讯一面应用研究-机器学习
1. 扣简历的项目,扣的很细
2. xgb,rf,lr优缺点场景。。。真的逢面必问,有不了解的可以留下评论,我可以提点拙见,最好还是自己去网上扣一下这题
3. 算法题,单链表判断是否有环 (leetcode easy),以及判断环入口
4. 算法题,给前序和中序,求出二叉树
5. 是否写过udf,问udaf,udtf区别和一些细节
腾讯二面应用研究-机器学习
1. 扣项目,问简历,其中涉及的算法和上面差不多
2. 问推荐算法,fm,lr,embedding
3. 算法题,10亿个32位正整数,求不同值,只给1GB内存。。。我只答出来4GB的情况,时间负责度还不是最优的,所以稳稳凉了,如果有人知道怎么解1GB,求回复,感谢
腾讯三面应用研究-机器学习
1. 算法题: topK给出3种解法
2. 算法题:二叉树的最大深度和最小深度
2. 协同过滤的itemCF,userCF区别适用场景
3. 扣项目,问简历,其中涉及的算法和上面差不多
4. 对项目中一些技术选型产生质疑,并友好的一起讨论了这个问题
5. 推荐系统的大概步骤,解决冷启动。。。
腾讯四面应用研究-机器学习
最后技术总监面,onsite
1. 算法题:名人问题,给出最优解法
2. 问了一下项目和简历
3. 自我评价优缺点,怎么改进
4. 描述一个算法项目从kickoff-落地的全过程
一面:
学校学姐,疯狂问推荐相关,然后对一些推荐指标的理解,算法题就是 手写一个
力扣 解码方法变形,让你输出解码的字符串数组
然后手写了个后序遍历,面试表现一般
二面:
重点介绍了一下自己简历的项目,然后介绍了一下graphembedding的发展史,算法题
python实现kmeans
树的两个节点的公共祖先(大量查找时怎么提升效率,没回答上来,查找表?不太懂)
三面:
手写LR的实现过程,然后聊了聊l1以及l1的扩展。
递进式的算法题:
- 问:二叉树的序列化和反序列化如何实现?
- 答:利用前序中序遍历序列,简单讲原理。
- 问:这种方法有什么缺点和局限性?
- 答:不能含有值重复节点,必须得到完整的序列后才能进行反序列化。
- 问:如果节点的值可以相同,怎么解决?
- 答:利用特殊字符存储空指针。
- 问:如果每个节点是任意的字符串如何解决?
- 答:用字符串数组的每个元素存储节点,空指针对应空字符串。
- 问:这个不太符合序列化的要求,需要最终变成一个string方便传输。
- 答:暂时没有思路。。
- 问:好的,那按照int型节点的思路写代码吧。
机器学习和C++的相关知识:
- 问1:如果一个模型在测试集上效果不好,如何改进?
- 问2:BatchNorm的原理和作用
- 问3:static关键字的作用
递进式的算法题:
- 问1:返回数组中任意一个最大值的索引
- 答1:遍历数组,不断更新最大值和其索引。(这个很简单,注意一些非法输入的判断即可)
- 问2:如果要等概率地返回一个最大值的索引呢?
- 答2:返回值改成vector存下所有最大值的索引,然后随机抽取一个。
- 问3:如果要求空间复杂度是O(1),怎么做?
- 答3:遍历一遍数组,统计最大值的个数N,取1-N的随机数m,遍历第二遍数组,输出第m个最大值的索引。
- 问4:如果要求数组只能遍历一次呢?
- 答4:(这个想了一会儿)在遍历数组的过程中统计目前遇到的最大值的个数N,每次遇到一个新的最大值以1/N的概率更新。
- 问5:如果数组中有5个最大值,用数学证明你的方法是等概率的。
- 答5:输出第一个1/2×2/3×3/4×4/5;第二个1/3×3/4×4/5.....
- 问6:如果有N个最大值呢?
- 答6:数学归纳法可以证明
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。