百度上海数据挖掘面经 上海 数据挖掘

面试多了,真的懒得每个写每个写面经了,于是下定决心,如果拿到offer的话,就要好好写一写。昨天晚上来了,于是来写一写~
笔试部分:
百度的笔试比较开放,全大题,就放上我记得的题,时间比较久远了1、vector的push_back是如何实现的? STL不熟,当时写的就是在数组中插入一个元素,之前分配的内存不够,则重新申请,再复制原数组,再插入,整体思路应该对的
百度上海数据挖掘面经 上海 数据挖掘
2、一个函数rand(n,m),返回n和m之间的一个数字,利用这个函数,写一个程序,返回半径为R圆内的一随机点。 这道一开始写了一个:x = rand(-R,R), y = (-sqrt(R^2-x^2), sqrt(R^2-x^2)) 然后又想了想,觉得有点问题,x分布均匀的时候,y在中间的时候可以取(-R,R),在两头的时候范围越来越小,其实会造成中间点稀疏,两头点密集。 然后又想了个算法:S = rand(0, 2 *pi * R^2), r = sqrt(S / pi), theta = rand(0, 2 * pi) 这个用极坐标来做,从面积上来取随机数,感觉会比较均匀,还没有严格证明过
3、然后就是机器学习方面的,给一个图,问KNN给出的判决结果。然后就是问一个图像分类的实际例子,在一些条件下,比较linear-SVM,linearregression,贝叶斯三种方法的优劣。 这个大概写了一下,KNN和SVM知道的,另外的就是名字知道算法不熟了,鸟了些字上去
一面部分:
第一面在笔试第二天,早上11点就要到那边,于是赶过去。拿到一个牌子“策略-5”,是这边数据挖掘方向的称呼。 一面是一年轻男子,不大笑,有点严肃,不过总体不会太给压力,算比较仁慈的。 先是简历上的东西问问,然后就是各种知道问过来:C++的虚函数怎么搞?C里面read一个文件内部是怎么实现的?C#里面的GC是用的什么方法?linux里的vim记得哪些命令?感觉就是非常杂非常全,我这种只得大把大把地说不知道。。。 然后开始是算法,先是问了,一个矩阵,要求分别求出每行和每列的最大值,怎么做。只要说思路。 这个想了一会,当时给个解答,就是对于m*n的矩阵的话,先分别找出m行的每个行最大,然后排序;再从m个最大值中找出最大的一个,它也必是所在列最大的;m上最大值中的第二个需要和之前那个值所在行的值比较,找出这列最大的,就是2选1;然后依次3选1,4选1......这个可以省一些比较次数,面试官听了也没多问,可能还比较满意。 之后和JZJ聊到了这道,他想出个算法,就是从头到尾遍历一遍矩阵,每读一个元素就更新相应的(m+n)个行方向和列方向的最大值。满简便的一个方法,元素访问次数的确比我那个少了很多,比较次数应该会多一些,总体复杂度都是o(m*n) 然后老生长谈,怎么判断链表相交?怎么判断链表有环? 最后又写了个程序,约瑟夫问题,当场写代码。循环链表写的不熟,写好还有点问题,边交待边修改,一边检查边界,最后应该还凑活。
二面部分:
一面第二天下午进行的二面。面试官笑容比较多一点,看上去非常聪明的一个人。 先是问简历上的东西,似乎对实验室863有点兴趣,应该是研究过图像分类的,问了下用的什么特征。 算法部分开始了,一道不难的问题:两个排序好的数组,怎么找到其中的第n大?这个简单呢,两个指针,比较,小的前进,直到前进了n次。面试官也没这么简单的忽悠过去,问:还有没有更快的方法? 我开始忽悠了,这个还要改进,必须得从o(n)变成o(logn),得二分搜索!然后他让我讲思路,我想半天也没理清楚,他到叫我写代码。。。硬着头皮写了一份错误百出的,我自己其实也还没想清楚,所以最后他主要就看了看终止条件之类的关键部分。感觉上是每次取第一个数组的第i个,第二个数组的第n-i个,i由二分搜索来确定,终止条件就是,a[i]<b[n-i],a[i+1]>b[n-i-1],就是大小发生变化的位置。大致思路,值得继续推敲。 然后问了一道怪怪的,两个骰子掷出和为10的概率是多少?我很快算出来了。那三个呢?我算了满久,枚举完给了他答案。这道题当时没有懂他的点在哪里。。。 接着的题很开放,问现在有地铁的各站进出站信息,怎么估计两站之间的人数。我想了一会,想不出。。。这个进出站信息很难用,无法决定中间状态的各站人数么。于是他开始提醒:利用历史数据。。。我马上打断,接过话头,说可以分析已有数据,这站上的人平均都是哪站下的,然后做出估计。他还不死心,问两站间有多线路怎么办?我说两站各路线所需花的时间,需要走多少路等因素来决定百分比。 接着他说:你留一下,接下来三面。心中暗爽~
三面部分:
这是一轮manager面了,当天我们这里留到三面的有三个人,我是第二个,差不多6点多面到6点半过了。manaer气场就是大,一开始问我这两天辛苦不,是不是还有别的地方面试,冲突怎么办。我脸不红的就说来百度。 然后开始简单自我介绍,问了各种东西了解否。这边的manager面也是满考察各方面知识的,虽然不会问太细节,但是非常会考察你的思路。当时就问我,如果在美食广场新建一家饭店,预测会有多少顾客来。于是我说了些用机器学习什么的,他继续问,哪些因素会影响呢?于是我纸上列出了地段、食物种类等等各种。 然后的问题让我傻了,和前面的一样,二只骰子掷出10概率多少?那四只呢?可能一下算不出来,就说谁大谁小就行了。我一开始说,二只大,从平均数上来说,二只是7,四只是14,前都更接近10。他说不严谨,要有更详细的推导。思考,沉默,于是向他求助。他提示,通过分解问题,得到一些不等式,再得到答案。于是再想,分解了问题,不过没得到答案。只能结束了。这个问题到现在还是比较好奇~
的确如传说,百度的面试比较货真价实,当时真的绞尽脑汁了,最后虽然满多没答上,总体印象应该不错。有空再来想想这些没解决的问题

  

爱华网本文地址 » http://www.413yy.cn/a/25101013/180924.html

更多阅读

百度技术沙龙:基于大数据的预测技术

点击标题下「大数据文摘」可快捷关注本次分享的话题分别是“大数据与预测”和“基于互联网数据的社会经济预测”。回复“百度沙龙”,可一并下载2篇PPT在由@百度主办、@InfoQ负责策划组织和实施的第53期百度技术沙龙活动上,来自百度研

上海百度包年推广价格是多少钱一年 贵阳百度包年推广

相信很多企业都会有同感,做百度推广以来,同行竞争越来越大,关键词点击价格也是越来越高,但是百度作为中国搜索引擎行业巨头,80%的网民搜索习惯都是百度,作为企业来说,又岂能因为价格的关系而放弃了百度的推广呢?有没有一款更好的百度产品

百度卫星地图的数据来源 百度地图卫星图

(百度卫星地图下方的数据来源信息行)11月16日,百度地图正式上线了卫星图功能。据百度地图负责人透露,百度地图所用的卫星遥感图像由中国四维测绘技术有限公司提供。据了解,中国四维的影像数据全部来自商业卫星数据提供商美国DigitalGl

声明:《百度上海数据挖掘面经 上海 数据挖掘》为网友玫瑰命分享!如侵犯到您的合法权益请联系我们删除