服务器开光师是个什么鬼?TalkingData的研发面试题目
TalkingData是一家对数据有信仰的公司,致力于用数据去改变人们做决定的方式,并帮助人们更加了解周围的环境。
4年坚守大数据的前沿阵地,我们遇到无数的挑战。这里我们也向如下有志之士发出邀请,有意者请发简历至wenfeng.xiao@tendcloud.com:
对于这些职位,我们通常有如下的面试题目。
大数据工程师
1. Hadoop集群的namenode上,当meta数据损坏之后如何修复?数据的丢失率是怎样计算?
2. 目前需要对100台服务器做RAID ,有什么方式能够通过自动化的方式实现?
3. 有超过10亿行的数据,每行第一列为唯一ID列,其余列为数值型列,假设数值型列分别为A,B,C,D,请问如何高效的实现一个算法能够完成:
1) 某一列数值符合在某个区间的范围内的记录的条数
2) 某一列数值符合在某个区间同时另一列数值在某个数值区间的记录的条数
4. 某广告主在渠道投放每天有大量点击数据,包含每个点击的IP信息。请基于IP信息设计防止渠道作弊的算法和思路。
5. 一个url文件,每行是一个url地址,可能有重复。
(1)统计每个url的频次,设计函数实现实现。
(2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
6. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb
7. 在N个无序数中找K个最小值
8. 一个流式输入序列(method_name, latency),其中method_name大约有100万种,latency的取值为1到10亿的正整数,每天的数据量大概100亿条。限制最多 1GB的程序运行内存,设计一种方法,计算一天内每个method_name的50%,95%,99% percentile的latency,误差不超过5%。
Java开发工程师
1. 抽象类和接口有什么区别
2. 请说一下java中的内存回收机制所采用的算法
3. Sleep()和wait()有什么区别?
4. 请列举几种排序算法,并用JAVA实现快速排序算法。
5. 36辆车,6条跑道,无计时器,最少几次比赛可以选出前三
6. 一个未排序的整形序列,比如10,20,3,7,5,9,4,2,90,给出这些数字当中最长连续数的长度,例子中的长度是 4[2,3,4,5]。算法复杂度最好为O(n)
7. 两个线程,一个运行B.m1(),一个运行B.m2(),这个程序可能的行为有哪些?
Class A{
int f;
A(){f = 1;}
}
Class B{
A a;
void m1(){a = new A();}
void m2(){if(a != null) System.out.println(a.f);}
}
8. 在N个无序数中找K个最小值
C++开发工程师
1. new 和 malloc 的区别
2. 用C/C++写一个归并排序。
数据结构为struct Node{int v; Node *next};
接口为 Node * merge_sort(Node *);
3. 一个url文件,每行是一个url地址,可能有重复。
1)统计每个url的频次,设计函数实现实现。
2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
4. 进程间的通信方式
5. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb
6. 在N个无序数中找K个最小值
机器学习研究员
1. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
2. Pca的概念和处理过程(主成分分析)
3. 中文分词技术简介,常用数据结构和算法
4. 如何建立一个智能问答系统,思路
5. 如何建立一个智能商品推荐系统,思路
Html5/web前端开发
1. 实现输出document对象中所有成员的名称和类型。
2. 写一个去掉数组里的重复成员的程序。比如去掉上面题中刚生成数字序列里面的重复项;
3. 请谈一下HTML和XHTML的区别。
4. 你对Web标准的理解?
5. 浏览器兼容性,谈谈你经常使用的浏览器,和各个浏览器兼容的问题?
6. 页面图片加载太多,一般如何处理?如何合并图片,请写出你的代码?如何延迟和预先加载?
大数据程序猿鼓励师
限女,颜值高,大家都理解,不再赘述:
服务器开光师
对于大数据行业来说,开光师的作用日趋凸显,这就是为什么有的服务器服务超期依然运行稳健,有的新买刚上线就存储故障。根据职能开光师分为软件专攻和硬件专攻,通常必须掌握至少一门宗教开光仪式,自备仪式礼服。因为涉及跨界,此类人才目前稀缺,培养不易。
鉴于目前安全形势日益严峻,TalkingData决定在北京卧佛寺和成都青羊宫新建数据中心做异地容灾,因此掌握多项技能者优先。