面試是通往各大企業的必經之路,尤其是對于程序員面試,這種技術人員的面試,比一般的面試還要復雜,是要經歷好幾輪的。大數據工程師的面試也不例外,首先一輪便是面試,主要考察的是自己掌握的技術知識,所以優就業小編給大家整理了一些常見的大數據面試題。
1、了解zookeeper嗎?介紹一下它,它的選舉機制和集群的搭建。
2、spark streming在實時處理時會發生什么故障,如何停止,解決。
3、RDD中reduceBykey與groupByKey哪個性能好,為什么。
4、Hbase 內部結構和hbase 表里面怎么對應的。
5、講述一下mapreduce的流程。
6、kafka集群的規模,消費速度是多少。
7、給40億個不重復的unsigned int的整數,沒排過序的,然后再給一個數,如何快速判斷這個數是否在那40億個數當中?
8、給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url?
9、尋找熱門查詢:搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節 假設目前有一千萬個記錄(這些查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復后,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就是越熱門),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。
10、首先集群的目的是為了節省成本,用廉價的pc機,取代小型機及大型機。小型機和大型機有什么特點?
相關推薦:
更多內容
>>本文地址:http://www.028benet.com/jiuye/2018/45538.html
聲明:本站稿件版權均屬中公教育優就業所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?