大數據工作者應聘時,面試是一道躲不過的檻,所以優就業小編收集了一些2018常見的大數據面試題,希望可以幫到準備或者正在參加大數據面試的朋友們。
1、下列哪個程序通常與 NameNode 在一個節點啟動?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracke
2、下列哪項通常是集群的最主要瓶頸:
a)CPU
b)網絡
c)磁盤IO
d)內存
3、下列哪項可以作為集群的管理?
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
4、Cloudera 提供哪幾種安裝 CDH 的方法?
a)Cloudera manager
b)Tarball
c)Yum
d)Rpm
5、下面哪個程序負責 HDFS 數據存儲。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
6、一個Hadoop環境,整合了HBase和Hive,是否有必要給HDFS和Hbase都分別配置壓縮策略?請給出對壓縮策略的建議。
7、如果要存儲海量的小文件(大小都是幾百K~幾M),請簡述自己的設計方案。
8、kafka topic為什么設定8個分區?
9、為什么要在hbase中創建一個元數據表保存每個表的字段和主鍵,刪除的時候要查一遍而那upsert的時候也要有主鍵,為什么不用?
10、有大量的英文文獻,需要進行統計
1;統計出現次數前一百的所有單詞
2:統計出現次數為10-20次,20-30次的所有單詞。
相關推薦:
更多內容
>>本文地址:http://www.028benet.com/jiuye/2018/45451.html
聲明:本站稿件版權均屬中公教育優就業所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?