大数据核心面试题(Hadoop,Spark,YARN)

avatar
作者
筋斗云
阅读量:4

大数据核心面试题(Hadoop,Spark,YARN)

高频面试题及答案

1. 什么是Hadoop?它的核心组件有哪些?

回答:
Hadoop是一个用于存储和处理大规模数据集的开源框架。它的核心组件包括:

  • HDFS(Hadoop Distributed File System): 用于分布式存储数据。
  • MapReduce: 用于分布式数据处理的计算框架。
  • YARN(Yet Another Resource Negotiator): 用于资源管理和作业调度。
2. 解释HDFS的架构及其工作原理。

回答:
HDFS是一个主从架构,由NameNode和DataNode组成:

  • NameNode: 管理元数据,如文件名、块位置等。
  • DataNode: 存储实际的数据块。
    工作原理:
  • 数据存储: 文件被分割成块(默认128MB),每个块被复制到多个DataNode上(默认3个副本)。
  • 数据读取: 客户端通过NameNode获取数据块的位置信息,然后直接从DataNode读取数据。
3. HDFS如何保证数据的高可用性和容错性?

回答:
HDFS通过数据块的复制机制来保证高可用性和容错性。每个数据块会被复制到多个(默认3个)不同的DataNode上,以确保即使某些节点发生故障,数据仍然可以从其他副本中获取。

4. 什么是NameNode和DataNode?它们的区别是什么?

回答:

  • NameNode: 负责管理HDFS的元数据,包括文件目录结构、文件到块的映射以及每个块的副本位置。它是HDFS的单点故障。
  • DataNode: 负责存储实际的数据块,并定期向NameNode报告其存储的块信息。
5. 解释MapReduce编程模型及其主要组成部分。

回答:
MapReduce是Hadoop的分布式计算模型,包括两个主要步骤:

  • Map: 将输入数据分割成键值对,进行分布式处理,生成中间键值对。
  • Reduce: 对中间键值对进行汇总处理,生成最终结果。
    主要组成部分:
  • Mapper: 处理输入数据并生成中间键值对。
  • Reducer: 处理中间键值对并生成最终结果。
  • Combiner: 可选的本地化Reducer,用于减少网络传输量。
6. HDFS的读写流程是怎样的?

回答:
数据写入流程:

  1. 客户端请求NameNode创建文件。
  2. NameNode返回DataNode列表,用于存储数据块副本。
  3. 客户端将数据块分片并并行写入指定的DataNode。
  4. DataNode将数据块复制到其他副本节点。

数据读取流程:

  1. 客户端请求NameNode获取文件块的位置信息。
  2. NameNode返回存储该块的DataNode列表。
  3. 客户端并行读取各个DataNode上的数据块。
7. 什么是Secondary NameNode?它的作用是什么?

回答:
Secondary NameNode不是NameNode的备份节点,而是一个辅助节点,负责定期获取NameNode的元数据快照和编辑日志,将其合并以减少NameNode的启动时间和编辑日志的长度。

8. 如何处理NameNode的单点故障问题?

回答:
可以通过使用Hadoop 2.x引入的高可用性(HA)机制来处理NameNode的单点故障问题。HA架构下,有一个Active NameNode和一个Standby NameNode,Active NameNode故障时,Standby NameNode可以接管工作。

9. 什么是Hadoop的块(Block)?为什么要使用块?

回答:
块是HDFS中存储数据的基本单位,默认大小为128MB。使用块有以下好处:

  • 大文件可以分块并行存储和处理,提升性能。
  • 易于数据的复制和容错管理。
  • 简化了存储空间管理。
10. HDFS中的数据块大小可以配置吗?如果可以,如何配置?

回答:
可以配置HDFS中的数据块大小。通过修改hdfs-site.xml文件中的dfs.blocksize属性来设置所需的块大小,例如:

<property>   <name>dfs.blocksize</name>   <value>134217728</value> <!-- 128MB --> </property> 
11. 什么是Apache Spark?它有哪些核心组件?

回答:
Apache Spark是一个用于大数据处理的快速、通用的集群计算系统。其核心组件包括:

  • Spark Core: 提供基本的任务调度、内存管理、错误恢复等功能。
  • Spark SQL: 处理结构化数据的模块,支持SQL查询。
  • Spark Streaming: 处理实时数据流的模块。
  • MLlib: 机器学习库。
  • GraphX: 图计算库。
12. 什么是RDD(Resilient Distributed Dataset)?其特性有哪些?

回答:
RDD是Spark的基本抽象,代表一个不可变的分布式数据集合。其主要特性包括:

  • 容错性: 通过血统(lineage)记录生成RDD的操作序列,以在节点故障时重算丢失的数据。
  • 分区性: 数据被分成多个分区,并行存储和处理。
  • 惰性计算: 转换操作是惰性执行的,只有在行动操作触发时才会计算。
  • 不可变性: 一旦创建后就不可修改,只能通过转换生成新的RDD。
13. Spark的执行模型是怎样的?

回答:
Spark的执行模型包括以下角色和步骤:

  • Driver: 运行用户的main方法,负责任务的分配和调度。
  • Executor: 在工作节点上运行,负责实际执行任务,并将结果返回给Driver。
  • Job: 由行动操作触发的整个计算过程。
  • Stage: Job分解成多个阶段,每个阶段由一系列并行的任务组成。
  • Task: 最小的计算单元,一个任务对应RDD的一个分区。
14. 解释Spark SQL和DataFrame的概念。

回答:
Spark SQL是用于处理结构化数据的模块,支持SQL查询、数据框(DataFrame)和数据集(Dataset)。DataFrame是分布式的数据集,类似于传统数据库中的表,提供了更高级的API和优化功能,如列式存储、谓词下推等。

15. 什么是Spark Streaming?它是如何处理流数据的?

回答:
Spark Streaming用于处理实时数据流。其核心概念是DStream(Discretized Stream),将实时数据流分成一系列的小批次(micro-batches),每个批次作为RDD处理,从而将实时数据处理转化为一系列批处理操作。

16. 什么是宽依赖和窄依赖?举例说明。

回答:

  • 窄依赖: 每个父RDD的分区最多被一个子RDD的分区使用。例如,mapfilter操作。
  • 宽依赖: 每个父RDD的分区可能被多个子RDD的分区使用,需要进行Shuffle。例如,groupByKeyreduceByKey操作。
17. 什么是Spark的持久化(Persistence)机制?

回答:
持久化机制用于将RDD存储在内存或磁盘中,以便重复使用。可以通过调用persist()cache()方法实现。不同的存储级别包括:

  • MEMORY_ONLY: 仅存储在内存中。
  • MEMORY_AND_DISK: 内存不足时溢写到磁盘。
  • DISK_ONLY: 仅存储在磁盘中。
18. 解释Spark中的Shuffle操作及其优化方法。

回答:
Shuffle是指将数据从一个节点移动到另一个节点的过程,通常发生在宽依赖操作中。Shuffle操作比较耗时,需要进行网络传输和磁盘IO。优化方法包括:

  • 合适的分区策略: 使用repartitioncoalesce调整分区数。
  • 预聚合: 使用combineByKey等操作减少Shuffle的数据量。
  • 广播变量: 对较小的数据集使用广播变量,避免重复传输。
19. 什么是广播变量和累加器?它们的作用是什么?

回答:

  • 广播变量: 用于在所有节点之间共享只读变量,避免每个任务都传输副本。
  • 累加器: 用于在所有节点之间累加共享变量,例如计数器或求和操作。
20. 如何在YARN上运行Spark应用程序?

回答:
可以通过两种模式在YARN上运行Spark应用程序:

  • Client模式: Driver在客户端本地运行。
  • Cluster模式: Driver在YARN集群中运行。
    提交作业时需要指定--master yarn参数,例如:
spark-submit --master yarn --deploy-mode cluster --class <main-class> <jar-file> 
21. 什么是YARN?它的主要组件有哪些?

回答:
YARN(Yet Another Resource Negotiator)是Hadoop 2.0中引入的资源管理和作业调度框架。其主要组件包括:

  • ResourceManager: 管理集群资源和调度应用程序。
  • NodeManager: 管理每个节点上的资源,负责容器的启动、监控和报告。
  • ApplicationMaster: 为每个应用程序(作业)管理其生命周期,包括任务的调度和执行。
  • Container: 资源抽象单元,包含计算资源(CPU、内存)和任务的运行环境。
22. YARN的架构是怎样的?

回答:
YARN的架构是一个主从架构,包括以下角色:

  • ResourceManager(主节点): 集中管理集群资源,负责资源的分配和调度。
  • NodeManager(从节点): 运行在每个集群节点上,负责管理本地资源,执行和监控容器。
  • ApplicationMaster(每个应用程序): 为单个应用程序管理资源申请和任务调度。
  • Container: 资源分配单元,由NodeManager启动,用于运行任务。
23. ResourceManager的主要功能是什么?

回答:
ResourceManager的主要功能包括:

  • 资源分配: 管理和分配集群中的计算资源(CPU、内存)。
  • 作业调度: 根据调度策略分配资源给不同的应用程序。
  • 监控和管理: 跟踪各个应用程序的资源使用情况和运行状态。
24. NodeManager的作用是什么?

回答:
NodeManager运行在每个集群节点上,其作用包括:

  • 资源管理: 管理节点上的CPU、内存等资源。
  • 容器管理: 启动、监控和终止容器。
  • 资源汇报: 定期向ResourceManager报告节点的资源使用情况和容器状态。
25. ApplicationMaster的职责是什么?

回答:
ApplicationMaster是每个应用程序的专属进程,负责:

  • 资源申请: 向ResourceManager申请资源。
  • 任务调度: 将资源分配给具体的任务,并调度任务的执行。
  • 容错管理: 监控任务执行情况,处理失败的任务并重新调度。
26. 什么是YARN的Container?其作用是什么?

回答:
Container是YARN中资源分配的基本单位,包括了指定数量的CPU和内存资源。Container由NodeManager管理,用于运行任务的执行环境。

27. YARN的资源调度策略有哪些?

回答:
YARN支持多种资源调度策略,常见的有:

  • Capacity Scheduler: 通过队列配置实现资源的容量调度,适合多租户环境。
  • Fair Scheduler: 按需分配资源,使得所有应用程序能公平地共享集群资源。
  • FIFO Scheduler: 先来先服务,按作业提交顺序调度资源。
28. YARN如何进行资源管理和作业调度?

回答:
YARN通过ResourceManager进行集中资源管理和作业调度:

  • 资源管理: ResourceManager接受NodeManager的资源报告,管理整个集群的资源池。
  • 作业调度: ResourceManager根据调度策略将资源分配给不同的ApplicationMaster。ApplicationMaster再将资源分配给具体的任务,并提交给NodeManager执行。
29. 如何在YARN上运行一个Hadoop作业?

回答:
在YARN上运行一个Hadoop作业的步骤:

  1. 提交作业: 用户通过客户端提交作业到ResourceManager。
  2. 启动ApplicationMaster: ResourceManager分配资源并启动ApplicationMaster。
  3. 申请资源: ApplicationMaster向ResourceManager申请资源(容器)。
  4. 任务执行: ResourceManager分配容器,NodeManager启动容器并执行任务。
  5. 监控和完成: ApplicationMaster监控任务执行情况,所有任务完成后通知ResourceManager。
30. YARN如何处理应用程序的失败和容错?

回答:
YARN通过以下机制处理应用程序的失败和容错:

  • 任务重试: ApplicationMaster监控任务执行情况,如果任务失败,可以重新调度和重试。
  • ApplicationMaster容错: 如果ApplicationMaster失败,ResourceManager会重启一个新的ApplicationMaster,并从上次失败的状态继续执行。
  • 节点容错: 如果某个NodeManager失败,其上运行的任务会重新调度到其他可用节点。

内容会不定期更新

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!