盛兴彩票网-Apache Spark中的容错。

在我们开始学习Spark的容错功能之前,盛兴彩票让我们先修改概念

现在我们来了解什么是故障以及Spark如何处理容错。

故障是指故障,因此容错是指在故障发生后运行和恢复损失的能力如果我们希望我们的系统具有容错能力,那么它应该是多余的,因为我们需要一个冗余组件来获取丢失的数据。故障数据通过冗余数据恢复。

让我们先看看Spark运行在容错文件系统(如HDFS或S3)上的数据。因此,从容错数据生成的所有RDD都是容错的。但是这不适用于流式/实时数据(网络上的数据)。因此Spark中容错的关键需求就是这种数据。Spark的基本容错语义是:

  • 由于是一个不可变数据集,因此每个Spark RDD都会记住在容错输入数据集上使用确定性操作的沿袭创建它。
  • 如果由于工作者节点故障导致RDD的任何分区丢失,则可使用操作沿袭从原始容错数据集重新计算该分区
  • 假设所有RDD转换都是确定性的,最终转换后的RDD中的数据将始终保持不变,而不管Spark群集中的故障如何。

为了实现所有生成的RDD的容错,实现的数据在群集中的工作节点中的盛兴彩票多个Spark执行程序之间复制这导致
发生故障时需要恢复的两种类型的数据1)接收和复制的数据。2)收到的数据,但为了复制而缓冲。 接收和复制的数据:在此,数据被复制到其他节点之一,因此可以在出现故障时检索数据。

  • 收到的数据但是为了复制而缓冲:数据不会被复制,因此恢复故障的唯一方法是再次从源中检索它。

工作人员以及驱动程序节点也会发生故障。

  • 工作节点失败:在上运行应用程序代码的节点是Spark工作节点。这些是从节点。任何运行执行程序的工作节点都可能失败,从而导致内存不足。如任何接收者在失败的节点上运行,那么它们的缓冲区数据将会丢失。
  • 驱动程序节点失败:如果运行Spark Streaming应用程序的驱动程序节点发生故障,则SparkContent将丢失,并且所有具有内存数据的执行程序都将丢失。

 


通过维护备份主服务器来帮助实现Spark主站容错它是位于应用程序层和操作系统之间的开源软件,可以在大规模集群环境中更轻松地部署和管理应用程序。如果失败,执行程序将重新启动。盛兴彩票发布失败后,执行程序会自动重新启动,spark spark会通过新计算输入数据上的Spark RDD来执行并行恢复接收器在失败时工作人员重新启动

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.gdjxjy.com.cn/a/shengxingcaipiaowang/179.html