RDD 作者: admin 时间: 2020-12-14 分类: pyspark 访问: 1,181 次 一、定义RDD代表Resilient Distributed Dataset,它们是在多个节点上运行和操作以在集群上进行并行处理的元素。1.RDD是不可变元素,这意味着一旦创建了RDD,就无法对其进行更改。2.RDD也具有容错能力,因此在发生任何故障时,它们会自动恢复。您可以对这些RDD应用多个操作来完成某项任务 3. 标签: none