分类导航

Spark RDD编程核心

发布时间：2017年02月22日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

一句话说，在Spark中对数据的操作其实就是对RDD的操作，而对RDD的操作不外乎创建、转换、调用求值。

什么是RDD

　　RDD（Resilient Distributed Dataset），弹性分布式数据集。

　　它定义了如何在集群的每个节点上操作数据的一系列命令，而不是指真实的数据，Spark通过RDD可以对每个节点的多个分区进行并行的数据操作。

　　之所以称弹性，是因为其有高容错性。默认情况下，Spark会在每一次行动操作后进行RDD重计算，如想在多个行动操作中使用RDD,可以将其缓存（以分区的方式持久化）到集群中每台机器的内存或者磁盘中。当一台机器失效无法读取RDD数据时，可通过此特性重算丢掉的分区，从而恢复数据，此过程对用户透明。

　　

如何创建RDD

　　可通过以下几种方式创建RDD：

通过读取外部数据集（本地文件系统/HDFS/...）
通过读取集合对象（List/Set/...）
通过已有的RDD生成新的RDD

延伸阅读

ssh框架 2016-09-30
阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26
消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26
词向量-LRWE模型-更好地识别反义词同义词 2017-07-26
从栈不平衡问题理解 calling convention 2017-07-26
php imagemagick 处理图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26
Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26
阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26
集合结合数据结构来看看(二) 2017-07-26

学习是年轻人改变自己的最好方式-Java培训,做最负责任的教育,学习改变命运,软件学习,再就业,大学生如何就业,帮大学生找到好工作,lphotoshop培训,电脑培训,电脑维修培训,移动软件开发培训,网站设计培训,网站建设培训

学习是年轻人改变自己的最好方式

我想了解如何学习