图解Spark API

发布时间：2016年12月16日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

初识spark，需要对其API有熟悉的了解才能方便开发上层应用。本文用图形的方式直观表达相关API的工作特点，并提供了解新的API接口使用的方法。例子代码全部使用python实现。

1. 数据源准备

准备输入文件：

$ cat /tmp/inapple
bag bag
cat cat cat

启动pyspark：

$ ./spark/bin/pyspark

使用textFile创建RDD:

>>> txt = sc.textFile("file:///tmp/in", 2)

查看RDD分区与数据：

>>> txt.glom().collect()
[[u'apple', u'bag bag'], [u'cat cat cat']]

2. transformation

flatMap

处理RDD的每一行，一对多映射。

代码示例：

>>> txt.flatMap(lambda line: line.split()).collect()
[u'apple', u'bag', u'bag', u'cat', u'cat', u'cat']

示意图：

大数据培训,云培训,数据挖掘培训,云计算培训,高端软件开发培训,项目经理培训

map

处理RDD的每一行，一对一映射。

代码示例：

>>> txt
        
		
        		网友评论
     		
				
			
			
			
		
		
		
    	
    	
        	
        		更多精彩分享
        		
        			
        		
        			
	        		
	        		学习是年轻人改变自己的最好方式

分类导航

图解Spark API

1. 数据源准备

2. transformation

flatMap

map

网友评论

更多精彩分享