初识spark,需要对其API有熟悉的了解才能方便开发上层应用。本文用图形的方式直观表达相关API的工作特点,并提供了解新的API接口使用的方法。例子代码全部使用python实现。
1. 数据源准备
准备输入文件:
$ cat /tmp/inapple bag bag cat cat cat
启动pyspark:
$ ./spark/bin/pyspark
使用textFile创建RDD:
>>> txt = sc.textFile("file:///tmp/in", 2)查看RDD分区与数据:
>>> txt.glom().collect() [[u'apple', u'bag bag'], [u'cat cat cat']]
2. transformation
flatMap
处理RDD的每一行,一对多映射。
代码示例:
>>> txt.flatMap(lambda line: line.split()).collect() [u'apple', u'bag', u'bag', u'cat', u'cat', u'cat']
示意图:

map
处理RDD的每一行,一对一映射。
代码示例:
>>> txt

