自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

发布时间：2017年01月16日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

SparkSQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)这种语法了（下文简称add columns语法）。如果你的Spark项目中用到了SparkSQL+Hive这种模式，从Spark1.x升级到2.x很有可能遇到这个问题。

为了解决这个问题，我们一般有3种方案可以选择：

启动一个hiveserver2服务，通过jdbc直接调用hive，让hive执行add columns语句。这种应该是改起来最为方便的一种方式了，缺点就是，我们还需要在启动一个hiveserver服务，多一个服务依赖，会增加整个系统的维护成本。
SparkSQL+Hive这种模式，要求我们启动一个HiveMetastore服务，给SparkSQL用，我们也可以在代码中直接直接连接HiveMetastore去执行add columns语句。这种方式的好处是不需要额外依赖其他服务，缺点就是我们要自己调用HiveMetastore相关接口，自己管理SessionState，用起来比较麻烦。
最后一种方式就是直接修改Spark，让他支持add columns语法。这种方式最大的好处就是我们原有的业务逻辑代码不用动，问题就在于，要求对Spark源码有一定的了解，否则改起来还是挺费劲的。这也是我写这篇文章的目的：让大家能够参考本文自行为Spark添加add columns语法支持。

OK，接下来，我们进入主题。

为Spark添加add columns语法支持

本文基于最新版的Spark 2.1.0，源码地址：https://github.com/apache/spark/tree/branch-2.1

1. 改进语法定义

Spark2.1开始使用ANTLR来解析SQL语法，它的语法定义文件借鉴的Presto项目，我们在Spark源码中找到这个文件sql/catalyst/src/main/antlr4/org/apache/spark/sql/catalyst/parser/SqlBase.g4，做如下改

分类导航

自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

为Spark添加add columns语法支持

1. 改进语法定义

网友评论

更多精彩分享