Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。

那么本篇就介绍下如何利用Ui做性能分析,因为本人的经验也不是很丰富,所以只能作为一个入门的介绍。

大体上会按照下面的思路进行讲解:

  • 怎么访问Spark UI

  • SparkUI能看到什么东西?job,stage,storage,environment,excutors

  • 调优的一些经验总结

Spark UI入口

如果是单机版本,在单机调试的时候输出信息中已经提示了UI的入口:

17/02/26 13:55:48 INFO SparkEnv: Registering OutputCommitCoordinator17/02/26 13:55:49 INFO Utils: Successfully started service 'SparkUI' on port 4040.17/02/26&n