A. spark 4040页面 不能访问。 如果使用的是spark-shell启动写程序,4040可以出
4040页面只有在有spark 任务运行时才能访问,你在任务访问日志里也能找到类似的语句,提交job后Spark-UI才会启动。
当任务运行完了,立马端口就释放了。
所以建议你配置一下spark-history 页面,运行完了可以查看已经finished的job,下面是简单的配置步骤,具体的还请网络教程。
spark-default.conf中配置如下参数
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoopmaster:8020/user/spark_event_log
spark.history.fs.logDirectory hdfs://hadoopmaster:8020/user/spark_event_log
web ui http://sparkmaster:18080/
spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://had
oop000:8020/directory"
参数描述:
spark.history.ui.port=7777调整WEBUI访问的端口号为7777
spark.history.fs.logDirectory=hdfs://hadoop000:8020/directory配置了该属性后,在start-history-server.sh时就无需再显示的指定路径
spark.history.retainedApplications=3 指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除
启动
cd $SPARK_HOME/sbin
start-history-server.sh
需要在启动时指定目录:
start-history-server.shhdfs://hadoop000:8020/directory
注意的是spark 程序中需要将sparkcontext stop 掉,否则即便是运行完毕,web页面也只能显示incompleted applications,而不是completed applications
B. spark master web ui 能看到些什么信息
1.查看正在运行app的信息
访问master WEB UI : http://master:8080
然后点击Running Applications 下Application ID或者Name查看信息
2.查看运行完成app的信息
按照上面在master WEB UI中的操作方法访问
会产生报错内容:
点击(此处)折叠或打开
No event logs were found for this application! To enable event logging, set spark.eventLog.enabled to true and spark.eventLog.dir to the directory to which your event logs are written.
解决办法:按照报错内容
(1)在$SPARK_HOME/conf中的创建spark-defaults.conf
点击(此处)折叠或打开
cp spark-defaults.conf.template spark-defaults.conf
然后在spark-defaults.conf中添加如下数据
点击(此处)折叠或打开
spark.eventLog.enabled=true
spark.eventLog.dir=/tmp/
(2)切换到/tmp/目录下,看有没有spark-events文件夹
点击(此处)折叠或打开
sudo mkdir spark-events
sudo chmod 777 spark-events
经过以上操作之后就可以像查看正在运行app一样在web ui查看已完成app的执行过程的详细信息
3.总结
(1)创建好事件的log信息,并设置好路径,就可以通过spark的web driver来访问已完成app的详细信息
(2)注意在写的spark python 程序结束时,执行sc.stop() 来完成app
(3)此方法使用在standalone mode下,若在其他模式下,可通过执行脚本$SPARK_HOME/sbin/start-history-server.sh 实现
4.参考链接:
http://apache-spark-user-list.1001560.n3.nabble.com/Spark-webUI-application-details-page-td3490.html
http://apache-spark-user-list.1001560.n3.nabble.com/Viewing-web-UI-after-fact-td12023.html
C. 大数据系统WebUI默认端口号速查
1、HDFS页面:50070
2、YARN的管理界面:8088
3、HistoryServer的管理界面:19888
4、Zookeeper的服务端口号:2181
5、Mysql的服务端口号:3306
6、Hive.server1=10000
7、Kafka的服务端口号:9092
8、azkaban界面:8443
9、Hbase界面:16010,60010
10、Spark的界面:8080
11、Spark的URL:7077