暂无说说

pyspark之在集群上运行Spark应用程序

pyspark jiajun 11个月前 (12-09) 166次浏览 0个评论 扫描二维码

启动 Spark 集群

启动 Hadoop 集群

start-dfs.sh
start-yarn.sh

启动 spark 集群

start-master.sh
start-slaves.sh

spark 集群管理器

(1)在 spark 集群中运行 JAR 包程序

向 spark 集群管理器提交应用,需要把 spark://s100:7077 作为主节点参数传递给 spark-submit,如:

spark-submit --class org.apache.spark.examples.SparkPi --master spark://s100:7077 /soft/spark/examples/jars/spark-examples_2.12-2.4.0.jar 100 2>&1 | grep "Pi is roughly"

注:上例是 spark 自带的样例程序 SparkPi,它的功能是计算得到 pi 的值(3.1415926)。jar 包可以在 SPARK_HOME/examples/jars 目录下找到。

(2)在 spark 集群中运行pyspark

可以用 spark-shell 连接到独立集群管理器上。

把一个 README.md 文件拷贝到 HDFS 上

cd /soft/spark
hdfs dfs -mkdir /spark
hdfs dfs -put README.md /spark

在 Shell 中输入如下命令启动进入pyspark

pyspark --master spark://s100:7077

测试代码:

>>> lines = sc.textFile("hdfs://s100:9000/spark/README.md")
>>> lines .count()
105                                                                             
>>> lines.first()
u'# Apache Spark'

可以在 Web ui 中查看应用的运行情况,在浏览器中输入地址进行查看(http://s100:8080/),如下图:

Hadoop YARN 管理器

(1)YARN 管理器中运行 JAR 包应用程序
向 Hadoop YARN 集群管理器提交应用,需要把 yarn-cluster 作为主节点参数递给 spark-submit。

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /soft/spark/examples/jars/spark-examples_2.12-2.4.0.jar 

运行后,根据在 Shell 中得到输出的结果地址查看,如下图:

复制结果地址到浏览器,点击查看 Logs,再点击 stdout,即可查看结果,如下图:

(2)、在 yarn 中运行pyspark

可以用pyspark连接到 yarn 集群管理器上,把–master yarn 作为参数传递。

pyspark --master yarn

在 pyspark 中输入如下代码进行测试:

>>> lines = sc.textFile("hdfs://s100:9000/spark/README.md")
>>> lines .count()
105                                                                             
>>> lines.first()
u'# Apache Spark'

用户在 Hadoop Yarn 集群管理 Web 界面查看所有应用的运行情况,可以在浏览器中输入地址进行查看(http://s100:8088/cluster) ,如下图: 

 

喜欢 (1)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址