暂无说说

jupyterhub与spark整合

pyspark jiajun 2个月前 (08-12) 92次浏览 0个评论 扫描二维码

本文介绍jupyterhub 与 spark 整合,关于jupyterhub 安装,可参考《Jupyterhub 安装——让 Jupyter 支持多用户》

创建配置文件

mkdir -p /usr/share/jupyter/kernels/pyspark2
vi /usr/share/jupyter/kernels/pyspark2/kernel.json
    #添加以下内容
    
    {
      "argv": [
        "python3.7",
        "-m",
        "ipykernel_launcher",
        "-f",
        "{connection_file}"
      ],
      "display_name": "pyspark",
      "language": "python",
      "env": {
        "PYSPARK_PYTHON": "/opt/anaconda3/bin/python",
       "JAVA_HOME": "/opt/jdk",
        "SPARK_HOME": "/opt/spark",
        "HADOOP_CONF_DIR": "/opt/hadoop/etc/hadoop",
        "PYTHONPATH": "/opt/spark/python/:/opt/spark/python/lib/py4j-0.10.7-src.zip"
      }
    }

#注:PYTHONPATH 后面/opt/spark 为$spark_home 路径,py4j-0.10.7-src.zip 不同 spark 版本对应不同版本号,需根据实际更改。另外,由于 systemctl 启动,找不到/etc/profile 下配置的环境变量,如找不到 JAVA_HOME,执行pyspark的时候会报以下错误

java gateway process exited before sending the driver its port number 

这时可在 env 中增加"JAVA_HOME": "/opt/jdk"后重启jupyterhub 解决。

重启jupyterhub

systemctl restart jupyterhub
systemctl status jupyterhub

重新登陆后,在 new 下面多了pyspark

测试​

添加用户 test    

useradd test

修改密码

passwd test

登上 test 用户,前面配置环境都可以使用。

喜欢 (1)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址