暂无说说

spark源码编译

pyspark jiajun 8个月前 (03-03) 160次浏览 0个评论 扫描二维码

为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。

spark 源码下载地址

https://mirrors.cnnic.cn/apache/spark/spark-2.4.0/,打开后下载 spark-2.4.0.tgz 即可。

编译 spark

解压

tar -zxvf spark-2.4.0.tgz
cd spark-2.4.0/

修改 pom.xml 文件

#把<useZincServer>ture</useZincServer>中的 true 改成 false
<configuration>
    <scalaVersion>${scala.version}</scalaVersion>
     <recompileMode>incremental</recompileMode>
    <useZincServer>false</useZincServer>

编译

./dev/make-distribution.sh --tgz --name h27hive -Pyarn -Psparkr -Phadoop-2.7 -Dhadoop.version=2.7.2 -Phive -Phive-thriftserver -DskipTests

其中,-Phadoop-2.7 -Dhadoop.version=2.7.1 指定安装 spark 时的 hadoop 版本,一定要对应,这个 hadoop 版本是你当前电脑上已经安装的 Hadoop 的版本。 -Phive -Phive-thriftserver 这两个选项让其支持 Hive。 -Psparkr,表示要把 sparkR 编译进去。-DskipTests 能避免测试不通过时发生的错误。上面命令中“h27hive”只是我们给编译以后的文件的一个名称,最终编译成功后会得到文件名“spark-2.1.0-bin-h27hive.tgz”,这个就是包含 Hive 支持的 Spark 安装文件。

喜欢 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址