暂无说说

pyspark之pyspark2.x环境搭建

spark jiajun 1周前 (10-09) 12次浏览 0个评论 扫描二维码

软件环境

操作系统:centos7

jdk:jdk-8u144

hadoop:hadoop-2.7.2

spark:spark-2.3.2-bin-hadoop2.7

python:Anaconda3-5.3.0

修改/etc/hosts 文件

sudo vi /etc/hosts

在首行添加

192.168.163.103 s103

安装 jdk

jdk 下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

解压 jdk

sudo mkdir /soft
sudo chown hadoop:hadoop /soft/
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /soft/
ln -s /soft/jdk1.8.0_144/ /soft/jdk

配置环境变量

sudo vi /etc/profile

增加

export JAVA_HOME=/soft/jdk
export PATH=$PATH:$JAVA_HOME/bin

刷新环境变量

source /etc/profile

检查是否安装成功

java -version

java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)

安装 hadoop

需要注意的是,hadoop 版本要和 spark 的版本相一致,在 spark 下载页面有说明,这里选用 spark 版本是 spark-2.3.2-bin-hadoop2.7,因此 hadoop 版本是 2.7.

hadoop 下载地址:https://archive.apache.org/dist/hadoop/common/

解压 hadoop

tar -zxvf hadoop-2.7.2.tar.gz -C /soft/
ln -s /soft/hadoop-2.7.2/ /soft/hadoop

配置环境变量​

sudo vi /etc/profile

添加

export HADOOP_HOME=/soft/hadoop
export LD_LIBRARY_PATH=/soft/hadoop/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新环境变量

source /etc/profile

安装 python

sudo yum install -y bzip2
chmod a+x Anaconda3-5.3.0-Linux-x86_64.sh
./Anaconda3-5.3.0-Linux-x86_64.sh

安装过程中,自定义安装路径为:/soft/anaconda

安装 spark

spark 下载地址:http://spark.apache.org/downloads.html

解压

tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /soft/
ln -s /soft/spark-2.3.2-bin-hadoop2.7/ /soft/spark

配置环境变量

sudo vi /etc/profile

添加

export SPARK_HOME=/soft/spark
export PYSPARK_PYTHON=/soft/anaconda/bin/python
export PATH=$PATH:$SPARK_HOME/bin

刷新环境变量

source /etc/profile

测试

命令行测试

在命令行输入pyspark,查看输出是否正确

# pyspark Python 3.7.0 (default, Jun 28 2018, 13:15:42)
[GCC 7.2.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.3.2
/_/

Using Python version 3.7.0 (default, Jun 28 2018 13:15:42)
SparkSession available as 'spark'

提交 python 程序测试

import pandas as pd 
from pyspark.sql import SparkSession 
spark=SparkSession.builder.appName('my_first_app').getOrCreate() 
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) 
spark_df=spark.createDataFrame(df) spark_df.show() 
print('successful')
exit


mathslib , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:pyspark 之 pyspark2.x 环境搭建
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址