本文介绍jupyterhub 与 spark 整合,关于jupyterhub 安装,可参考《Jupyterhub 安装——让 Jupyter 支持多用户》
创建配置文件
mkdir -p /usr/share/jupyter/kernels/pyspark2
vi /usr/s……继续阅读 »
jiajun
2年前 (2019-08-12) 643浏览 0评论
5个赞
Jupyterub 产生
Jupyterub 产生得由 Jupyter 的局限性说起。Jupyter 是一款基于 python 的 web notebook 服务,目前有大多 python 数据挖掘与机器学习爱好者使用这款服务,其特性与 Ipytohn Notebook 差不多,准确说 Ipython Not……继续阅读 »
jiajun
2年前 (2019-08-12) 931浏览 0评论
0个赞
什么是数据仓库
1.1 数据仓库的概念
官方定义
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
这个定义的确官方,但是却指出了数据仓库的四个特点。
特点
面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,……继续阅读 »
jiajun
2年前 (2019-03-16) 701浏览 0评论
2个赞
工作流(ML Pipelines)例子
本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的。我们的目的是查找出所有包含”spark”的句子,即将包含”spark”的句子的标签设为 1,没有”spark”的……继续阅读 »
jiajun
2年前 (2019-03-10) 1435浏览 0评论
0个赞
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。
在介绍工作流之前,我们先来了解几个重要概念:
DataFrame:使用 Spark SQL 中……继续阅读 »
jiajun
2年前 (2019-03-10) 707浏览 0评论
2个赞
kafka 安装
关于 Kafka 的概念和安装方法,请参考《kafka 测试节点安装》。在安装的时候,要注意,到 Kafka 官网下载安装文件时,一定要选择和自己电脑上已经安装的 scala 版本号一致才可以,spark2.4.0 使用 scala 版本号是 2.11,所以,一定要选择 Kafka 版本号是……继续阅读 »
jiajun
2年前 (2019-03-10) 680浏览 0评论
0个赞
核心概念
下面介绍 Kafka 相关概念,以便运行下面实例的同时,更好地理解 Kafka.
1. Broker
Kafka 集群包含一个或多个服务器,这种服务器被称为 broker
2. Topic
每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic ……继续阅读 »
jiajun
2年前 (2019-03-10) 623浏览 0评论
1个赞
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。
测试已经安装的 Spark 版本是否支持 Hive
现在让我们测试一下自己电脑上已……继续阅读 »
jiajun
2年前 (2019-03-03) 1067浏览 0评论
1个赞
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。
spark 源码下载地址
https://mirrors.cnnic.cn/apa……继续阅读 »
jiajun
2年前 (2019-03-03) 723浏览 0评论
0个赞
安装 mysql
执行以下命令安装 mysql
sudo apt-get install mysql-server
验证
mysql -uroot -proot
mysql: [Warning] Using a password on the command line interface……继续阅读 »
jiajun
2年前 (2019-03-03) 633浏览 0评论
0个赞