暂无说说

标签:pyspark

pyspark

构建一个机器学习工作流

构建一个机器学习工作流
工作流(ML Pipelines)例子 本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的。我们的目的是查找出所有包含”spark”的句子,即将包含”spark”的句子的标签设为 1,没有”spark”的……继续阅读 »

jiajun 4个月前 (03-10) 56浏览 0评论 0个赞

pyspark

机器学习工作流(ML Pipelines)

机器学习工作流(ML Pipelines)
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 在介绍工作流之前,我们先来了解几个重要概念: DataFrame:使用 Spark SQL 中……继续阅读 »

jiajun 4个月前 (03-10) 46浏览 0评论 1个赞

pyspark

spark连接Hive读写数据

spark连接Hive读写数据
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 测试已经安装的 Spark 版本是否支持 Hive 现在让我们测试一下自己电脑上已……继续阅读 »

jiajun 4个月前 (03-03) 63浏览 0评论 0个赞

pyspark

spark源码编译

spark源码编译
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 spark 源码下载地址 https://mirrors.cnnic.cn/apa……继续阅读 »

jiajun 4个月前 (03-03) 56浏览 0评论 0个赞

pyspark

spark读写Parquet

spark读写Parquet
Spark SQL 可以支持 Parquet、JSON、Hive 等数据源,并且可以通过 JDBC 连接外部数据源。这里介绍 spark 读取 Parquet。 Parquet 是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录。Parquet 是语言无关的,而且不与任何一种数据处理框架绑定在一起,适……继续阅读 »

jiajun 4个月前 (03-03) 39浏览 0评论 0个赞

pyspark

把RDD转换成DataFrame

把RDD转换成DataFrame
Spark 官网提供了两种方法来实现从 RDD 转换得到 DataFrame,第一种方法是,利用反射来推断包含特定类型对象的 RDD 的 schema,适用对已知数据结构的 RDD 转换;第二种方法是,使用编程接口,构造一个 schema 并将其应用在已知的 RDD 上。 利用反射机制推断 RDD 模式 ……继续阅读 »

jiajun 4个月前 (03-03) 33浏览 0评论 0个赞

pyspark

DataFrame的创建

DataFrame的创建
从 Spark2.0 以上版本开始,Spark 使用全新的 SparkSession 接口替代 Spark1.6 中的 SQLContext 及 HiveContext 接口来实现其对数据加载、转换、处理等功能。SparkSession 实现了 SQLContext 及 HiveContext 所有功能。 S……继续阅读 »

jiajun 4个月前 (03-03) 37浏览 0评论 0个赞

pyspark

DataFrame与RDD的区别

DataFrame与RDD的区别
DataFrame 的推出,让 Spark 具备了处理大规模结构化数据的能力,不仅比原有的 RDD 转化方式更加简单易用,而且获得了更高的计算性能。Spark 能够轻松实现从 MySQL 到 DataFrame 的转化,并且支持 SQL 查询。 图 DataFrame 与 RDD 的区别 从上面……继续阅读 »

jiajun 4个月前 (03-03) 36浏览 0评论 0个赞

pyspark

Spark SQL简介

Spark SQL简介
Spark SQL 是 Spark 生态系统中非常重要的组件,其前身为 Shark。Shark 是 Spark 上的数据仓库,最初设计成与 Hive 兼容,但是该项目于 2014 年开始停止开发,转向 Spark SQL。Spark SQL 全面继承了 Shark,并进行了优化。 Shark Shark……继续阅读 »

jiajun 4个月前 (03-03) 30浏览 0评论 0个赞