暂无说说

标签:pyspark

pyspark

构建一个机器学习工作流

构建一个机器学习工作流
工作流(ML Pipelines)例子 本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的。我们的目的是查找出所有包含”spark”的句子,即将包含”spark”的句子的标签设为 1,没有”spark”的……继续阅读 »

jiajun 8个月前 (03-10) 877浏览 0评论 0个赞

pyspark

机器学习工作流(ML Pipelines)

机器学习工作流(ML Pipelines)
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 在介绍工作流之前,我们先来了解几个重要概念: DataFrame:使用 Spark SQL 中……继续阅读 »

jiajun 8个月前 (03-10) 233浏览 0评论 2个赞

pyspark

spark连接Hive读写数据

spark连接Hive读写数据
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 测试已经安装的 Spark 版本是否支持 Hive 现在让我们测试一下自己电脑上已……继续阅读 »

jiajun 9个月前 (03-03) 310浏览 0评论 0个赞

pyspark

spark源码编译

spark源码编译
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 spark 源码下载地址 https://mirrors.cnnic.cn/apa……继续阅读 »

jiajun 9个月前 (03-03) 181浏览 0评论 0个赞

pyspark

spark读写Parquet

spark读写Parquet
Spark SQL 可以支持 Parquet、JSON、Hive 等数据源,并且可以通过 JDBC 连接外部数据源。这里介绍 spark 读取 Parquet。 Parquet 是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录。Parquet 是语言无关的,而且不与任何一种数据处理框架绑定在一起,适……继续阅读 »

jiajun 9个月前 (03-03) 158浏览 0评论 0个赞

pyspark

把RDD转换成DataFrame

把RDD转换成DataFrame
Spark 官网提供了两种方法来实现从 RDD 转换得到 DataFrame,第一种方法是,利用反射来推断包含特定类型对象的 RDD 的 schema,适用对已知数据结构的 RDD 转换;第二种方法是,使用编程接口,构造一个 schema 并将其应用在已知的 RDD 上。 利用反射机制推断 RDD 模式 ……继续阅读 »

jiajun 9个月前 (03-03) 155浏览 0评论 0个赞

pyspark

DataFrame的创建

DataFrame的创建
从 Spark2.0 以上版本开始,Spark 使用全新的 SparkSession 接口替代 Spark1.6 中的 SQLContext 及 HiveContext 接口来实现其对数据加载、转换、处理等功能。SparkSession 实现了 SQLContext 及 HiveContext 所有功能。 S……继续阅读 »

jiajun 9个月前 (03-03) 141浏览 0评论 0个赞