暂无说说

数据仓库的架构与设计

数据仓库的架构与设计
什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特点。 特点 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,……继续阅读 »

jiajun 3个月前 (03-16) 60浏览 0评论 1个赞

构建一个机器学习工作流

构建一个机器学习工作流
工作流(ML Pipelines)例子 本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的。我们的目的是查找出所有包含”spark”的句子,即将包含”spark”的句子的标签设为 1,没有”spark”的……继续阅读 »

jiajun 4个月前 (03-10) 56浏览 0评论 0个赞

机器学习工作流(ML Pipelines)

机器学习工作流(ML Pipelines)
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 在介绍工作流之前,我们先来了解几个重要概念: DataFrame:使用 Spark SQL 中……继续阅读 »

jiajun 4个月前 (03-10) 46浏览 0评论 1个赞

spark读取kafka数据

spark读取kafka数据
kafka 安装 关于 Kafka 的概念和安装方法,请参考《kafka 测试节点安装》。在安装的时候,要注意,到 Kafka 官网下载安装文件时,一定要选择和自己电脑上已经安装的 scala 版本号一致才可以,spark2.4.0 使用 scala 版本号是 2.11,所以,一定要选择 Kafka 版本号是……继续阅读 »

jiajun 4个月前 (03-10) 62浏览 0评论 0个赞

kafka测试节点安装

kafka测试节点安装
核心概念 下面介绍 Kafka 相关概念,以便运行下面实例的同时,更好地理解 Kafka. 1. Broker Kafka 集群包含一个或多个服务器,这种服务器被称为 broker 2. Topic 每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic ……继续阅读 »

jiajun 4个月前 (03-10) 51浏览 0评论 0个赞

spark连接Hive读写数据

spark连接Hive读写数据
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 测试已经安装的 Spark 版本是否支持 Hive 现在让我们测试一下自己电脑上已……继续阅读 »

jiajun 4个月前 (03-03) 63浏览 0评论 0个赞

spark源码编译

spark源码编译
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 spark 源码下载地址 https://mirrors.cnnic.cn/apa……继续阅读 »

jiajun 4个月前 (03-03) 56浏览 0评论 0个赞

spark读写Parquet

spark读写Parquet
Spark SQL 可以支持 Parquet、JSON、Hive 等数据源,并且可以通过 JDBC 连接外部数据源。这里介绍 spark 读取 Parquet。 Parquet 是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录。Parquet 是语言无关的,而且不与任何一种数据处理框架绑定在一起,适……继续阅读 »

jiajun 4个月前 (03-03) 39浏览 0评论 0个赞

把RDD转换成DataFrame

把RDD转换成DataFrame
Spark 官网提供了两种方法来实现从 RDD 转换得到 DataFrame,第一种方法是,利用反射来推断包含特定类型对象的 RDD 的 schema,适用对已知数据结构的 RDD 转换;第二种方法是,使用编程接口,构造一个 schema 并将其应用在已知的 RDD 上。 利用反射机制推断 RDD 模式 ……继续阅读 »

jiajun 4个月前 (03-03) 33浏览 0评论 0个赞