暂无说说

2019年03月的内容

大数据

数据仓库的架构与设计

数据仓库的架构与设计
什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特点。 特点 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,……继续阅读 »

jiajun 9个月前 (03-16) 203浏览 0评论 1个赞

pyspark

构建一个机器学习工作流

构建一个机器学习工作流
工作流(ML Pipelines)例子 本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的。我们的目的是查找出所有包含”spark”的句子,即将包含”spark”的句子的标签设为 1,没有”spark”的……继续阅读 »

jiajun 9个月前 (03-10) 903浏览 0评论 0个赞

pyspark

机器学习工作流(ML Pipelines)

机器学习工作流(ML Pipelines)
一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 在介绍工作流之前,我们先来了解几个重要概念: DataFrame:使用 Spark SQL 中……继续阅读 »

jiajun 9个月前 (03-10) 242浏览 0评论 2个赞

pyspark

spark读取kafka数据

spark读取kafka数据
kafka 安装 关于 Kafka 的概念和安装方法,请参考《kafka 测试节点安装》。在安装的时候,要注意,到 Kafka 官网下载安装文件时,一定要选择和自己电脑上已经安装的 scala 版本号一致才可以,spark2.4.0 使用 scala 版本号是 2.11,所以,一定要选择 Kafka 版本号是……继续阅读 »

jiajun 9个月前 (03-10) 216浏览 0评论 0个赞

大数据

kafka测试节点安装

kafka测试节点安装
核心概念 下面介绍 Kafka 相关概念,以便运行下面实例的同时,更好地理解 Kafka. 1. Broker Kafka 集群包含一个或多个服务器,这种服务器被称为 broker 2. Topic 每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic ……继续阅读 »

jiajun 9个月前 (03-10) 170浏览 0评论 0个赞

superset

轻量级BI工具Superset

轻量级BI工具Superset
Superset 简介 Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 Superset 的前端主要用到了 React 和 NVD3/D3,而……继续阅读 »

jiajun 9个月前 (03-06) 478浏览 0评论 0个赞

pyspark

spark连接Hive读写数据

spark连接Hive读写数据
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 测试已经安装的 Spark 版本是否支持 Hive 现在让我们测试一下自己电脑上已……继续阅读 »

jiajun 9个月前 (03-03) 368浏览 0评论 0个赞

pyspark

spark源码编译

spark源码编译
为了让 Spark 能够访问 Hive,必须为 Spark 添加 Hive 支持。Spark 官方提供的预编译版本,通常是不包含 Hive 支持的,需要采用源码编译,编译得到一个包含 Hive 支持的 Spark 版本。 spark 源码下载地址 https://mirrors.cnnic.cn/apa……继续阅读 »

jiajun 9个月前 (03-03) 194浏览 0评论 0个赞