博客首页 | KNOWU

项目名称

项目详细描述

链接名称

链接详细描述

书籍名称

书籍详细描述

文章名称

文章详细描述

Flink维表Join四种方式

概述

常见的维表Join方式有四种：

预加载维表
热存储维表
广播维表
Temporal table function join

下面分别使用这四种方式来实现一个join的需求，这个需求是：一个主流中数据是用户信息，字段包括用户姓名、城市id；维表是城市数据，字段包括城市ID、城市名称。要求用户表与城市表关联，输出为：用户名称、城市ID、城市名称。

用户表表结构如下：

字段名	数据类型	数据样例
用户姓名	String	User1
城市ID	Int	1001
时间戳	Long	1000

KNOWU大约 13 分钟

hbase

hbase介绍

HBase产生背景介绍:

由于 HAOOP 不支持随机读写的操作, 仅支持顺序性读写操作, 适合于进行批量化处理操作

HBase是采用 java 语言开发, HBase基于HDFS , 是一个支持高效的随机读写能力的noSQL型数据库

HBase支持三种方式进行查询数据:

1) 支持主键查询
2) 支持主键的范围查询
3) 支持全表查询

KNOWU大约 53 分钟

HDFS

HDFS的基本介绍

HDFS: 分布式文件存储系统
目的: 存储海量数据
分布式文件存储过程：

KNOWU大约 17 分钟

MapReduce

MapReduce的基本介绍

MapReduce: 分布式计算框架

分而治之:  
    生活中: 搬砖 图书馆数书  计算从1~100和

整个分而治之思想主要有二大阶段: 
分(map阶段): 将一个任务拆分为多个小的任务

合(reduce阶段): 将每个小的任务结果进行聚合汇总在一起

MapReduce既然是一个分布式计算框架, 必然需要有输入 和 输出, 数据在map执行之前进行读取数据, 在reduce之后将数据写出去

数据经历阶段:

1) 数据读取阶段:  不断持续的一直读取数据, 默认一行一行的读取数据, 每读取一行 就需要执行一次map的操作 数据传递 采用 kv方式:  读取过来数据 一般称为 k1和v1
2) map阶段: 接收k1和v1, 对数据进行处理, 形成新的键值对  k2和 v2
3) reduce阶段: 接收k2和v2 进行聚合统计操作, 然后转换为k3和v3
4) 数据输出阶段: 将k3和v3输出到目的地

KNOWU大约 34 分钟

Hive

前言

数据仓库的基本介绍

数据仓库和数据库的区别:
- OLTP(联机事务处理): 数据库面向于事务处理存储业务数据数据库在设计的时候, 尽可能避免冗余出现捕获数据对数据进行CURD操作对交互性要求比较高
- OLAP(联机分析处理): 数据仓库面向于主题存储过去既定发生过数据 ,为了分析方便, 可以允许出现一定冗余情况数据分析更多做的都是查询操作 , 对交互性没有要求
- 注意: 数据仓库的出现, 绝不是要替代数据库的
什么样容器可以作为数据仓库呢? 只要能够存储数据, 并且可以对数据进行查询容器都可以
- 例如: mysql oracle SQL server Excel
- 对系统过去已经既定发生过的数据, 进行数据分析, 从而对未来提供决策支持
数据分析:
- 本质上来讲, 其实就是在数据查询操作, 对过去的数据进行查询, 已得到目的结论过程

KNOWU大约 53 分钟

spark

Spark入门

四代计算引擎

第一代引擎：MR
第二代引擎：Hive（MR,Spark,Tez）部分支持DAG(有向无环图)
第三代引擎：Spark和Impala(完全支持DAG)
第四代计算引擎：批流统一FLink(完全支持DAG)
技术发展：
面试题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？
- 只需要回答进程和线程的区别
- 线程基本概念
  
  l 线程是CPU的基本调度单位
  
  l 一个进程一般包含多个线程, 一个进程下的多个线程共享进程的资源
  
  l 不同进程之间的线程相互不可见
  
  l 线程不能独立执行
  
  l 一个线程可以创建和撤销另外一个线程

KNOWU大约 123 分钟

奇货可居

KNOWU小于 1 分钟

数据中台 vs 数据仓库 vs 数据湖

一、数据中台、数据仓库与数据湖的定义与定位

架构类型	定义	定位
数据中台	集中管理企业数据资产的平台，实现数据的共享和高效利用	支持业务部门的数据需求，提供数据服务和分析能力
数据仓库	面向主题的、集成的、相对稳定的、反映历史变化的数据集合	支持管理决策
数据湖	存储原始数据的仓库，允许用户按需对数据进行查询、分析和处理	支持多种数据类型和格式，进行探索性分析和数据挖掘

KNOWU大约 4 分钟

分布式理论

cap原则-分布式系统设计的指导思想

大数据系统几乎都是分布式的，CAP 定理是分布式系统的基本定理，是理解分布式系统的起点。

什么是cap？

分布式系统有三个指标：

KNOWU大约 12 分钟

布隆过滤器和布谷鸟过滤器

前言

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出，它是一种space efficient的概率型数据结构，用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元素，但不可以删除已有元素。其中的元素越多，false positive rate(误报率)越大，但是false negative (漏报)是不可能的。

KNOWU大约 25 分钟