HBase 学习笔记

博主： F嘉阳
发布时间：2018 年 12 月 15 日
823 次浏览
暂无评论
4661字数
分类：学习

概述

HBase 简介

Hbase是一个分布式的、面向列的开源数据库
- 列式数据库：将列值统一存储
- 行式数据库：关系型数据库，将每一行值统一存储
Hbase在Hadoop之上提供了类似于Bigtable的能力
- Bigtable是压缩、高性能、高可扩展性的基于Google GFS文件系统的数据库，用于存储大规模的结构化数据，在扩展性和性能上有很大的优势
Hbase不同于一般的关系数据库，它适合非结构化数据存储
- 非结构化数据：不能用二维表进行存储的数据，例如图片、文档等

Hbase地位

Apache基金会顶级项目
基于Hadoop核心HDFS系统进行数据存储，类似于Hive
可以存储超大数据并适合用来进行大数据的的实时查询

Hbase与HDFS

Hbase建立在Hadoop文件系统上，利用了Hadoop文件系统的容错能力
Hbase提供对数据随机实时读/写访问功能
Hbase内部使用哈希表存储索引，可将HDFS文件中的数据进行快速查找

适用场景

瞬间写入量很大，常用数据库不好支持或者需要很高的成本支撑
数据需要长久保存，且数据量会持久增长到比较大的场景
Hbase不适合用于有join、多级索引、表关系复杂的数据模型

存储模型与原理

CAP定理

分布式系统的CAP理论：理论首先把分布式系统中的三个特性进行了如下归纳：

一致性（C）：所有节点在同一时间具有相同的数据
可用性（A）：保证每个请求不管成功或者失败（包含节点宕机）都有响应，但不保证获取数据的正确性
分区容错性（P）：系统中任意信息的丢失或失败不会影响系统的继续运作。系统如果不能在时限内达成数据一致性，必须就当前操作在C和A之间做出选择。

Hbase为CP特性

ACID

ACID的定义：

Atomic原子性:所有的步骤要么全部完成要么一个也不会完成
Consistent一致性: 通过各种途径包括外键约束等任何写入数据库的数据都是有效的，不能发生表与表之间存在外键约束
Isolated隔离性: 一个未完成事务不会影响另外一个未完成事务
Durable持久性: 一旦一个事务被提交，它应该持久保存

HBase非强ACID

HBase概念

字段	概念	备注
NameSpace	类似RDBMS的“数据库”
Table	表名必须是能用在文件路径里的合法名字	原因：每个表都会映射为HDFS的文件
Row	在表里，每一行代表一个数据对象，每一行都以一个行键（Row Key）来唯一标识的，行键没有特定的数据类型，以二进制的字节进行存储
Row Key	唯一标识一行记录，不可改变，只能删除
Column	由Column family和Column qualifier组成，由（：）进行分隔	例如：family：qualifier
Column family	在定义HBase表的时候需要提前设置好列族，表中所有的列都需要组织在列族里面	同一个列族的成员有相同的前缀，物理上，一个列族的成员都是储存在一起，用于存储优化
Column qualifier（列限定符）	列族中的数据通过列标识来进行映射，可以理解为一个键值对，Column qualifier就是Key	类似具体的列名
Cell	每一个行键，列族和列标识共同组成的一个单元	无特定的数据类型，以二进制字节存储
Timestamp	每个值都有一个Timestamp，作为该值特定版本的标识符	读未指定版本则返回最新版，写未指定时间则使用当前时间，HBase默认保留3个版本数据

HBase与传统关系数据库的区别

	Hbase	RDBMS
数据库大小	PB	GB、TB
数据类型	Bytes	丰富的数据类型
事务支持	ACID只支持单个Row级别	全面的ACID支持
索引	只支持Row-Key	支持
吞吐量	百万查询/每秒	数千查询/每秒

HBase基础架构

HBase分布式系统简介

HMaster
- HBase主/从集群架构中的中央节点
- 负责将region（HBase中存储最小单元，表格的基本单位）分配给RegionServer，协调RegionServer的负载并维护集群状态
- 维护表和Region的元数据，不参与数据的输入/输出过程
RegionServer
- 维护HMaster分配给他的region，处理对这些region的IO请求
- 负责切分正在运行过程中变得过大的region
Zookeeper
- 集群协调器，保证至少一个节点出于active状态
- HMaster启动将系统表加载到ZK（用于服务发现）
- 提供HBase RegionServer状态信息

HBase原理

HBase写流程

Client先访问zookeeper，得到对应的RegionServer地址
Client对RegionServer发起写请求，RegionServer接受数据写入内存
当MemStore的大小达到一定值后，flush到StoreFile并存储到HDFS

HBase特殊点在于其先写内存再写日志，通过类似MySQL中MVCC机制保证一致性

HBase读流程

Client先访问zookeeper，得到对应的RegionServer地址
Client对RegionServer发起读请求
当RegionServer收到client的读请求后，先扫描自己的Memstore，再扫描BlockCache（加速读内容缓存区）如果还没找到则从StoreFile中读取数据，然后将数据返回给Client

读特点

读过程与HMaster无关，只和ZK有关，有效的减小HMaster负载

HBase模块协作

有关HBase的三个问题

HBase启动时发生了什么
当RegionServer失效后会发生什么
当HMaster失效后会发生什么

HBase启动

HBase启动，注册到zookeeper，等待RegionServer汇报
RegionServer注册到zookeeper，并向HMaster汇报
对各个RegionServer（包括失效的）的数据进行整理，分配Region和meta信息（所有表的索引）

RegionServer失效

HMaster将失效RegionServer上的Region分配到其他节点
HMaster更新HBase：meta表保证数据正常访问

HMaster失效

配置高可用后

出于Backup状态的其他HMaster节点选举出一个转为Active状态

未配置高可用

数据能正常读写，但不能创建删除表，也不能更改表结构，因为涉及meta表更新

最后修改：2019 年 12 月 05 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

HBase 学习笔记

F嘉阳 • 2018 年 12 月 15 日

<h2><a id="content-概述" href="#content-概述" class="heading-permalink" aria-hidden="true" title="Permalink"></a>概述</h2>
<h3><a id="content-hbase-简介" href="#content-hbase-简介" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase 简介</h3>
<ul>
<li>Hbase是一个分布式的、面向列的开源数据库
<ul>
<li>列式数据库：将列值统一存储</li>
<li>行式数据库：关系型数据库，将每一行值统一存储</li>
</ul>
</li>
<li>Hbase在Hadoop之上提供了类似于Bigtable的能力
<ul>
<li>Bigtable是压缩、高性能、高可扩展性的基于Google GFS文件系统的数据库，用于存储大规模的结构化数据，在扩展性和性能上有很大的优势</li>
</ul>
</li>
<li>Hbase不同于一般的关系数据库，它适合非结构化数据存储
<ul>
<li>非结构化数据：不能用二维表进行存储的数据，例如图片、文档等</li>
</ul>
</li>
</ul>
<h3><a id="content-hbase地位" href="#content-hbase地位" class="heading-permalink" aria-hidden="true" title="Permalink"></a>Hbase地位</h3>
<ul>
<li>Apache基金会顶级项目</li>
<li>基于Hadoop核心HDFS系统进行数据存储，类似于Hive</li>
<li>可以存储超大数据并适合用来进行大数据的的<strong>实时查询</strong>
</li>
</ul>
<h3><a id="content-hbase与hdfs" href="#content-hbase与hdfs" class="heading-permalink" aria-hidden="true" title="Permalink"></a>Hbase与HDFS</h3>
<ul>
<li>Hbase建立在Hadoop文件系统上，利用了Hadoop文件系统的容错能力</li>
<li>Hbase提供对数据<strong>随机实时读/写</strong>访问功能</li>
<li>Hbase内部使用<strong>哈希表</strong>存储索引，可将HDFS文件中的数据进行快速查找</li>
</ul>
<h3><a id="content-适用场景" href="#content-适用场景" class="heading-permalink" aria-hidden="true" title="Permalink"></a>适用场景</h3>
<ul>
<li>瞬间写入量很大，常用数据库不好支持或者需要很高的成本支撑</li>
<li>数据需要长久保存，且数据量会持久增长到比较大的场景</li>
<li>Hbase不适合用于有join、多级索引、表关系复杂的数据模型</li>
</ul>
<h2><a id="content-存储模型与原理" href="#content-存储模型与原理" class="heading-permalink" aria-hidden="true" title="Permalink"></a>存储模型与原理</h2>
<h3><a id="content-cap定理" href="#content-cap定理" class="heading-permalink" aria-hidden="true" title="Permalink"></a>CAP定理</h3>
<p>分布式系统的CAP理论：理论首先把分布式系统中的三个特性进行了如下归纳：</p>
<ul>
<li>
<p>一致性（C）：所有节点在同一时间具有相同的数据</p>
</li>
<li>
<p>可用性（A）：保证每个请求不管成功或者失败（包含节点宕机）都有响应，但不保证获取数据的正确性</p>
</li>
<li>
<p>分区容错性（P）：系统中任意信息的丢失或失败不会影响系统的继续运作。系统如果不能在时限内达成数据一致性，必须就当前操作在C和A之间做出选择。</p>
</li>
</ul>
<p>Hbase为CP特性</p>
<h3><a id="content-acid" href="#content-acid" class="heading-permalink" aria-hidden="true" title="Permalink"></a>ACID</h3>
<p>ACID的定义：</p>
<ul>
<li>
<strong>Atomic原子性</strong>:所有的步骤要么全部完成要么一个也不会完成</li>
<li>
<strong>Consistent一致性</strong>: 通过各种途径包括外键约束等任何写入数据库的数据都是有效的，不能发生表与表之间存在外键约束</li>
<li>
<strong>Isolated</strong>隔离性: 一个未完成事务不会影响另外一个未完成事务</li>
<li>
<strong>Durable</strong>持久性: 一旦一个事务被提交，它应该持久保存</li>
</ul>
<p>HBase非强ACID</p>
<h3><a id="content-hbase概念" href="#content-hbase概念" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase概念</h3>
<table>
<thead>
<tr>
<th>字段</th>
<th>概念</th>
<th>备注</th>
</tr>
</thead>
<tbody>
<tr>
<td>NameSpace</td>
<td>类似RDBMS的“数据库”</td>
<td></td>
</tr>
<tr>
<td>Table</td>
<td>表名必须是能用在文件路径里的合法名字</td>
<td>原因：每个表都会映射为HDFS的文件</td>
</tr>
<tr>
<td>Row</td>
<td>在表里，每一行代表一个数据对象，每一行都以一个行键（Row Key）来唯一标识的，行键没有特定的数据类型，以二进制的字节进行存储</td>
<td></td>
</tr>
<tr>
<td>Row Key</td>
<td>唯一标识一行记录，不可改变，只能删除</td>
<td></td>
</tr>
<tr>
<td>Column</td>
<td>由Column family和Column qualifier组成，由（：）进行分隔</td>
<td>例如：family：qualifier</td>
</tr>
<tr>
<td>Column family</td>
<td>在定义HBase表的时候需要提前设置好列族，表中所有的列都需要组织在列族里面</td>
<td>同一个列族的成员有相同的前缀，物理上，一个列族的成员都是储存在一起，用于存储优化</td>
</tr>
<tr>
<td>Column qualifier（列限定符）</td>
<td>列族中的数据通过列标识来进行映射，可以理解为一个键值对，Column qualifier就是Key</td>
<td>类似具体的列名</td>
</tr>
<tr>
<td>Cell</td>
<td>每一个行键，列族和列标识共同组成的一个单元</td>
<td>无特定的数据类型，以二进制字节存储</td>
</tr>
<tr>
<td>Timestamp</td>
<td>每个值都有一个Timestamp，作为该值特定版本的标识符</td>
<td>读未指定版本则返回最新版，写未指定时间则使用当前时间，HBase默认保留3个版本数据</td>
</tr>
</tbody>
</table>
<h3><a id="content-hbase与传统关系数据库的区别" href="#content-hbase与传统关系数据库的区别" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase与传统关系数据库的区别</h3>
<table>
<thead>
<tr>
<th></th>
<th>Hbase</th>
<th>RDBMS</th>
</tr>
</thead>
<tbody>
<tr>
<td>数据库大小</td>
<td>PB</td>
<td>GB、TB</td>
</tr>
<tr>
<td>数据类型</td>
<td>Bytes</td>
<td>丰富的数据类型</td>
</tr>
<tr>
<td>事务支持</td>
<td>ACID只支持单个Row级别</td>
<td>全面的ACID支持</td>
</tr>
<tr>
<td>索引</td>
<td>只支持Row-Key</td>
<td>支持</td>
</tr>
<tr>
<td>吞吐量</td>
<td>百万查询/每秒</td>
<td>数千查询/每秒</td>
</tr>
</tbody>
</table>
<h2><a id="content-hbase基础架构" href="#content-hbase基础架构" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase基础架构</h2>
<p><a rel="noopener noreferrer" href="https://i.loli.net/2018/12/15/5c14dd85593e5.jpg"><img src="https://i.loli.net/2018/12/15/5c14dd85593e5.jpg" alt="hbase1.jpg" loading="lazy"  style=""></a></p>
<h3><a id="content-hbase分布式系统简介" href="#content-hbase分布式系统简介" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase分布式系统简介</h3>
<ul>
<li>HMaster
<ul>
<li>HBase主/从集群架构中的中央节点</li>
<li>负责将region（HBase中存储最小单元，表格的基本单位）分配给RegionServer，协调RegionServer的负载并维护集群状态</li>
<li>维护表和Region的元数据，不参与数据的输入/输出过程</li>
</ul>
</li>
<li>RegionServer
<ul>
<li>维护HMaster分配给他的region，处理对这些region的IO请求</li>
<li>负责切分正在运行过程中变得过大的region</li>
</ul>
</li>
<li>Zookeeper
<ul>
<li>集群协调器，保证至少一个节点出于active状态</li>
<li>HMaster启动将系统表加载到ZK（用于服务发现）</li>
<li>提供HBase RegionServer状态信息</li>
</ul>
</li>
</ul>
<h2><a id="content-hbase原理" href="#content-hbase原理" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase原理</h2>
<h3><a id="content-hbase写流程" href="#content-hbase写流程" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase写流程</h3>
<p><a rel="noopener noreferrer" href="https://i.loli.net/2018/12/15/5c14eab0b66f1.jpg"><img src="https://i.loli.net/2018/12/15/5c14eab0b66f1.jpg" alt="hbase2.jpg" loading="lazy"  style=""></a></p>
<ol>
<li>Client先访问zookeeper，得到对应的RegionServer地址</li>
<li>Client对RegionServer发起写请求，RegionServer接受数据写入内存</li>
<li>当MemStore的大小达到一定值后，flush到StoreFile并存储到HDFS</li>
</ol>
<p><a rel="noopener noreferrer" href="https://i.loli.net/2018/12/15/5c14f18fb8065.jpg"><img src="https://i.loli.net/2018/12/15/5c14f18fb8065.jpg" alt="hbase3.jpg" loading="lazy"  style=""></a></p>
<p>HBase特殊点在于其先写内存再写日志，通过类似MySQL中MVCC机制保证一致性</p>
<h3><a id="content-hbase读流程" href="#content-hbase读流程" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase读流程</h3>
<p><a rel="noopener noreferrer" href="https://i.loli.net/2018/12/15/5c14f377038f9.jpg"><img src="https://i.loli.net/2018/12/15/5c14f377038f9.jpg" alt="hbase4.jpg" loading="lazy"  style=""></a></p>
<ol>
<li>Client先访问zookeeper，得到对应的RegionServer地址</li>
<li>Client对RegionServer发起读请求</li>
<li>当RegionServer收到client的读请求后，先扫描自己的Memstore，再扫描BlockCache（加速读内容缓存区）如果还没找到则从StoreFile中读取数据，然后将数据返回给Client</li>
</ol>
<h4><a id="content-读特点" href="#content-读特点" class="heading-permalink" aria-hidden="true" title="Permalink"></a>读特点</h4>
<ul>
<li>读过程与HMaster无关，只和ZK有关，有效的减小HMaster负载</li>
</ul>
<h3><a id="content-hbase模块协作" href="#content-hbase模块协作" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase模块协作</h3>
<p>有关HBase的三个问题</p>
<ol>
<li>HBase启动时发生了什么</li>
<li>当RegionServer失效后会发生什么</li>
<li>当HMaster失效后会发生什么</li>
</ol>
<h4><a id="content-hbase启动" href="#content-hbase启动" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HBase启动</h4>
<ol>
<li>HBase启动，注册到zookeeper，等待RegionServer汇报</li>
<li>RegionServer注册到zookeeper，并向HMaster汇报</li>
<li>对各个RegionServer（包括失效的）的数据进行整理，分配Region和meta信息（所有表的索引）</li>
</ol>
<h4><a id="content-regionserver失效" href="#content-regionserver失效" class="heading-permalink" aria-hidden="true" title="Permalink"></a>RegionServer失效</h4>
<ol>
<li>HMaster将失效RegionServer上的Region分配到其他节点</li>
<li>HMaster更新HBase：meta表保证数据正常访问</li>
</ol>
<h4><a id="content-hmaster失效" href="#content-hmaster失效" class="heading-permalink" aria-hidden="true" title="Permalink"></a>HMaster失效</h4>
<p>配置高可用后</p>
<ol>
<li>出于Backup状态的其他HMaster节点选举出一个转为Active状态</li>
</ol>
<p>未配置高可用</p>
<ol>
<li>数据能正常读写，但不能创建删除表，也不能更改表结构，因为涉及meta表更新</li>
</ol>

HBase 学习笔记

概述

HBase 简介

Hbase地位

Hbase与HDFS

适用场景

存储模型与原理

CAP定理

ACID

HBase概念

HBase与传统关系数据库的区别

HBase基础架构

HBase分布式系统简介

HBase原理

HBase写流程

HBase读流程

读特点

HBase模块协作

HBase启动

RegionServer失效

HMaster失效

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

GraphQL实践10——Netflix Dgs Graphql异步订阅

hadoop分布式搭建的一些坑

LeetCode刷题记录

Typecho Pinghsu 主题加入备案信息

CentOS 7 安装KVM和WebVirtMgr管理面板

Elasticsearch Docker高可用环境搭建

Mesos集群安装

GraphQL实践9——Netflix Dgs Graphql数据更新

SpringBoot 2.x quartz多数据定时任务源配置

GraphQL实践2——Spring-GraphQL集成JPA与MySQL

HBase 学习笔记

概述

HBase 简介

Hbase地位

Hbase与HDFS

适用场景

存储模型与原理

CAP定理

ACID

HBase概念

HBase与传统关系数据库的区别

HBase基础架构

HBase分布式系统简介

HBase原理

HBase写流程

HBase读流程

读特点

HBase模块协作

HBase启动

RegionServer失效

HMaster失效

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

HBase 学习笔记

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款