当前位置：首页 > news >正文

ClickHouse的分片和副本

news 来源：原创 2024/5/20 11:39:10

1.副本

副本的目的主要是保障数据的高可用性，即使一台ClickHouse节点宕机，那么也可以从其他服务器获得相同的数据。

Data Replication | ClickHouse Docs

1.1 副本写入流程

1.2 配置步骤

（1）启动zookeeper集群

（2）在hadoop102的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml的配置文件,内容如下：

注：也可以不创建外部文件，直接在config.xml中指定<zookeeper>

<?xml version="1.0"?>

<zookeeper-servers>

<host>hadoop102</host>

</node>

<host>hadoop103</host>

</node>

<host>hadoop104</host>

</node>

</zookeeper-servers>

</yandex>

（3）同步到hadoop103和hadoop104上

sudo /home/atguigu/bin/xsync /etc/clickhouse-server/config.d/metrika.xml

（4）在 hadoop102的/etc/clickhouse-server/config.xml中增加

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

（5）同步到hadoop103和hadoop104上

sudo /home/atguigu/bin/xsync /etc/clickhouse-server/config.xml

分别在hadoop102和hadoop103上启动ClickHouse服务

注意：因为修改了配置文件，如果以前启动了服务需要重启

[atguigu@hadoop102|3 ~]$ sudo clickhouse restart

注意：我们演示副本操作只需要在hadoop102和hadoop103两台服务器即可，上面的操作，我们hadoop104可以你不用同步，我们这里为了保证集群中资源的一致性，做了同步。

（6）在hadoop102和hadoop103上分别建表

副本只能同步数据，不能同步表结构，所以我们需要在每台机器上自己手动建表

①hadoop102

create table t_order_rep2 (

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order_rep','rep_102')

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

②hadoop103

create table t_order_rep2 (

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order_rep','rep_103')

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

③参数解释

ReplicatedMergeTree 中，

第一个参数是分片的zk_path一般按照： /clickhouse/table/{shard}/{table_name} 的格式写，如果只有一个分片就写01即可。

第二个参数是副本名称，相同的分片副本名称不能相同。

（7）在hadoop102上执行insert语句

insert into t_order_rep2 values

(101,'sku_001',1000.00,'2020-06-01 12:00:00'),

(102,'sku_002',2000.00,'2020-06-01 12:00:00'),

(103,'sku_004',2500.00,'2020-06-01 12:00:00'),

(104,'sku_002',2000.00,'2020-06-01 12:00:00'),

(105,'sku_003',600.00,'2020-06-02 12:00:00');

（8）在hadoop103上执行select，可以查询出结果，说明副本配置正确

2.分片集群

副本虽然能够提高数据的可用性，降低丢失风险，但是每台服务器实际上必须容纳全量数据，对数据的横向扩容没有解决。

要解决数据水平切分的问题，需要引入分片的概念。通过分片把一份完整的数据进行切分，不同的分片分布到不同的节点上，再通过Distributed表引擎把数据拼接起来一同使用。

Distributed表引擎本身不存储数据，有点类似于MyCat之于MySql，成为一种中间件，通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据。

注意：ClickHouse的集群是表级别的，实际企业中，大部分做了高可用，但是没有用分片，避免降低查询性能以及操作集群的复杂性。

2.1 集群写入流程（3分片2副本共6个节点）

2.2 集群读取流程（3分片2副本共6个节点）

2.3 3分片2副本共6个节点集群配置（供参考）

配置的位置还是在之前的/etc/clickhouse-server/config.d/metrika.xml，内容如下

注：也可以不创建外部文件，直接在config.xml的<remote_servers>中指定

<remote_servers>

<gmall_cluster>

<internal_replication>true</internal_replication>

<host>hadoop101</host>

</replica>

<host>hadoop102</host>

</replica>

</shard>

<internal_replication>true</internal_replication>

<host>hadoop103</host>

</replica>

<host>hadoop104</host>

</replica>

</shard>

<internal_replication>true</internal_replication>

<host>hadoop105</host>

</replica>

<host>hadoop106</host>

</replica>

</shard>

</gmall_cluster>

</remote_servers>

</yandex>

2.4 配置三节点版本集群及副本

2.4.1 集群及副本规划（2个分片，只有第一个分片有副本）

hadoop102

hadoop103

hadoop104

</macros>

</macros>

</macros>

2.4.2 配置步骤

1）在hadoop102的/etc/clickhouse-server/config.d目录下创建metrika-shard.xml文件

注：也可以不创建外部文件，直接在config.xml的<remote_servers>中指定

<?xml version="1.0"?>

<remote_servers>

<gmall_cluster>

<internal_replication>true</internal_replication>

<host>hadoop102</host>

</replica>

<host>hadoop103</host>

</replica>

</shard>

<internal_replication>true</internal_replication>

<host>hadoop104</host>

</replica>

</shard>

</gmall_cluster>

</remote_servers>

<zookeeper-servers>

<host>hadoop102</host>

</node>

<host>hadoop103</host>

</node>

<host>hadoop104</host>

</node>

</zookeeper-servers>

</macros>

</yandex>

2）将hadoop102的metrika-shard.xml同步到103和104

sudo /home/atguigu/bin/xsync /etc/clickhouse-server/config.d/metrika-shard.xml

3）修改103和104中metrika-shard.xml宏的配置

（1）103

[atguigu@hadoop103 ~]$ sudo vim /etc/clickhouse-server/config.d/metrika-shard.xml

（2）104

[atguigu@hadoop104 ~]$ sudo vim /etc/clickhouse-server/config.d/metrika-shard.xml

4）在hadoop102上修改/etc/clickhouse-server/config.xml

5）同步/etc/clickhouse-server/config.xml到103和104

[atguigu@hadoop102 ~]$ sudo /home/atguigu/bin/xsync /etc/clickhouse-server/config.xml

6）重启三台服务器上的ClickHouse服务

[atguigu@hadoop102 clickhouse-server]$ sudo clickhouse restart

[atguigu@hadoop102 clickhouse-server]$ ps -ef |grep click

7）在hadoop102上执行建表语句

会自动同步到hadoop103和hadoop104上
集群名字要和配置文件中的一致
分片和副本名称从配置文件的宏定义中获取

create table st_order_mt on cluster gmall_cluster (

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt','{replica}')

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

可以到hadoop103和hadoop104上查看表是否创建成功

8）在hadoop102上创建Distribute 分布式表

create table st_order_mt_all2 on cluster gmall_cluster

(

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

)engine = Distributed(gmall_cluster,default, st_order_mt,hiveHash(sku_id));

参数含义：

Distributed（集群名称，库名，本地表名，分片键）

分片键必须是整型数字，所以用hiveHash函数转换，也可以rand()

9）在hadoop102上插入测试数据

insert into st_order_mt_all2 values

(201,'sku_001',1000.00,'2020-06-01 12:00:00') ,

(202,'sku_002',2000.00,'2020-06-01 12:00:00'),

(203,'sku_004',2500.00,'2020-06-01 12:00:00'),

(204,'sku_002',2000.00,'2020-06-01 12:00:00'),

(205,'sku_003',600.00,'2020-06-02 12:00:00');

10）通过查询分布式表和本地表观察输出结果

（1）分布式表

SELECT * FROM st_order_mt_all;

（2）本地表

select * from st_order_mt;

（3）观察数据的分布

st_order_mt_all
hadoop102: st_order_mt
hadoop103: st_order_mt
hadoop104: st_order_mt

2.5 项目为了节省资源，就使用单节点，不用集群

不需要求改文件引用，因为已经使用集群建表了，如果改为引用metrika-shard.xml的话，启动会报错。我们以后用的时候只启动102即可。

【Ubuntu】安装Docker

【VRTK】【VR开发】【Unity】6-设置interactor和虚拟手

Python-pptx教程之二操作已有PPT模板文件

鸿蒙4.0开发笔记之DevEco Studio如何使用Previewer窗口预览器（一）

S25FL256S介绍及FPGA实现思路

SELinux零知识学习十六、SELinux策略语言之类型强制（1）

java接收前端easyui datagrid传递的数组参数

Redis(集合Set和有序集合SortedSet)

多svn仓库一键更新脚本分享

电机开源驱动器基本操作与实现

Zookeeper的六个要点问题

Java获取Jar、War包路径，并生成可编辑修改的本地配置文件

levelDB之基础数据结构-Slice

使用 React Flow 构建一个思维导图应用

【2022改良版】学法减分助手PRO小程序源码

[case10]使用RSQL实现端到端的动态查询

【跃迁之路】【463天】刻意练习系列222（2018.05.14）

【跃迁之路】【585天】程序员高效学习方法论探索系列（实验阶段342-2018.09.13）...

centos安装java运行环境jdk+tomcat

CSS居中完全指南——构建CSS居中决策树

es6要点

JWT究竟是什么呢?

mysql外键的使用

nodejs实现webservice问题总结

PermissionScope Swift4 兼容问题

react-native 安卓真机环境搭建

Spring Cloud中负载均衡器概览

Spring思维导图，让Spring不再难懂（mvc篇）

机器学习中为什么要做归一化normalization

罗辑思维在全链路压测方面的实践和工作笔记

前端自动化解决方案

删除表内多余的重复数据

使用 Xcode 的 Target 区分开发和生产环境

限制Java线程池运行线程以及等待线程数量的策略

译自由幺半群

源码之下无秘密 ── 做最好的 Netty 源码分析教程

微龛半导体获数千万Pre-A轮融资，投资方为国中创投 ...

linux启动进程的方式

#图像处理

$(selector).each()和$.each()的区别

(1)Android开发优化---------UI优化

（11）工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】

(C#)获取字符编码的类

(done) 两个矩阵 “相似” 是什么意思？

（LeetCode C++）盛最多水的容器

（附源码）springboot 校园学生兼职系统毕业设计 742122

（六）什么是Vite——热更新时vite、webpack做了什么

(切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包

(一)Spring Cloud 直击微服务作用、架构应用、hystrix降级

./configure、make、make install 命令

.MSSQLSERVER 导入导出命令集－－堪称经典，值得借鉴！

.NET Core WebAPI中使用swagger版本控制，添加注释

.NET Core 成都线下面基会拉开序幕

.Net 高效开发之不可错过的实用工具

.NET 中什么样的类是可使用 await 异步等待的？

1.副本

1.1 副本写入流程

1.2 配置步骤

2.分片集群

2.1 集群写入流程（3分片2副本共6个节点）

2.2 集群读取流程（3分片2副本共6个节点）

2.3 3分片2副本共6个节点集群配置（供参考）

2.4 配置三节点版本集群及副本

2.4.1 集群及副本规划（2个分片，只有第一个分片有副本）

2.4.2 配置步骤

2.5 项目为了节省资源，就使用单节点，不用集群

相关文章：