tidb存储引擎底层_newsql和nosql的区别和联系

⑴ 数据库为什么要分库分表

1 基本思想之什么是分库分表？
从字面上简单理解，就是把原本存储于一个库的数据分块存储到多个库上，把原本存储于一个表的数据分块存储到多个表上。
2 基本思想之为什么要分库分表？

数
据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据操作，增
删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（CPU、磁盘、内存、IO等）是有限的，最终数据库所能承载的数据量、
数据处理能力都将遭遇瓶颈。
3 分库分表的实施策略。

分库分表有垂直切分和水平切分两种。
3.1
何谓垂直切分，即将表按照功能模块、关系密切程度划分出来，部署到不同的库上。例如，我们会建立定义数据库workDB、商品数据库payDB、用户数据
库userDB、日志数据库logDB等，分别用于存储项目数据定义表、商品定义表、用户数据表、日志数据表等。
3.2
何谓水平切分，当一个表中的数据量过大时，我们可以把该表的数据按照某种规则，例如userID散列，进行划分，然后存储到多个结构相同的表，和不同的库
上。例如，我们的userDB中的用户数据表中，每一个表的数据量都很大，就可以把userDB切分为结构相同的多个userDB：part0DB、
part1DB等，再将userDB上的用户数据表userTable，切分为很多userTable：userTable0、userTable1等，
然后将这些表按照一定的规则存储到多个userDB上。
3.3 应该使用哪一种方式来实施数据库分库分表，这要看数据库中数据量的瓶颈所在，并综合项目的业务类型进行考虑。
如果数据库是因为表太多而造成海量数据，并且项目的各项业务逻辑划分清晰、低耦合，那么规则简单明了、容易实施的垂直切分必是首选。
而
如果数据库中的表并不多，但单表的数据量很大、或数据热度很高，这种情况之下就应该选择水平切分，水平切分比垂直切分要复杂一些，它将原本逻辑上属于一体
的数据进行了物理分割，除了在分割时要对分割的粒度做好评估，考虑数据平均和负载平均，后期也将对项目人员及应用程序产生额外的数据管理负担。
在现实项目中，往往是这两种情况兼而有之，这就需要做出权衡，甚至既需要垂直切分，又需要水平切分。我们的游戏项目便综合使用了垂直与水平切分，我们首先对数据库进行垂直切分，然后，再针对一部分表，通常是用户数据表，进行水平切分。
4 分库分表存在的问题。

4.1 事务问题。
在执行分库分表之后，由于数据存储到了不同的库上，数据库事务管理出现了困难。如果依赖数据库本身的分布式事务管理功能去执行事务，将付出高昂的性能代价；如果由应用程序去协助控制，形成程序逻辑上的事务，又会造成编程方面的负担。
4.2 跨库跨表的join问题。
在执行了分库分表之后，难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上，这时，表的关联操作将受到限制，我们无法join位于不同分库的表，也无法join分表粒度不同的表，结果原本一次查询能够完成的业务，可能需要多次查询才能完成。
4.3 额外的数据管理负担和数据运算压力。
额
外的数据管理负担，最显而易见的就是数据的定位问题和数据的增删改查的重复执行问题，这些都可以通过应用程序解决，但必然引起额外的逻辑运算，例如，对于
一个记录用户成绩的用户数据表userTable，业务要求查出成绩最好的100位，在进行分表之前，只需一个order
by语句就可以搞定，但是在进行分表之后，将需要n个order
by语句，分别查出每一个分表的前100名用户数据，然后再对这些数据进行合并计算，才能得出结果。

⑵ 2019数据架构选型必读：1月数据库产品技术解析

本期目录

DB-Engines数据库排行榜

新闻快讯

一、RDBMS家族

二、Nosql家族

三、NewSQL家族

四、时间序列

五、大数据生态圈

六、国产数据库概览

七、云数据库

八、推出dbaplus Newsletter的想法

九、感谢名单

为方便阅读、重点呈现，本期Newsletter（2019年1月）将对各个板块的内容进行精简。需要阅读全文的同学可点击文末 【阅读原文】 或登录https://pan..com/s/13BgipbaHeMfvm0YPtiYviA

进行下载。

DB-Engines数据库排行榜

以下取自2019年1月的数据，具体信息可以参考http://db-engines.com/en/ranking/，数据仅供参考。

DB-Engines排名的数据依据5个不同的因素：

新闻快讯

1、2018年9月24日，微软公布了SQL Server2019预览版，SQL Server 2019将结合Spark创建统一数据平台。

2、2018年10月5日，ElasticSearch在美国纽约证券交易所上市。

3、亚马逊放弃甲骨文数据库软件，导致最大仓库之一在黄金时段宕机。受此消息影响，亚马逊盘前股价小幅跳水，跌超2%。

4、2018年10月31日，Percona发布了Percona Server 8.0 RC版本，发布对MongoDB 4.0的支持，发布对XtraBackup测试第二个版本。

5、2018年10月31日，Gartner陆续发布了2018年的数据库系列报告，包括《数据库魔力象限》、《数据库核心能力》以及《数据库推荐报告》。

今年的总上榜数据库产品达到了5家，分别来自：阿里云，华为，巨杉数据库，腾讯云，星环科技。其中阿里云和巨杉数据库已经连续两年入选。

6、2018年11月初，Neo4j宣布完成E轮8000万美元融资。11月15日，Neo4j宣布企业版彻底闭源：

7、2019年1月8日，阿里巴巴以1.033亿美元（9000万欧元）的价格收购了Apache Flink商业公司DataArtisans。

8、2019年1月11日早间消息，亚马逊宣布推出云数据库软件，亚马逊和MongoDB将会直接竞争。

RDBMS家族

Oracle 发布18.3版本

2018年7月，Oracle Database 18.3通用版开始提供下载。我们可以将Oracle Database 18c视为采用之前发布模式的Oracle Database 12c第2版的第一个补丁集。未来，客户将不再需要等待多年才能用上最新版Oracle数据库，而是每年都可以期待新数据库特性和增强。Database 19c将于2019年Q1率先在Oracle cloud上发布云版本。

Oracle Database 18c及19c部分关键功能：

1、性能

2、多租户，大量功能增强及改进，大幅节省成本和提高敏捷性

3、高可用

4、数据仓库和大数据

MySQL发布8.0.13版本

1、账户管理

经过配置，修改密码时，必须带上原密码。在之前的版本，用户登录之后，就可以修改自己的密码。这种方式存在一定安全风险。比如用户登录上数据库后，中途离开一段时间，那么非法用户可能会修改密码。由参数password_require_current控制。

2、配置

Innodb表必须有主键。在用户没有指定主键时，系统会生成一个默认的主键。但是在主从复制的场景下，默认的主键，会对丛库应用速度带来致命的影响。如果设置sql_require_primary_key，那么数据库会强制用户在创建表、修改表时，加上主键。

3、字段默认值

BLOB、TEXT、GEOMETRY和JSON字段可以指定默认值了。

4、优化器

1）Skip Scan

非前缀索引也可以用了。

之前的版本，任何没有带上f1字段的查询，都没法使用索引。在新的版本中，它可以忽略前面的字段，让这个查询使用到索引。其实现原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查询结果合并。

2）函数索引

之前版本只能基于某个列或者多个列加索引，但是不允许在上面做计算，如今这个限制消除了。

5、SQL语法

GROUP BY ASC和GROUP BY DESC语法已经被废弃，要想达到类似的效果，请使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。

6、功能变化

1）设置用户变量，请使用SET语句

如下类型语句将要被废弃SELECT @var, @var:=@var+1。

2）新增innodb_fsync_threshold

该变量是控制文件刷新到磁盘的速率，防止磁盘在短时间内饱和。

3）新增会话级临时表空间

在以往的版本中，当执行SQL时，产生的临时表都在全局表空间ibtmp1中，及时执行结束，临时表被释放，空间不会被回收。新版本中，会为session从临时表空间池中分配一个临时表空间，当连接断开时，临时表空间的磁盘空间被回收。

4）在线切换Group Replication的状态

5）新增了group_replication_member_expel_timeout

之前，如果某个节点被怀疑有问题，在5秒检测期结束之后，那么就直接被驱逐出这个集群。即使该节点恢复正常时，也不会再被加入集群。那么，瞬时的故障，会把某些节点驱逐出集群。

group_replication_member_expel_timeout让管理员能更好的依据自身的场景，做出最合适的配置（建议配置时间小于一个小时）。

MariaDB 10.3版本功能展示

1、MariaDB 10.3支持update多表ORDER BY and LIMIT

1）update连表更新，limit语句

update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

2）update连表更新，ORDER BY and LIMIT语句

update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

参考：

https://jira.mariadb.org/browse/MDEV-13911

2、MariaDB10.3增补AliSQL补丁——安全执行Online DDL

Online DDL从名字上看很容易误导新手，以为不论什么情况，修改表结构都不会锁表，理想很丰满，现实很骨感，注意这个坑！

有以下两种情况执行DDL操作会锁表的，Waiting for table metadata lock（元数据表锁）：

针对第二种情况，MariaDB10.3增补AliSQL补丁-DDL FAST FAIL，让其DDL操作快速失败。

例：

如果线上有某个慢SQL对该表进行操作，可以使用WAIT n（以秒为单位设置等待）或NOWAIT在语句中显式设置锁等待超时，在这种情况下，如果无法获取锁，语句将立即失败。 WAIT 0相当于NOWAIT。

参考：

https://jira.mariadb.org/browse/MDEV-11388

3、MariaDB Window Functions窗口函数分组取TOP N记录

窗口函数在MariaDB10.2版本里实现，其简化了复杂SQL的撰写，提高了可读性。

参考：

https://mariadb.com/kb/en/library/window-functions-overview/

Percona Server发布8.0 GA版本

2018年12月21日，Percona发布了Percona Server 8.0 GA版本。

在支持MySQL8.0社区的基础版上，Percona Server for MySQL 8.0版本中带来了许多新功能：

1、安全性和合规性

2、性能和可扩展性

3、可观察性和可用性

Percona Server for MySQL 8.0中将要被废用功能：

Percona Server for MySQL 8.0中删除的功能：

RocksDB发布V5.17.2版本

2018年10月24日，RocksDB发布V5.17.2版本。

RocksDB是Facebook在LevelDB基础上用C++写的高效内嵌式K/V存储引擎。相比LevelDB，RocksDB提供了Column-Family，TTL，Transaction，Merge等方面的支持。目前MyRocks，TiKV等底层的存储都是基于RocksDB来构建。

PostgreSQL发布11版本

2018年10月18日，PostgreSQL 11发布。

1、PostgreSQL 11的重大增强

2、PostgreSQL 插件动态

1）分布式插件citus发布 8.1

citus是PostgreSQL的一款sharding插件，目前国内苏宁、铁总、探探有较大量使用案例。

https://github.com/citusdata/citus

2）地理信息插件postgis发布2.5.1

PostGIS是专业的时空数据库插件，在测绘、航天、气象、地震、国土资源、地图等时空专业领域应用广泛。同时在互联网行业也得到了对GIS有性能、功能深度要求的客户青睐，比如共享出行、外卖等客户。

http://postgis.net/

3）时序插件timescale发布1.1.1

timescale是PostgreSQL的一款时序数据库插件，在IoT行业中有非常好的应用。github star数目前有5000多，是一个非常火爆的插件。

https://github.com/timescale/timescaledb

4）流计算插件 pipelinedb 正式插件化

Pipelinedb是PostgreSQL的一款流计算插件，使用这个创建可以对高速写入的数据进行实时根据定义的聚合规则进行聚合（支持概率计算），实时根据定义的规则触发事件（支持事件处理函数的自定义）。可用于IoT，监控，FEED实时计算等场景。

https://github.com/pipelinedb/pipelinedb

3、PostgreSQL衍生开源产品动态

1）agensgraph发布 2.0.0版本

agensgraph是兼容PostgreSQL、opencypher的专业图数据库，适合图式关系的管理。

https://github.com/bitnine-oss/agensgraph

2）gpdb发布5.15

gpdb是兼容PostgreSQL的mpp数据库，适合OLAP场景。近两年，gpdb一直在追赶PostgreSQL的社区版本，预计很快会追上10的PostgreSQL，在TP方面的性能也会得到显着提升。

https://github.com/greenplum-db/gpdb

3）antdb发布3.2

antdb是以Postgres-XC为基础开发的一款PostgreSQL sharding数据库，亚信主导开发，开源，目前主要服务于亚信自有客户。

https://github.com/ADBSQL/AntDB

4）迁移工具MTK发布52版本

MTK是EDB提供的可以将Oracle、PostgreSQL、MySQL、MSSQL、Sybase数据库迁移到PostgreSQL, PPAS的产品，迁移速度可以达到100万行/s以上。

https://github.com/digoal/blog/blob/master/201812/20181226_01.md

DB2发布 11.1.4.4版本

DB2最新发布Mod Pack 4 and Fix Pack 4，包含以下几方面的改动及增强：

1、性能

2、高可用

3、管理视图

4、应用开发方面

5、联邦功能

6、pureScale

NoSQL家族

Redis发布5.0.3版本

MongoDB升级更新MongoDB Mobile和MongoDB Stitch

2018年11月21日，MongoDB升级更新MongoDB Mobile和MongoDB Stitch，助力开发人员提升工作效率。

MongoDB 公司日前发布了多项新产品功能，旨在更好地帮助开发人员在世界各地管理数据。通过利用存储在移动设备和后台数据库的数据之间的实时、自动的同步特性，MongoDB Mobile通用版本助力开发人员构建更快捷、反应更迅速的应用程序。此前，这只能通过在移动应用内部安装一个可供选择或限定功能的数据库来实现。

MongoDB Mobile在为客户提供随处运行的自由度方面更进了一步。用户在iOS和安卓终端设备上可拥有MongoDB所有功能，将网络边界扩展到其物联网资产范畴。应用系统还可以使用MongoDB Stitch的软件开发包访问移动客户端或后台数据，帮助开发人员通过他们希望的任意方式查询移动终端数据和物联网数据，包括本地读写、本地JSON存储、索引和聚合。通过Stitch移动同步功能(现可提供beta版)，用户可以自动对保存在本地的数据以及后台数据库的数据进行同步。

本期新秀：Cassandra发布3.11.3版本

2018年8月11日，Cassandra发布正式版3.11.3。

Apache Cassandra是一款开源分布式NoSQL数据库系统，使用了基于Google BigTable的数据模型，与面向行(row)的传统关系型数据库或键值存储key-value数据库不同，Cassandra使用的是宽列存储模型(Wide Column Stores)。与BigTable和其模仿者HBase不同，数据并不存储在分布式文件系统如GFS或HDFS中，而是直接存于本地。

Cassandra的系统架构与Amazon DynamoDB类似，是基于一致性哈希的完全P2P架构，每行数据通过哈希来决定应该存在哪个或哪些节点中。集群没有master的概念，所有节点都是同样的角色，彻底避免了整个系统的单点问题导致的不稳定性，集群间的状态同步通过Gossip协议来进行P2P的通信。

3.11.3版本的一些bug fix和改进：

NewSQL家族

TiDB 发布2.1.2版本

2018 年 12 月 22 日，TiDB 发布 2.1.2 版，TiDB-Ansible 相应发布 2.1.2 版本。该版本在 2.1.1 版的基础上，对系统兼容性、稳定性做出了改进。

TiDB 是一款定位于在线事务处理/在线分析处理（ HTAP: Hybrid Transactional/Analytical Processing）的融合型数据库产品。除了底层的 RocksDB 存储引擎之外，分布式SQL层、分布式KV存储引擎（TiKV）完全自主设计和研发。

TiDB 完全开源，兼容MySQL协议和语法，可以简单理解为一个可以无限水平扩展的MySQL，并且提供分布式事务、跨节点 JOIN、吞吐和存储容量水平扩展、故障自恢复、高可用等优异的特性；对业务没有任何侵入性，简化开发，利于维护和平滑迁移。

TiDB：

PD：

TiKV：

Tools：

1）TiDB-Lightning

2）TiDB-Binlog

EsgynDB发布R2.5版本

2018年12月22日，EsgynDB R2.5版本正式发布。

作为企业级产品，EsgynDB 2.5向前迈进了一大步，它拥有以下功能和改进：

CockroachDB发布2.1版本

2018年10月30日，CockroachDB正式发布2.1版本，其新增特性如下：

新增企业级特性：

新增SQL特性：

新增内核特性：

Admin UI增强：

时间序列

本期新秀：TimescaleDB发布1.0版本

10月底，TimescaleDB 1.0宣布正式推出，官方表示该版本已可用于生产环境，支持完整SQL和扩展。

TimescaleDB是基于PostgreSQL数据库开发的一款时序数据库，以插件化的形式打包提供，随着PostgreSQL的版本升级而升级，不会因为另立分支带来麻烦。

TimescaleDB架构：

数据自动按时间和空间分片(chunk)

更新亮点：

https://github.com/timescale/timescaledb/releases/tag/1.0.0

大数据生态圈

Hadoop发布2.9.2版本

2018年11月中旬，Hadoop在2.9分支上发布了新的2.9.2版本，该版本进行了204个大大小小的变更，主要变更如下：

Greenplum 发布5.15版本

Greenplum最新的5.15版本中发布了流式数据加载工具。

该版本中的Greenplum Streem Server组件已经集成了Kafka流式加载功能，并通过了Confluent官方的集成认证，其支持的主要功能如下：

国产数据库概览

K-DB发布数据库一体机版

2018年11月7日，K-DB发布了数据库一体机版。该版本更新情况如下：

OceanBase迁移服务发布1.0版本

1月4日，OceanBase 正式发布OMS迁移服务1.0版本。

以下内容包含 OceanBase 迁移服务的重要特性和功能：

SequoiaDB发布3.0.1新版本

1、架构

1）完整计算存储分离架构，兼容MySQL协议、语法

计算存储分离体系以松耦合的方式将计算与存储层分别部署，通过标准接口或插件对各个模块和组件进行无缝替换，在计算层与存储层均可实现自由的弹性伸缩。

SequoiaDB巨杉数据库“计算-存储分离”架构详细示意

用户可以根据自身业务特征选择面向交易的SQL解析器（例如MySQL或PGSQL）或面向统计分析的执行引擎（例如SparkSQL）。众所周知，使用不同的SQL优化与执行方式，数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储，在计算层面则利用每种执行引擎的特点针对不同业务场景进行选择和优化，用户可以在存储层进行逻辑与物理的隔离，将面向高频交易的前端业务与面向高吞吐量的统计分析使用不同的硬件进行存储，确保在多类型数据访问时互不干扰，以真正达到生产环境可用的多租户与HTAP能力。

2、其他更新信息

1）接口变更：

2）主要特性：

云数据库

本期新秀：腾讯发布数据库CynosDB，开启公测

1、News

1）腾讯云数据库MySQL2018年重大更新：

2）腾讯云数据库MongoDB2018年重大更新：

3）腾讯云数据库Redis/CKV+2018年重大更新：

4）腾讯云数据库CTSDB2018年重大更新：

2、Redis 4.0集群版商业化上线

2018年10月，腾讯云数据库Redis 4.0集群版完成邀测、公测、商业化三个迭代，在广州、上海、北京正式全量商业化上线。

产品特性：

使用场景：

官网文档：

https://cloud.tencent.com/document/proct/239/18336

3、腾讯自研数据库CynosDB发布，开启公测

2018年11月22日，腾讯云召开新一代自研数据库CynosDB发布会，业界第一款全面兼容市面上两大最主流的开源数据库MySQL和PostgreSQL的高性能企业级分布式云数据库。

本期新秀：京东云DRDS发布1.0版本

12月24日，京东云分布式关系型数据库DRDS正式发布1.0版本。

DRDS是京东云精心自研的数据库中间件产品，获得了2018年 ”可信云技术创新奖”。DRDS可实现海量数据下的自动分库分表，具有高性能，分布式，弹性升级，兼容MySQL等优点，适用于高并发、大规模数据的在线交易，历史数据查询，自动数据分片等业务场景，历经多次618，双十一的考验，已经在京东集团内大规模使用。

京东云DRDS产品有以下主要特性

1）自动分库分表

通过简单的定义即可自动实现分库分表，将数据实际存放在多个MySQL实例的数据库中，但呈现给应用程序的依旧是一张表，对业务透明，应用程序几乎无需改动，实现了对数据库存储和处理能力的水平扩展。

2）分布式架构

基于分布式架构的集群方案，多个对等节点同时对外提供服务，不但可有效规避服务的单点故障，而且更加容易扩展。

3）超强性能

具有极高的处理能力，双节点即可支持数万QPS，满足用户超大规模处理能力的需求。

4）兼容MySQL

兼容绝大部分MySQL语法，包括MySQL语法、数据类型、索引、常用函数、排序、关联等DDL，DML语句，使用成本低。

参考链接：

https://www.jdcloud.com/cn/procts/drds

RadonDB发布1.0.3版本

2018年12月26日，MyNewSQL领域的RadonDB云数据库发布1.0.3版本。

推出dbaplus Newsletter的想法

dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势，为社区的技术发展提供一个统一的发声平台。为此，我们策划了RDBMS、NoSQL、NewSQL、时间序列、大数据生态圈、国产数据库、云数据库等几个版块。

我们不以商业宣传为目的，不接受任何商业广告宣传，严格审查信息源的可信度和准确性，力争为大家提供一个纯净的技术学习环境，欢迎大家监督指正。

至于Newsletter发布的周期，目前计划是每三个月左右会做一次跟进， 下期计划时间是2019年4月14日~4月25日， 如果有相关的信息提供请发送至邮箱：[email protected]

感谢名单

最后要感谢那些提供宝贵信息和建议的专家朋友，排名不分先后。

往期回顾：

↓↓别忘了点这里下载 2019年1月 完整版Newsletter 哦~

⑶ 咋测试tidb自增id是不是唯一

咋测试tidb自增id是唯一。tidb的自增id只能保证唯一性，不保证自增性和连续性，也不支持在线添加列auto_increment属性，tidb的主键索引和唯一索引的存储方式相同，不支持全文索引、空间索引、仅支持utf8/utf8mb4/ascii/latin1/binary几个字符集。

tidb的存储能力

无限水平扩展是TiDB的一大特点，这里说的水平扩展包括两方面：计算能力和存储能力。TiDB Server负责处理SQL请求，随着业务的增长，可以简单的添加TiDB Server节点，提高整体的处理能力，提供更高的吞吐。

TiKV负责存储数据，随着数据量的增长，可以部署更多的TiKV Server节点解决数据Scale的问题。PD会在TiKV节点之间以Region为单位做调度，将部分数据迁移到新加的节点上。所以在业务的早期，可以只部署少量的服务实例（推荐至少部署3个TiKV，3个PD，2个TiDB），随着业务量的增长，按照需求添加TiKV或者TiDB实例。

⑷ 腾讯tidb是自研的吗

不是的。

最开始，我们调研了开源的分布式NewSQL方案：TIDB。虽然TIDB是非常优秀的NewSQL产品，但是对于我们的业务场景来说，TIDB并不是非常适合，原因如下：

需要一款高吞吐，低延迟的数据库解决方案，但是TIDB由于要满足事务，2pc方案天然无法满足低延迟（100ms以内的99rt，甚至50ms内的99rt）
多数业务，并不真正需要分布式事务，或者说可以通过其他补偿机制，绕过分布式事务。这是由于业务场景决定的。
TIDB三副本的存储空间成本相对比较高。
内部一些离线数据导入在线系统的场景，不能直接和TIDB打通。

基于以上原因，我们开启了自研符合自己业务需求的NewSQL之路。

⑸ newsql和nosql的区别和联系

TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库，结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL，支持无限的水平扩展，具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。

TiDB 具备如下特性：

高度兼容 MySQL
大多数情况下，无需修改代码即可从 MySQL 轻松迁移至 TiDB，分库分表后的 MySQL 集群亦可通过 TiDB 工具进行实时迁移。
水平弹性扩展
通过简单地增加新节点即可实现 TiDB 的水平扩展，按需扩展吞吐或存储，轻松应对高并发、海量数据场景。
分布式事务
TiDB 100% 支持标准的 ACID 事务。
真正金融级高可用
相比于传统主从 (M-S) 复制方案，基于 Raft 的多数派选举协议可以提供金融级的 100% 数据强一致性保证，且在不丢失大多数副本的前提下，可以实现故障的自动恢复 (auto-failover)，无需人工介入。
一站式 HTAP 解决方案
TiDB 作为典型的 OLTP 行存数据库，同时兼具强大的 OLAP 性能，配合 TiSpark，可提供一站式 HTAP 解决方案，一份存储同时处理 OLTP & OLAP，无需传统繁琐的 ETL 过程。
云原生 SQL 数据库
TiDB 是为云而设计的数据库，支持公有云、私有云和混合云，配合TiDB Operator 项目可实现自动化运维，使部署、配置和维护变得十分简单。

TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景，更复杂的 OLAP 分析可以通过TiSpark 项目来完成。

TiDB 对业务没有任何侵入性，能优雅地替换传统的数据库中间件、数据库分库分表等 Sharding 方案。同时它也让开发运维人员不用关注数据库 Scale 的细节问题，专注于业务开发，极大地提升研发的生产力。

⑹ 国内做分布式数据库开发的现状如何

应该说，现在是国产分布式数据库发展的利好时期。在讨论发展前景前，首先要先看看分布式数据库的发展方向。

大家把传统关系型数据库称作oldSQL，给人感觉要被淘汰似的。但其实数据量不是很大或者事务处理的场景夏，关系型数据库的还是占优的。

关系型数据库的主要问题在于：

性能瓶颈，

单一模型（关系模型），只适合OLTP

应对业务的灵活性不够，

弹性扩充能力不够，

两地三中心和双活等问题上不足。

随着互联网和手机的飞速发展，无论从用户规模、使用频率、还是场景多样性都使得这些问题浮出水面。其实Oracle在92年就开始尝试转向分布式，还当时引起了业界的巨大争论，最后失败。更何况过去CPU、内存、存储、带宽的高成本导致分布式数据库的性价比并不高，只能停留在学术阶段，限制了分布式的发展。

新分布式数据库首先是要避免和传统关系型数据库的竞争，这是明智的选择，能够轻装上阵。因此从几个方面入手，应对海量数据处理、分析、缓存、流式处理、开发模式等等。相对应列式，KV，Document等多种存储数据结构。

所有这些都被称为NoSQL数据库，放弃ACID和事务能力还换取性能。然而，NoSQL又收到了大量的批评反对意见，主要是说把数据库应该处理的问题交还给了开发是种发展的倒退。这些问题包括，索引、版本、SQL支持、事务支持等等。市场上超过90%的开发员都需要SQL，而且SQL也是非常有效和成熟。于是大家无论底层是什么存储结构又开始支持SQL，形成了NewSQL。

这里插一句题外话，在硅谷已经不再用SQL、NoSQL、NewSQL来划分数据库了。理由很简单，SQL是一种语言，从来没有SQL数据库的说法，自然也不应该有NoSQL数据库的说法。NewSQL数据库就更不合理，用的SQL并非什么“New“的新东西。所以专业上用关系型和非关系型数据库来划分，分布式数据库主要都是非关系型数据库。

回过头来看国内分布式数据库市场需求，中小企业不满足Mysql的性能，分库分表又很难搞，也不彻底；大型企业被Oracle等垄断支付高额成本，而且又不解决实际碰到的瓶颈问题。因此，用户都在寻找新的解决方案。小型用户、云计算的用户、大型企业都需要对应的分布式数据库产品。

再加上国产自主和去IOE浪潮，更加推动了国产分布式数据库的发展利好。值得注意的是，数据库研发是个严肃的事情，没法短平快。

⑺ TiDB 集群的可用性详解及 TiKV Label 规划

目录
一、前言
二、TiDB 集群核心组件可用性概览
1. TiDB Server 的可用性
三、Multi-Raft 集群的可用性限制
1. Raft 简介
2. Raft Group 副本数的选择
3. PD 是单一 Raft Group
4. TiKV 是 Multi-Raft 系统
5. Multi-Raft 集群的可用性限制
四、规划 TiKV Label 以提升 TiKV 集群的可用性
1. TiKV Label 简介
2. Label 相关的 PD 调度策略解读
3. TiKV Label 的规划
4. 使用 Label 的注意事项
五、典型两地三中心跨中心高可用多活容灾备配置
1. 物理服务器主机配置
2. 服务器，机柜，机房，网络要求
3. 两地三中心集群的扩容策略

分布式系统的核心理念是让多台服务器协同工作，完成单台服务器无法处理的任务。单点的硬件和网络等都是不可靠的，想要提高硬件的可靠性需要付出大量的成本，因此分布式系统往往通过软件来实现对于硬件的容错，通过软件来保证整体系统的高可靠性。

TiDB 集群中包含了串-并联系统，表决系统等，相对于一般的分布式系统更为复杂，TiDB 中所保存的数据的可用性由诸多因素控制，通过本篇文章的介绍，您可以了解到怎样在给定的资源下设计部署架好顷皮构以尽可能地提高数据的可用性。

在 TiDB 集群的三个核心组件 PD，TiKV，TiDB 中，PD 和 TiKV 都采用 Raft 协议实现持久化数据的容灾以及自动的故障转移，有关 PD 和 TiKV 的可用性的详细解读，请参见第三章的内容。

TiDB Server 组件不涉及数据的持久化，因此 TiDB 被设计成了无状态的，TiDB 进程可以在任意位置被启动，多个 TiDB 之间的关系是对等的，并发的事务通过同一台 TiDB 发送给集群和通过多台 TiDB 发送给集群所表现的行为完全一致。单一 TiDB 的故障只会影响这个 TiDB 上当前的连接，对其他 TiDB 上的连接没有任何影响。

根据用户最佳实践，在 TiDB 之上一般会部署负载均衡器（F5，LVS，HAproxy，Nginx 等），因此负载均衡器所连接的 TiDB 越多，其整体可用性就越高，其整体所能承载的并发请求数量也越多。

在使用负载均衡器的场景下，建议使用的负载均衡算法为 least connection，当某个 TiDB 发生故障依然会导致当时连接到该 TiDB 上的请求失败，负载均衡器识别到 TiDB 的故障之后，将不再向此 TiDB 建立新的连接，而是将新的连接建立到可用的 TiDB 上，以此来实现整体的高可用。

Raft 是一种分布式一致性算法，在 TiDB 集群的多种组件中，PD 和 TiKV 都通过 Raft 实现了数据的容灾。Raft 的灾难恢复能力通过如下机制实现：

Raft 算法本身以及 TiDB 中的 Raft 实现都没有限制一个 Raft Group 的副本数，这个副本数可以为任意正整数，当副本数为 n 的时候，一个 Raft Group 的可靠性如下：

我们一般建议将 Raft Group 的副本数设置为奇数，其原因如下：

在一般的非关键业务场景乎旅下，建议将副本数选为 3；而在关键业务中建议将副本数选为 5。
遵循 Raft 可靠性的特点，放到现实场景中：

PD 集群只包含一个 Raft Group，即 PD 集群中 PD 服务的个数决定了 PD 的副本数，3 PD 节点集群的 PD 副本数为 3，5 PD 节点集群的 PD 副本数为 5。

由上一段落中 Raft 原理可知，一个 Raft Group 的容灾能力随节点数增加而加强，在一般的非关键业务场景下，建议部署 3 个 PD；建议在关键业务中部署 5 个 PD。

TiKV 是一个 Key-Value 存储系友差统，它是一个巨大的 Map，TiKV 提供有序遍历方法。下图展示了 region 以 3 副本模式存储在 4 台 TiKV 节点上的数据分布，TiKV 中的数据被切分成了 5 份 —— region 1~5，每个 region 的 3 个副本构成了一个 Raft Group，集群中共有 5 个 Raft Group，因此 TiKV 是 Multi-Raft 系统。

如上图所展示，虽然这个集群当前有 4 个 TiKV 实例，但一个 region 的 3 个副本只会被调度到其中 3 个 TiKV 上，也就是说 region 的副本数与 TiKV 实例数量无关，即使将上图的集群扩容到 1000 个 TiKV 实例，它也仍然是一个 3 副本的集群。

前面说到 3 副本的 Raft Group 只能容忍 1 副本故障，当上图的集群被扩容到 1000 个 TiKV 实例时，这个集群依然只能容忍一个 TiKV 实例的故障，2 个 TiKV 实例的故障可能会导致某些 region 丢失多个副本，整个集群的数据也不再完整，访问到这些 region 上的数据的 SQL 请求将会失败。

而 1000 个 TiKV 中同时有两个发生故障的概率是远远高于 3 个 TiKV 中同时有两个发生故障的概率的，也就是说 Multi-Raft 集群在逐步扩容中，其可用性是逐渐降低的。

TiKV Label 用于描述 TiKV 的位置信息，在 inventory.ini 中，其写法如下：

上面案例中规划了 4 层位置信息的 Label，Label 信息会随着 deploy.yml 或 rolling_update.yml 操作刷新到 TiKV 的启动配置文件中，启动后的 TiKV 会将自己最新的 Label 信息上报给 PD，PD 根据用户登记的 Label 名称（也就是 Label 元信息），结合 TiKV 的拓扑进行 region 副本的最优调度。用户可以根据自己的需要来定制 Label 名称，以及 Label 层级（注意层级有先后顺序），但需要注意 PD 会根据它读到的 Label 名称（含层级关系）去匹配 TiKV 的位置信息，如果 PD 读到的 TiKV Label 信息与 PD 中设置的 Label 名称不匹配的话，就不会按用户设定的方式进行副本调度。Label 名称的设置方法如下，在初次启动集群时，PD 会读取 inventory.ini 中的设置：

非初次启动的集群，需要使用 pd-ctl 工具进行 Label 名称设置：

从本质上来说，Label 系统是一种 PD 对 region 副本（replica）的隔离调度策略。

PD 首先读取到集群的 region 副本数信息*，假定副本数为 5。PD 将所有 TiKV 汇报给它的 Label 信息进行汇总（以本章第 1 小节的 TiKV 集群为例），PD 构建了整个 TiKV 集群的拓扑，其逻辑如下图所示：

PD 识别到第一层 Label - dc 有 3 个不同的值，无法在本层实现 5 副本的隔离。PD 进而判断第二层 Label - zone，本层有 z1~z5 这 5 个 zone，可以实现 5 副本的隔离调度，PD 会将各个 region 的 5 个副本依次调度到 z1~z5 中，因此 z1~z5 各自所对应的 4 个 TiKV 所承载的 region 数量总和应完全一致。此时，PD 的常规调度策略，如 balance-region，hot-region 等 region 相关的 scheler 将严格遵守 Label 的隔离策略进行调度，在带有 z1~z5 Label 信息的 TiKV 尚在的情况下不会将同一个 region 的多个副本调度到同一个 zone 中。如图，图中将 TiKV 按照 zone 做 4 个一组隔离开了，一个 region 的一个副本只会在本 zone 的 4 个 TiKV 之间调度。

PD 天生不会将同一个 region 的多个副本调度到同一个 TiKV 实例上，增加 Label 信息后，PD 不会将同一个 region 的多个副本调度到同一个 host 上，以避免单台服务器的宕机导致丢失多个副本。

当带有某一个 zone Label 的 TiKV 全部故障时，如图中所有带有 z5 Label 的几个 TiKV 实例 kv252-1，kv252-2，kv253-1，kv253-2 同时故障时，集群会进入缺失一个副本的状态，在达到 TiKV 最大离线时间的设置值（max-store-down-time，默认值 30min）之后，PD 便开始在其他 4 个 zone 中补全所有缺失副本的 region，同时遵循上面一段所提到的约束，在为 region1 补全副本时，PD 会避开所有包含 region1 的服务器（本例中的 host）h208，h210，h414，h416 所涉及的 8 个 TiKV 实例，而在另外 8 个 TiKV 实例中挑选一个进行副本补全调度。

*副本数设置方法如下，以 5 副本为例：

Label 登记的是 TiKV 的物理位置信息，PD 根据 TiKV 的物理位置进行最优调度，其目的是在具有相近物理位置的 TiKV 上只放置一个副本，以尽可能的提高 TiKV 集群的可用性。举个例子，假设某一时刻集群中一定要有两个 TiKV 同时发生故障，那么你一定不想它们上面存储着一个 region 的两个副本，而通过合理规划让同时故障的两个 TiKV 出现在同一个隔离区的概率变高，TiKV 集群的整体可用性也就越高。因此 Label 规划要与 TiKV 物理位置规划一起进行，两者是相辅相成的。

举例而言，机房可能会由于电源故障，空调故障，网络故障，火灾，自然灾害等原因而整体不可用；机柜可能由于交换机故障，UPS 故障，消防喷淋等原因而整体不可用；服务器可能由于常见的内存等故障而宕机。通过妥善的 Label 规划，使 region 调度按物理位置进行隔离，可以有效地降低一个区域故障造成的整体影响。

物理位置的层级结构一般为机房，机柜，服务器，在大型基础设施中还会在机房与机柜之间多一个楼层信息。设计 Label 层级结构的最佳实践是基于物理层级结构再加上一层逻辑层级，该逻辑层级专门用于控制保持与集群副本数一致，在本案例中，zone 就是逻辑层级，该层级的值在集群搭建初期与 rack 保持一一对应，用于控制副本的隔离。而不直接采用 dc，rack，host 三层 Label 结构的原因是考虑到将来可能发生 rack 的扩容（假设新扩容的 rack 编号是 r6，r7，r8，r9，r10），这个扩容会导致 rack 数变多，当多个 TiKV 实例同时发生故障时，这些故障的 TiKV 出现在在多个 rack 上的概率也会增加，也就是会将第三章提到的 Multi-Raft 集群的可用性随节点数增加而下降问题再次引入到集群中。而通过使用逻辑层级 zone 保持与副本数一致可以将多个故障的 TiKV 出现在不同的隔离区（本例中的 zone）的概率降至最低，将来扩容 rack 也可以充分的利用到更多的 rack 的物理隔离来提高可用性。

在使用了 Label 隔离的集群中，存在以下限制：

规划了 Label 的集群再扩容时需要对每个隔离区进行容量一致的扩容，在本章的案例中，隔离区为 dc 和 rack 标示的位置，因此需要对每种 dc+rack 组合的区域进行容量一致的扩容，比如将要扩容 5 台 TiKV 服务器，其分配方法如下：
zone1=>dc1:rack1 增加一台 TiKV
zone2=>dc1:rack2 增加一台 TiKV
zone3=>dc2:rack1 增加一台 TiKV
zone4=>dc2:rack2 增加一台 TiKV
zone5=>dc3:rack1 增加一台 TiKV**

tidb存储引擎底层

与tidb存储引擎底层相关的内容