2020年一文看数据库产品发展

道听真说 2020-12-14

188

（一）数据库发展史

数据库自上个世纪60年代开始兴起以来，发展到今天已经有了80年的历史。在2020年的今天，数据库产品都有哪一些，他们的使用场景分别是什么，本文将从不同的纬度做简要的介绍。

数据库从使用场景，分为OLTP数据库和OLAP数据库。

而从数据存储结构，分为关系型数据库与非关系型数据库（NoSQL）的区别。

（二）关系型数据库与NoSQL区别

关系型数据库：指采用了关系模型来组织数据的数据库。

关系模型指的就是二维表格模型，而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。

非关系型数据库：指非关系型的，分布式的，且一般不保证遵循ACID原则的数据存储系统。

关系型数据库的优点：

1.容易理解：二维表结构是非常贴近逻辑世界的一个概念，关系模型相对网状、层次等其他模型来说更容易理解2.使用方便：通用的SQL语言使得操作关系型数据库非常方便3.易于维护：丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大减低了数据冗余和数据不一致的概率。

关系型数据库事务必须具备ACID特性，ACID分别是Atomic原子性，Consistency一致性，Isolation隔离性，Durability持久性。

当今十大主流的关系型数据库

Oracle，Microsoft SQL Server，MySQL，PostgreSQL，DB2，Microsoft Access，SQLite，Teradata，MariaDB(MySQL的一个分支)，SAP。

非关系型数据库以键值对存储，且结构不固定，每一个元组可以有不一样的字段，每个元组可以根据需要增加一些自己的键值对，不局限于固定的结构，可以减少一些时间和空间的开销。

优点

1.用户可以根据需要去添加自己需要的字段，为了获取用户的不同信息，不像关系型数据库中，要对多表进行关联查询。仅需要根据id取出相应的value就可以完成查询。2.适用于SNS(Social Networking Services)中，例如facebook，微博。系统的升级，功能的增加，往往意味着数据结构巨大变动，这一点关系型数据库难以应付，需要新的结构化数据存储。由于不可能用一种数据结构化存储应付所有的新的需求，因此，非关系型数据库严格上不是一种数据库，应该是一种数据结构化存储方法的集合。

不足：

只适合存储一些较为简单的数据，对于需要进行较复杂查询的数据，关系型数据库显的更为合适。不适合持久存储海量数据

非关系型数据库的分类

非关系型数据库都是针对某些特定的应用需求出现的，因此，对于该类应用，具有极高的性能。依据结构化方法以及应用场合的不同，主要分为以下几类：

面向高性能并发读写的key-value数据库：

key-value数据库的主要特点是具有极高的并发读写性能Key-value数据库是一种以键值对存储数据的一种数据库，类似Java中的map。可以将整个数据库理解为一个大的map，每个键都会对应一个唯一的值。主流代表为Redis，Amazon DynamoDB，Memcached，Microsoft Azure Cosmos DB和Hazelcast

面向海量数据访问的面向文档数据库：

这类数据库的主要特点是在海量的数据中可以快速的查询数据文档存储通常使用内部表示法，可以直接在应用程序中处理，主要是JSON。JSON文档也可以作为纯文本存储在键值存储或关系数据库系统中。主流代表为MongoDB，Amazon DynamoDB，Couchbase，Microsoft Azure Cosmos DB和CouchDB

面向搜索数据内容的搜索引擎：

搜索引擎是专门用于搜索数据内容的NoSQL数据库管理系统。主要是用于对海量数据进行近实时的处理和分析处理，可用于机器学习和数据挖掘。主流代表为Elasticsearch，Splunk，Solr，MarkLogic和Sphinx

面向可扩展性的分布式数据库：主流代表为Cassandra，HBase，Microsoft Azure Cosmos DB，Datastax Enterprise和Accumulo

NoSQL的基本需求就是支持分布式存储，严格一致性与可用性需要互相取舍CAP理论：一个分布式系统不可能同时满足C(一致性)、A(可用性)、P(分区容错性)三个基本需求，并且最多只能满足其中的两项。对于一个分布式系统来说，分区容错是基本需求，否则不能称之为分布式系统，因此需要在C和A之间寻求平衡C(Consistency)一致性一致性是指更新操作成功并返回客户端完成后，所有节点在同一时间的数据完全一致。与ACID的C完全不同A(Availability)可用性可用性是指服务一直可用，而且是正常响应时间。P(Partition tolerance)分区容错性分区容错性是指分布式系统在遇到某节点或网络分区故障的时候，仍然能够对外提供满足一致性和可用性的服务。

关系型与非关系型数据库的比较

1.成本：Nosql数据库简单易部署，基本都是开源软件，不需要像使用Oracle那样花费大量成本购买使用，相比关系型数据库价格便宜。2.查询速度：Nosql数据库将数据存储于缓存之中，而且不需要经过SQL层的解析，关系型数据库将数据存储在硬盘中，自然查询速度远不及Nosql数据库。3.存储数据的格式：Nosql的存储格式是key,value形式、文档形式、图片形式等等，所以可以存储基础类型以及对象或者是集合等各种格式，而数据库则只支持基础类型。4.扩展性：关系型数据库有类似join这样的多表查询机制的限制导致扩展很艰难。Nosql基于键值对，数据之间没有耦合性，所以非常容易水平扩展。5.持久存储：Nosql不使用于持久存储，海量数据的持久存储，还是需要关系型数据库6.数据一致性：非关系型数据库一般强调的是数据最终一致性，不像关系型数据库一样强调数据的强一致性，从非关系型数据库中读到的有可能还是处于一个中间态的数据，Nosql不提供对事务的处理。

（五）列式数据库

列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。

主要产品有：

1、华为的Carbondata

2、百度研发给内部使用的palo。

3、腾讯Hermes

4、Druid:广告分析，互联网广告系统监控、度量和网络监控。开源免费。

5、俄罗斯的yandex公司为自己内部统计需要研发的clickhouse。yandex为俄罗斯的"百度"、"百度统计"业务。2016年6月份才开源发布出来。这个文档全，对php语言支持好。性能不弱于百度的palo。

（六）结束语

以上内容大部分从收集互联网上收集整理，后续本人会针对自己了解的MySQL、CockroachDB、InfluxDB、Clickhouse等使用过的产品详细写一些文章，刚兴趣的可以持续关注本号“道听真说”，谢谢！

数据库

文章转载自道听真说，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。