细说mongodb索引

原创 GaussDB数据库 2022-01-13

1123

文章转自华为云社区，作者：ly_mongodb；原文链接：https://bbs.huaweicloud.com/forum/thread-13486-1-1.html

索引是提高查询查询效率最有效的手段。索引是一种特殊的数据结构，索引以易于遍历的形式存储了数据的部分内容（如：一个特定的字段或一组字段值），索引会按一定规则对存储值进行排序，而且索引的存储位置在内存中，所在从索引中检索数据会非常快。如果没有索引，MongoDB必须扫描集合中的每一个文档，这种扫描的效率非常低，尤其是在数据量较大时。

一、B-树索引

B-树索引是MongoDB的默认索引结构。以下是B-树索引结构高等级的概述。

B-树索引具有分层树结构。树顶部是头部块。此块包含指向任何给定范围的键值的适当分支块的指针。分支块通常会指向适当的叶子块以获得更具体的范围，或者对于更大的索引，则指向另一个分支块。叶子块包含一个键值列表和指向磁盘上文档位置的指针。

查看上面的图，让我们想象一下MongoDB如何遍历这个索引。如果我们需要访问“BAKER”的记录，我们首先会查阅头部块。头部块会告诉我们，从A到K开始的键值存储在最左边的分支块中。访问这个分支块，我们发现从A到D开始的键值存储在最左边的叶子块中。咨询这个叶子块，我们发现值“BAKER”以及它关联的磁盘位置，我们将用它来获得有关的文件。叶子块包含前一个和后一个叶子块的链接。这允许我们以升序或降序扫描索引，并且允许使用gt或lt操作符的范围查询使用索引进行处理。

与其他索引策略相比，B-树索引具有以下优点：（1）由于每个叶子节点处于相同的深度，所以性能是非常可预测的。从理论上讲，集合中的任何文档都不会超过三或四次I/O。（2）B树为大型集合提供了良好的性能，因为深度最多为四个（一个头部块，两个分支块级别和一个叶子块级别）。一般来说，没有任何文件需要四个以上的I/O来定位。实际上，因为头部块几乎总是已经加载到内存中，而分支块通常加载到内存中，所以实际的物理磁盘读取次数通常只有一次或两次。（3）因为与前一个和后一个叶子块的链接，所以B-树索引支持范围查询以及精确的查找是可行的。

B-树索引提供了灵活高效的查询性能。但是，在更改数据时维护B-树可能很昂贵。例如，考虑在上面的图表中一个键值为“NIVEN”的文档。要集合，我们必须在“L-O”块中添加一个新条目。如果在这个区域内有空闲空间，那么成本是很大的，但也许不会过多。但是如果块中没有可用空间会发生什么？如果叶子块中没有空闲空间用于新条目，则需要索引拆分。必须分配新块，并将现有块中的一半条目移入新块。除此之外，还需要在分支块中添加一个新条目（以便指向新创建的叶子块）。如果分支块中没有空闲空间，则分支块也必须分割。这些索引拆分是一项昂贵的操作：必须分配新块，并将索引条目从一个块移到另一个块。

二、创建／重建索引

MongoDB全新创建索引使用ensureIndex()方法，对于已存在的索引可以使用reIndex()进行重建。

MongoDB创建索引使用ensureIndex()方法。

语法结构：

db.COLLECTION_NAME.ensureIndex(keys[,options])

keys，要建立索引的参数列表。如：{KEY:1}，其中key表示字段名，1表示升序排序，也可使用使用数字-1降序。
options，可选参数，表示建立索引的设置。可选值如下：
· background，Boolean，在后台建立索引，以便建立索引时不阻止其他数据库活动。默认值 false。
· unique，Boolean，创建唯一索引。默认值 false。
· name，String，指定索引的名称。如果未指定，MongoDB会生成一个索引字段的名称和排序顺序串联。
· dropDups，Boolean，创建唯一索引时，如果出现重复删除后续出现的相同索引，只保留第一个。
· sparse，Boolean，对文档中不存在的字段数据不启用索引。默认值是 false。
· v，index version，索引的版本号。
· weights，document，索引权重值，数值在 1 到 99,999 之间，表示该索引相对于其他索引字段的得分权重。

如，为集合sites建立索引

> db.sites.ensureIndex({name: 1, domain: -1})
{
  "createdCollectionAutomatically" : false,
  "numIndexesBefore" : 1,
  "numIndexesAfter" : 2,
  "ok" : 1
}

重建索引reIndex()

db.COLLECTION_NAME.reIndex()

如，重建集合sites的所有索引：

> db.sites.reIndex()
{
  "nIndexesWas" : 2,
  "nIndexes" : 2,
  "indexes" : [
    {
	  "key" : {
		"_id" : 1
	  },
	  "name" : "_id_",
		"ns" : "newDB.sites"
	},
	{
	  "key" : {
		"name" : 1,
		"domain" : -1
	  },
	  "name" : "name_1_domain_-1",
	  "ns" : "newDB.sites"
	}
  ],
  "ok" : 1
}

三、创建／重建索引

MongoDB提供了查看索引信息的方法：getIndexes()方法可以用来查看集合的所有索引，totalIndexSize()查看集合索引的总大小，db.system.indexes.find()查看数据库中所有索引信息。

查看集合中的索引getIndexes()

db.COLLECTION_NAME.getIndexes()

如，查看集合sites中的索引：

>db.sites.getIndexes()
[
  {
	"v" : 1,
	"key" : {
	  "_id" : 1
	},
	"name" : "_id_",
	"ns" : "newDB.sites"
  },
  {
	"v" : 1,
	"key" : {
	  "name" : 1,
	  "domain" : -1
	},
	"name" : "name_1_domain_-1",
	"ns" : "newDB.sites"
  }
]

查看集合中的索引大小totalIndexSize()

db.COLLECTION_NAME.totalIndexSize()

如，查看集合sites索引大小：

> db.sites.totalIndexSize()
16352

查看数据库中所有索引db.system.indexes.find()

db.system.indexes.find()

四、创建／重建索引

不在需要的索引，我们可以将其删除。删除索引时，可以删除集合中的某一索引，可以删除全部索引。

删除指定的索引dropIndex()

db.COLLECTION_NAME.dropIndex("INDEX-NAME")

如，删除集合sites中名为"name_1_domain_-1"的索引：

> db.sites.dropIndex("name_1_domain_-1")
{ "nIndexesWas" : 2, "ok" : 1 }

删除所有索引dropIndexes()

db.COLLECTION_NAME.dropIndexes()

如，删除集合sites中所有的索引：

> db.sites.dropIndexes()
{
  "nIndexesWas" : 1,
  "msg" : "non-_id indexes dropped for collection",
  "ok" : 1
}

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

细说mongodb索引

一 、B-树索引

二、创建／重建索引

三、创建／重建索引

四、创建／重建索引

评论

一、B-树索引