初识MongoDB的小伙伴们一定对于MongoDB的文档类型存储非常感兴趣。于研发来说,是一个非常棒的交互,不需要进行任何数据的转换,拿来就用,JSON格式作为S/C、B/C交互来说是最经常用的了,相较于以往的XML,JSON有过之而无不及。
那么今天,就来说说这个Documents。
What is the Document?
Document,文档。是构成MongoDB数据存储的最小单元 (仅对开发而言) 。在MongoDB中,Document的表现形式犹如JSON一般,采用K-V对形式展开。只不过类型要比JSON的丰富。鉴于JSON只有6种数据类型 (字符串(string)、数值(number)、布尔(true、false)、 null、对象(object)、数组(array)),MongoDB在数据类型上并未采用简单的JSON进行数据的存储,而是使用了BSON (Binary Javascript Object Notation,关于BSON的更多说明,详见其他篇幅)。所以MongoDB使用BSON代替JSON进行数据的存储。
由形如:
{
field1: value1,
field2: value2,
field3: value3,
...
fieldN: valueN
}
组成的一条数据,我们称之为一条文档。
For Example
var mydoc = {
_id: ObjectId("5099803df3f4948bd2f98391"),
name: { first: "Alan", last: "Turing" },
birth: new Date('Jun 23, 1912'),
death: new Date('Jun 07, 1954'),
contribs: [ "Turing machine", "Turing test", "Turingery" ],
views : NumberLong(1250000)
}
_id | 一个ObjectId类型的唯一值 |
---|---|
name | 一个嵌套的文档 (Object) |
birth/death | Date类型 |
contribs | 数组 |
views | 长整型 |
How to Get the Embedded Doc?
在上面的例子中,name是一个内嵌文档,我们需要通过DOT --- '.'的方式进行内嵌查询。
db.coll.find({ ..., "name.first": "Alan", ..., })
我们也可以用$来匹配,但是需要注意的是$符号的用法非常复杂,具体可以查看关于$的篇幅,这里不多做介绍。
How to Get the Array ?
db.coll.find({ ..., "contribs.0": "Turing machine", ... })
这里,"contribs.0" 就代表contribs的第一个element的值是Turing machine的文档。
Limits
- BSON为了避免无端的大数据写入 (类似二进制的图片、音频等),把内存全部吃满,而特意设置了单条文档的上限,因此一条文档上限若超过16MB,则直接报错。
这里,我初始化了一个文件,里面由100W个A,大小在977K左右,
生成一个新文档:
往该文档开始灌数据,将之前生成的977k的文档全部读出,作为输入,写入新文档中去
可以看到一共是15此循环的push+1次的手动push,至此都没有溢出。
在灌一条:
至此,报出了16MB限制的错误了。这个是非常重要的,在实际生产中,我们是遇到过超过16MB数据灌进来,导致MongoDB直接crash的事故的。MongoDB无法读取超过16MB的文档,导致只要query 匹配到这条数据,MongoDB就挂。
因此,在使用MongoDB需要存入Big Data的时候可以使用GridFS (关于更多GridFS,详见其他篇幅)。
- 在MongoDB中的一个Doc,是必须要_id这个字段的,并且该字段必须是唯一的,所以一般有几种处理方式:
- 使用ObjectID
- 自定义自增列
- 使用UUID
总结
- MongoDB的Doc 是由BSON格式的数据组成而成的一个形似JSON格式的文档。
- MongoDB的Doc 有16MB的大小限制。
- MongoDB的Doc 必须要有_id的字段限制,且该字段必须是唯一的。