mongodb 的 GridFS 详细分析（二）

jsnjzlw 发表于 2018-10-27 11:27:27

nginx-gridfs模块的安装使用
　　项目主页：https://github.com/mdirolf/nginx-gridfs
　　通过nginx-gridfs，可以直接用http来访问GridFS中的文件。
　　1. 安装
　　安装各种依赖包：zlib，pcre，openssl
　　在ubuntu下可能是以下命令：
　　sudo apt-get install zlib1g-dev //貌似sudo apt-get install zlib-dev 不能安装
　　sudo apt-get install libpcre3 libpcre3-dev
　　sudo apt-get install openssl libssl-dev
　　安装git（略）
　　用git下载nginx-gridfs的代码：
　　git clone git://github.com/mdirolf/nginx-gridfs.git
　　cd nginx-gridfs
　　git submodule init
　　git submodule update
　　下载nginx：
　　wget http://nginx.org/download/nginx-1.0.12.zip
　　tar zxvf nginx-1.0.12.zip
　　cd nginx-1.0.12
　　./configure --add-module=
　　make
　　sudo make install
　　如果编译出错，则在configure时加上--with-cc-opt=-Wno-error 参数。
　　2. 配置nginx
　　在server的配置中加上以下
　　location /pics/ {
　　gridfs pics
　　field=filename
　　type=string;
　　mongo 127.0.0.1:27017;
　　}
　　上面的配置表示：
　　数据库是pics，通过文件名filename来访问文件，filename的类型是string
　　目前只支持通过id和filename来访问文件。
　　启动nginx：/usr/local/nginx/sbin/nginx
　　用MongoVUE把一个图片001.jpg上传到pics数据库中。
　　打开：http://localhost/pics/001.jpg
　　如果成功，则可以看到显示图片了。
　　3. nginx-gridfs的不足
　　没有实现http的range support，也就是断点续传，分片下载的功能。
GridFS实现原理
　　GridFS在数据库中，默认使用fs.chunks和fs.files来存储文件。
　　其中fs.files集合存放文件的信息，fs.chunks存放文件数据。
　　一个fs.files集合中的一条记录内容如下，即一个file的信息如下：
01{02"_id": ObjectId("4f4608844f9b855c6c35e298"), //唯一id，可以是用户自定义的类型03"filename": "CPU.txt", //文件名04"length": 778, //文件长度05"chunkSize": 262144, //chunk的大小06"uploadDate": ISODate("2012-02-23T09:36:04.593Z"), //上传时间07"md5": "e2c789b036cfb3b848ae39a24e795ca6", //文件的md5值08"contentType": "text/plain"//文件的MIME类型09"meta": null//文件的其它信息，默认是没有”meta”这个key，用户可以自己定义为任意BSON对象10}　　对应的fs.chunks中的chunk如下：
1{2"_id": ObjectId("4f4608844f9b855c6c35e299"), //chunk的id3"files_id": ObjectId("4f4608844f9b855c6c35e298"),//文件的id，对应fs.files中的对象，相当于fs.files集合的外键4"n": 0, //文件的第几个chunk块，如果文件大于chunksize的话，会被分割成多个chunk块5"data": BinData(0,"QGV...") //文件的二进制数据，这里省略了具体内容6}　　默认chunk的大小是256K。
　　public static final int DEFAULT_CHUNKSIZE = 256 * 1024;
　　所以在把文件存入到GridFS过程中，如果文件大于chunksize，则把文件分割成多个chunk，再把这些chunk保存到fs.chunks中，最后再把文件信息存入到fs.files中。
　　在读取文件的时候，先据查询的条件，在fs.files中找到一个合适的记录，得到“_id”的值，再据这个值到fs.chunks中查找所有“files_id”为“_id”的chunk，并按“n”排序，最后依次读取chunk中“data”对象的内容，还原成原来的文件。
自定义Gridfs的hash函数
　　尽管从理论上，无论用什么hash函数，都有可能出现hash值相同，但内容不相同的文件，但是对于GridFS默认使用的md5算法，目前已出现长度和md5值都相同但内容不一样的文件。
　　如果想要自已改用其它hash算法，可以从驱动入手。因为GridFS在MongoDB中实际也只是两个普通的集合，所以完全可以自已修改驱动，替换下hash算法即可。
　　目前java版的驱动比较简单，可以很容易修改实现。
　　但是要注意，这样不符合GridFS的规范了。
注意事项
　　1. GridFS不自动处理md5相同的文件，对于md5相同的文件，如果想在GridFS中只有一个存储，要用户自已处理。Md5值的计算由客户端完成。
　　2. 因为GridFS在上传文件过程中是先把文件数据保存到fs.chunks，最后再把文件信息保存到fs.files中，所以如果在上传文件过程中失败，有可能在fs.chunks中出现垃圾数据。这些垃圾数据可以定期清理掉。

页: [1]

运维网's Archiver

mongodb 的 GridFS 详细分析（二）