牛骨文教育服务平台(让学习变的简单)
博文笔记

FastDFS 分布式文件系统

创建时间:2018-02-24 投稿人: 浏览次数:253

了解项目中使用FastDFS的原因和意义。

掌握FastDFS的架构组成部分,能说出Tracker和Storage的作用。

了解FastDFS+Nginx上传和下载的执行流程。

掌握FastDFS+Nginx在项目中作为图片服务器,上传和下载方法。

 

2.1 什么是FastDFS

FastDFS是用C语言编写的一款开源的分布式文件系统。FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。

 

2.2 FastDFS架构

FastDFS架构包括 Tracker Server和Storage Server。客户端请求Tracker Server进行文件上传、下载,通过Tracker Server调度最终由Storage Server完成文件上传和下载。

 

Tracker Server作用是负载均衡和调度,通过Tracker Server在文件上传时可以根据一些策略找到Storage Server提供文件上传服务。可以将Tracker称为追踪服务器或调度服务器

 

Storage Server作用是文件存储,客户端上传的文件最终存储在Storage服务器上,Storage Server没有实现自己的文件系统而是利用操作系统 的文件系统来管理文件。可以将storage称为存储服务器

 

如下图:

 

 

2.2.1 Tracker 集群

FastDFS集群中的Tracker Server可以有多台,Tracker Server之间是相互平等关系同时提供服务,Tracker Server不存在单点故障。客户端请求Tracker Server采用轮询方式,如果请求的tracker无法提供服务则换另一个tracker。

 

2.2.2 Storage集群

Storage集群采用了分组存储方式。storage集群由一个或多个组构成,集群存储总容量为集群中所有组的存储容量之和。一个组由一台或多台存储服务器组成,组内的Storage Server之间是平等关系,不同组的Storage Server之间不会相互通信,同组内的Storage Server之间会相互连接进行文件同步,从而保证同组内每个storage上的文件完全一致的。一个组的存储容量为该组内存储服务器容量最小的那个,由此可见组内存储服务器的软硬件配置最好是一致的。

采用分组存储方式的好处是灵活、可控性较强。比如上传文件时,可以由客户端直接指定上传到的组也可以由tracker进行调度选择。一个分组的存储服务器访问压力较大时,可以在该组增加存储服务器来扩充服务能力(纵向扩容)。当系统容量不足时,可以增加组来扩充存储容量(横向扩容)。

 

2.2.3 Storage状态收集

Storage Server会连接集群中所有的Tracker Server,定时向他们报告自己的状态,包括磁盘剩余空间、文件同步状况、文件上传下载次数等统计信息。

 

 

2.2.4 文件上传流程

 

 

 

客户端上传文件后存储服务器将文件ID返回给客户端,此文件ID用于以后访问该文件的索引信息。文件索引信息包括:组名,虚拟磁盘路径,数据两级目录,文件名。

 

 

n 组名:文件上传后所在的storage组名称,在文件上传成功后有storage服务器返回,需要客户端自行保存。

n 虚拟磁盘路径:storage配置的虚拟路径,与磁盘选项store_path*对应。如果配置了store_path0则是M00,如果配置了store_path1则是M01,以此类推。

n 数据两级目录:storage服务器在每个虚拟磁盘路径下创建的两级目录,用于存储数据文件。

n 文件名:与文件上传时不同。是由存储服务器根据特定信息生成,文件名包含:源存储服务器IP地址、文件创建时间戳、文件大小、随机数和文件拓展名等信息。

 

 

2.2.5 文件下载流程

 

 

tracker根据请求的文件路径即文件ID 来快速定义文件。

比如请求下边的文件:

 

 

1.通过组名tracker能够很快的定位到客户端需要访问的存储服务器组是group1,并选择合适的存储服务器提供客户端访问。  

2.存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录,并根据文件名找到客户端需要访问的文件。

 

 

 

3.1 FastDFS下载安装

3.1.1 下载

下载地址有两个:

http://sourceforge.net/projects/FastDFS/ 

或者https://github.com/happyfish100/FastDFS (推荐)

 

本教程下载:FastDFS_v5.05.tar.gz

3.1.2 安装配置

第一步:安装gcc环境

yum install -y gcc-c++

 

第二步:安装libevent,FastDFS依赖libevent库

yum install -y libevent

 

第三步:安装libfastcommon,libfastcommon是FastDFS官方提供的包,包含了FastDFS运行所需要的一些基础库。

l 上传libfastcommonV1.0.7.tar.gz,并解压缩

tar -zxvf libfastcommonV1.0.7.tar.gz

 

l 编译安装,进入libfastcommon-1.0.7目录

./make.sh

./make.sh install

l 拷贝libfastcommon.so文件至/usr/lib目录

cp /usr/lib64/libfastcommon.so /usr/lib/

注意:

libfastcommon安装好后会自动将库文件拷贝至/usr/lib64下,由于FastDFS程序引用usr/lib目录,所以需要将/usr/lib64下的库文件拷贝至/usr/lib下。

第四步:安装

l 上传FastDFS_v5.05.tar.gz,并解压缩

tar -zxvf FastDFS_v5.05.tar.gz

 

l 编译安装,进入FastDFS目录

./make.sh

./make.sh install

第五步:拷贝FastDFS/conf目录下的文件到/etc/fdfs目录下

cp /root/FastDFS/conf/* /etc/fdfs

 

第六步:FastDFS配置,进入/etc/fdfs目录

注意:base_path和store_path0目录要存在。

Tracker配置,修改/etc/fdfs/tracker.conf

base_path=/usr/local/fastdfs/tracker

Storage配置,修改/etc/fdfs/storage.conf

 

#指定storage的组名

group_name=group1

base_path=/usr/local/fastdfs/storage

store_path0=/usr/local/fastdfs/storage

#如果有多个挂载磁盘则定义多个store_path,如下

#store_path1=.....

#store_path2=......

#配置tracker服务器IP和端口
tracker_Server=192.168.242.140:22122   

#如果有多个则配置多个tracker

#tracker_Server=192.168.101.4:22122

 

l 创建目录

mkdir /usr/local/fastdfs/tracker –p

mkdir /usr/local/fastdfs/storage –p

 

 

3.1.3 启动

正常启动:

Tracker启动命令:/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf

Storage启动命令:/usr/bin/fdfs_storaged /etc/fdfs/storage.conf

 

设置开机自动启动:

vim /etc/rc.d/rc.local

 

将运行命令行添加进文件:

/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf

/usr/bin/fdfs_storaged /etc/fdfs/storage.conf

 

3.2 上传图片测试

3.2.1 通过fdfs_test程序

FastDFS安装成功后可通过【fdfs_test】命令测试上传、下载等操作。

 

第一步:进入/etc/fdfs/目录,拷贝一份client.conf文件

cp client.conf.sample client.conf

 

第二步:修改client.conf

base_path=/usr/local/fastdfs/client

tracker_Server=192.168.242.140:22122

 

注意:创建client的数据目录

[root@linux fdfs]# mkdir -p /usr/local/fdfs/client

 

 

第三步:使用fdfs_test命令上传图片

上传命令:/usr/bin/fdfs_test  /etc/fdfs/client.conf  upload  上传文件

 

比如将/home下的图片上传到FastDFS中:

/usr/bin/fdfs_test /etc/fdfs/client.conf upload /home/tomcat.png

 

http://192.168.101.3/group1/M00/00/00/wKhlBVVY2M-AM_9DAAAT7-0xdqM485_big.png就是文件的下载访问路径。

对应storage服务器上的磁盘路径:

/home/fastdfs/fdfs_storage/data/00/00/wKhlBVVY2M-AM_9DAAAT7-0xdqM485_big.png文件。

 

由于现在还没有和Nginx整合无法使用http下载。

 

 

3.2.2 通过java Client API

第一步:添加以下jar包

 

如果是Maven工程,则需要通过pom文件添加jar包。不过该jar包,在中央仓库是没有的,需要将该jar包,安装到本地仓库或者私服。

 

 

 

第二步:创建测试代码

 

public class TestFastdfsClient {

// 客户端配置文件

private String conf_filename = "resource/fdfs_client.conf";

// 本地文件,要上传的文件

private String filename = "C:\Users\think\Pictures\555581b1N07912744.jpg";

 

@Test

public void test() throws Exception {

// 初始化加载配置文件

ClientGlobal.init(conf_filename);

// 获取tracker的客户端

TrackerClient client = new TrackerClient();

// 获取tracker的服务端

TrackerServer trackerServer = client.getConnection();

// 获取storage的客户端

StorageClient storageClient = new StorageClient(trackerServer, null);

// 通过storage的客户端完成上传操作

String[] upload_file = storageClient.upload_file(filename, "jpg", null);

for (String string : upload_file) {

System.out.println(string);

}

}

}

 

第三步:修改fdfs_client.conf文件,指定tracker_Server的地址

tracker_Server = 192.168.242.140:22122

 

3.3 FastDFS 和Nginx整合

3.3.1 在tracker服务器上安装Nginx

Nginx的安装细节参考Nginx教案文档。

 

在每个tracker上安装Nginx,的主要目的是做负载均衡及实现高可用。如果只有一台tracker服务器可以不配置Nginx。

3.3.2 在storage服务器上安装Nginx

3.3.2.1 安装fastdfs-Nginx-module

第一步:上传fastdfs-Nginx-module_v1.16.tar.gz,并解压缩

tar -zxvf fastdfs-Nginx-module_v1.16.tar.gz

 

第二步:修改fastdfs-Nginx-module/src/目录下config文件,去掉local

 

 

 

第三步:将fastdfs-Nginx-module/src下的mod_fastdfs.conf拷贝至/etc/fdfs/下

cp mod_fastdfs.conf /etc/fdfs/

 

第四步:修改mod_FastDFS.conf文件

base_path=/usr/local/fastdfs/storage

tracker_Server=192.168.242.140:22122

#url中是否包含group名称

url_have_group_name=true

#指定文件存储路径,访问时使用该路径

store_path0=/usr/local/fastdfs/storage

 

第五步:将libfdfsclient.so拷贝至/usr/lib下

cp /usr/lib64/libfdfsclient.so /usr/lib/

第六步:创建Nginx/client目录

mkdir -p /var/temp/Nginx/client

 

3.3.2.2 安装Nginx

第一步:安装第三方软件

1、安装PCRE

PCRE(Perl Compatible Regular Expressions)是一个Perl库,包括 perl 兼容的正则表达式库。Nginx的http模块使用pcre来解析正则表达式,所以需要在linux上安装pcre库。

yum install –y pcre pcre-devel

注:pcre-devel是使用pcre开发的一个二次开发库。Nginx也需要此库。

 

2、安装ZLIB

zlib库提供了很多种压缩和解压缩的方式,Nginx使用zlib对http包的内容进行gzip,所以需要在linux上安装zlib库。

yum install –y zlib zlib-devel

 

3、安装OPENSSL

OpenSSL 是一个强大的安全套接字层密码库,囊括主要的密码算法、常用的密钥和证书封装管理功能及SSL协议,并提供丰富的应用程序供测试或其它目的使用。

Nginx不仅支持http协议,还支持https(即在ssl协议上传输http),所以需要在linux安装openssl库。

yum install –y openssl openssl-devel

 

 

第二步:上传Nginx-1.8.0.tar.gz,并解压缩

[root@imgServer ~]# tar -zxf Nginx-1.8.0.tar.gz

第三步:进入Nginx-1.8.0目录,执行configure配置

./configure

--prefix=/usr/local/Nginx

--pid-path=/var/run/Nginx/Nginx.pid

--lock-path=/var/lock/Nginx.lock

--error-log-path=/var/log/Nginx/error.log

--http-log-path=/var/log/Nginx/access.log

--with-http_gzip_static_module

--http-client-body-temp-path=/var/temp/Nginx/client

--http-proxy-temp-path=/var/temp/Nginx/proxy

--http-fastcgi-temp-path=/var/temp/Nginx/fastcgi

--http-uwsgi-temp-path=/var/temp/Nginx/uwsgi

--http-scgi-temp-path=/var/temp/Nginx/scgi

--add-module=/root/fastdfs-Nginx-module/src

第四步:编译安装

make

make install

 

第五步:修改Nginx.conf配置文件

Server {

        listen       80;

        Server_name  localhost;

 

        location /group1/M00/{

                #root /home/FastDFS/fdfs_storage/data;

                ngx_fastdfs_module;

        }

}

 

说明:

location /group1/M00/:请求uri以/group1/M00/开头的请求,才会正常使用Nginx模块ngx_fastdfs_module下载访问图片。

 

第六步:创建临时目录

[root@linux sbin]# mkdir /var/temp/Nginx -p

 

第七步:启动Nginx

4.1 tracker.conf

 

1 基本配置

disable

#func:配置是否生效

#valu:true、false

disable=false

bind_addr

#func:绑定IP

#valu:IP地址

bind_addr=192.168.6.102

port

#func:服务端口

#valu:端口整数值

port=22122

connect_timeout

#func:连接超时

#valu:秒单位正整数值

connect_timeout=30

network_timeout

#func:网络超时

#valu:秒单位正整数值

network_timeout=60

base_path

#func:Tracker数据/日志目录地址

#valu:路径

base_path=/home/michael/fdfs/base4tracker

max_connections

#func:最大连接数

#valu:正整数值

max_connections=256

work_threads

#func:线程数,通常设置CPU数

#valu:正整数值

work_threads=4

store_lookup

#func:上传文件的选组方式。

#valu:0、1或2。

# 0:表示轮询

# 1:表示指定组

# 2:表示存储负载均衡(选择剩余空间最大的组)

store_lookup=2

store_group

#func:指定上传的组,如果在应用层指定了具体的组,那么这个参数将不会起效。另外如果store_lookup如果是0或2,则此参数无效。

#valu:group1等

store_group=group1

store_Server

#func:上传服务器的选择方式。(一个文件被上传后,这个storage Server就相当于这个文件的storage Server源,会对同组的storage Server推送这个文件达到同步效果)

#valu:0、1或2

# 0: 轮询方式(默认)

# 1: 根据ip 地址进行排序选择第一个服务器(IP地址最小者)

# 2: 根据优先级进行排序(上传优先级由storage Server来设置,参数名为upload_priority),优先级值越小优先级越高。

store_Server=0

store_path

#func:上传路径的选择方式。storage Server可以有多个存放文件的base path(可以理解为多个磁盘)。

#valu:

# 0: 轮流方式,多个目录依次存放文件

# 2: 存储负载均衡。选择剩余空间最大的目录存放文件(注意:剩余磁盘空间是动态的,因此存储到的目录或磁盘可能也是变化的)

store_path=0

download_Server

#func:下载服务器的选择方式。

#valu:

# 0:轮询(默认)

# 1:IP最小者

# 2:优先级排序(值最小的,优先级最高。)

download_Server=0

reserved_storage_space

#func:保留空间值。如果某个组中的某个服务器的剩余自由空间小于设定值,则文件不会被上传到这个组。

#valu:

# G or g for gigabyte

# M or m for megabyte

# K or k for kilobyte

reserved_storage_space=1GB

log_level

#func:日志级别

#valu:

# emerg for emergency

# alert

# crit for critical

# error

# warn for warning

# notice

# info for information

# debug for debugging

log_level=info

run_by_group / run_by_user

#func:指定运行该程序的用户组

#valu:用户组名或空

run_by_group=

 

#func:

#valu:

run_by_user=

allow_hosts

#func:可以连接到tracker Server的ip范围。可设定多个值。

#valu

allow_hosts=

check_active_interval

#func:检测 storage Server 存活的时间隔,单位为秒。

#      storage Server定期向tracker Server 发心跳,

#      如果tracker Server在一个check_active_interval内还没有收到storage Server的一次心跳,

#      那边将认为该storage Server已经下线。所以本参数值必须大于storage Server配置的心跳时间间隔。

#      通常配置为storage Server心跳时间间隔的2倍或3倍。

check_active_interval=120

thread_stack_size

#func:设定线程栈的大小。 线程栈越大,一个线程占用的系统资源就越多。

#      如果要启动更多的线程(V1.x对应的参数为max_connections,V2.0为work_threads),可以适当降低本参数值。

#valu:如64KB,默认值为64,tracker Server线程栈不应小于64KB

thread_stack_size=64KB

storage_ip_changed_auto_adjust

#func:这个参数控制当storage Server IP地址改变时,集群是否自动调整。注:只有在storage Server进程重启时才完成自动调整。

#valu:true或false

storage_ip_changed_auto_adjust=true

2 同步

storage_sync_file_max_delay

#func:同组storage服务器之间同步的最大延迟时间。存储服务器之间同步文件的最大延迟时间,根据实际情况进行调整

#valu:秒为单位,默认值为1天(24*3600)

#sinc:v2.0

storage_sync_file_max_delay=86400

storage_sync_file_max_time

#func:存储服务器同步一个文件需要消耗的最大时间,缺省为300s,即5分钟。

#sinc:v2.0

storage_sync_file_max_time=300

sync_log_buff_interval

#func:同步或刷新日志信息到硬盘的时间间隔。注意:tracker Server 的日志不是时时写硬盘的,而是先写内存。

#valu:以秒为单位

sync_log_buff_interval=10

3 trunk 和 slot

#func:是否使用trunk文件来存储几个小文件

#valu:true或false

#sinc:v3.0

use_trunk_file=false

 

#func:最小slot大小

#valu:<= 4KB,默认为256字节

#sinc:v3.0

slot_min_size=256

 

#func:最大slot大小

#valu:>= slot_min_size,当小于这个值的时候就存储到trunk file中。默认为16MB。

#sinc:v3.0

slot_max_size=16MB

 

#func:trunk file的size

#valu:>= 4MB,默认为64MB

#sinc:v3.0

trunk_file_size=64MB

4 HTTP 相关

是否启用 HTTP

#func:HTTP是否生效

#valu:true或false

http.disabled=false

HTTP 服务器端口号

#func:tracker Server上的http port

#valu:

#note:只有http.disabled=false时才生效

http.Server_port=7271

检查Storage存活状态的间隔时间(心跳检测)

#func:检查storage http Server存活的间隔时间

#valu:单位为秒

#note:只有http.disabled=false时才生效

http.check_alive_interval=30

心跳检测使用的协议方式

#func:检查storage http Server存活的方式

#valu:

# tcp:连接到storage Server的http端口,不进行request和response。

# http:storage check alive url must return http status 200.

#note:只有http.disabled=false时才生效

http.check_alive_type=tcp

检查 Storage 状态的 URI

#func:检查storage http Server是否alive的uri/url

#note:只有http.disabled=false时才生效

http.check_alive_uri=/status.html

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。