资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2,#,Lustre,文件系统简介,1,2,分布式文件系统主要分为三大类:,网络文件系统(瓶颈在存储服务器端),NFS,、,Coda,、,Sprite LFS,存储区域网文件系统(瓶颈在元数据服务器),GPFS,基于对象的分布式文件系统,Lustre,、,Google File System,和,HDFS,2,2025/4/30 周三,什么是,Lustre,基于对象存储的分布式文件系统,基于廉价的,SATA,磁盘驱动器构建超大规模存储集群,不需要专门的硬件支持,支持大多数高速网络类型,高吞吐量、高扩展性和高性能,有效的数据管理机制、全局数据共享、失效替代和系统可快速配置等功能,3,2025/4/30 周三,Lustre,文件系统体系结构,元数据服务器,MDS(Meta Data Server),对象存储服务器,OSS(Object Storage Server),客户端,(Client),元数据目标设备,MDT(Meta Data Target),对象存储目标设备,OST(Object storage Target),连接这些组件的高速网络,4,2025/4/30 周三,5,2025/4/30 周三,元数据服务器,MDS,负责元数据服务,同时管理整个文件系统的命名空间,多个,MDS,之间共享访问一个,MDT,每个,MDT,保存文件元数据对象,例如文件名称、目录结构和访问权限等,Client,通过,MDS,读取到保存于,MDT,上的元数据,6,2025/4/30 周三,OSS,和,Client,OSS,负责客户端和物理存储之间的交互及数据的存储,向外提供数据的,I/O,接口,每个,OSS,管理一个或者多个,OST,,存储文件数据对象,Client,通过,OSS,访问保存在,OST,上的文件数据,Client,挂载了,Lustre,文件系统的任意节点,实现了可移植,POSIX,文件系统接口,用户通过,client,可以透明的访问整个文件系统的数据,7,2025/4/30 周三,客户端与,MDS,之间进行元数据的交互、目录管理、文件的打开和关闭、并发访问控制等。,客户端与,OSS,之间进行文件数据的交互,包括文件,I/O,锁操作和数据的读写等。,8,2025/4/30 周三,Lustre,文件系统逻辑结构,LNET,责将这些信息送到实际的网络传输线路中,PTR-RPC,负责处理三部分之间的,RPC,请求与应答,MDS,模块将客户端请求进行分发,元数据请求交由日志模块,Journal,处理,记录元数据操作日志,将元数据操作由,Fsfilt wrapper,模块记录在后端存储端,锁请求交由,Ldlm,处理,获得文件的意图锁,Fsflit,定义了一个一般性,API,,从而将,Lustre,特有的请求翻译为后端文件系统特有的请求,9,2025/4/30 周三,Lustre,文件系统逻辑结构,OST,模块主要将来自客户端的请求进行分发,其中的数据请求交给,OBDfilter,模块处理;,OBDfilter,模块主要实现,Lustre,和其运行平台的高效通信,结合,ldiskfs,可以提供应用层一般的文件操作接口,ldiskfs,是,Linux ext3,和,ext4,文件系统的超集,用在服务器端,作为底层的本地文件系统,锁请求交由分布式锁管理器,Ldlm,处理,获得文件的范围锁,10,2025/4/30 周三,Lustre,文件系统逻辑结构,客户端节点的,Llite,模块主要提供与支持标准可移植,POSIX,语法的,linux,的,VFS,层相兼容的接口;,逻辑对象卷,LOV,模块主要通过其下层的对象存储客户端,OSC,为,Llite,提供对象存储的,API,接口;,元数据客户端,MDC,模块主要被,Llite,用来与元数据服务器进行通信,为用户提供与各个元数据服务器进行命名空间操作交互的元数据对象,API,接口;,OSC,模块主要用来与对象存储设备进行文件数据,I/O,以及锁服务的交互,每一个,OSC,都对应一个,OST,11,2025/4/30 周三,Lustre,的分布式锁管理者,(LDLM),意图锁:用于文件元数据的访问,通过执行锁的意图减少元数据访问所需的消息传递次数,从而减少每次操作的延迟,范围锁:保护细粒度的文件数据并发访问,为所有用户提供一致性的文件系视图,12,2025/4/30 周三,Lustre,客户端缓存机制,Lustre,在客户端的内存空间开辟一段缓存区,客户端把首次访问的文件对象保存在自己的高速缓存中,尽量减少与服务器的交互次数,从而降低网络开销。,客户端执行文件读取操作时,1.,向,MDS,发送元数据请求,获得元数据信息,并保存到客户端本地的高速缓存中;,2.,客户端与相应的,OST,建立连接,将实际的文件数据读入高速缓存,应用程序再从高速缓存中执行文件读取操作。,13,2025/4/30 周三,14,2025/4/30 周三,Lustre,客户端缓存一致性问题,15,2025/4/30 周三,一致性问题解决方法,并发写造成的不一致:,采用分布式锁管理机制,LDLM,,通过对元数据加意图锁,对数据加范围锁,保证元数据并发操作的一致性,对长期占有锁资源的进程,采用锁回调,callback,机制释放锁资源,读写读造成的不一致:,客户端对本地已经缓存过的文件进行再次访问时,仍需要与,MDS,进行一次交互获得最新的元数据信息,之后再和本地缓存的元数据信息进行比对,如果一致就从本地缓存中读取文件数据,否则就与相应的,OST,建立连接重新获取文件数据,16,2025/4/30 周三,备份服务器,Failover,Lustre,系统中的每个节点,(MDS/OST),一般都可以配置备份服务器,两个服务器采用共享磁盘存储的方式来存放数据,当服务器或网络连接发生失效时,就会导致客户端数据访问超时,客户端会查询备份服务器的数据,得到信息后,立即将后续的请求重定向到备份服务器,17,2025/4/30 周三,高能所的,Lustre,部署有四个特点:,(1),元数据服务器,MDS,分为主从,但是无法在线备份和容错;,(2),采用万兆以太网;,(3),没有采用分片存储,一个文件仅存储在一个,OST,上;,(4),存储设备采用廉价的,SATA,盘,通过,RAID6,实现数据可靠性。,18,2025/4/30 周三,谢谢!,19,2025/4/30 周三,
展开阅读全文