存储技术发展日新月异。一方面传统集中式SAN/NAS还在广泛使用,另一方面各类分布式存储产品已纷纷在新兴的海量数据场景中占据市场。如何根据业务需求选择合适的存储架构?分布式存储能否在所有场景都能取代传统集中式存储?请参考本文攻略。
传统集中式存储
传统SAN/NAS存储的硬件架构采用“控制器+硬盘柜”的方式。中高端存储支持多个控制器,以保障高可用并提高性能。多控制器为紧耦合,通过PCIE总线或Infiniband网络互连,共享磁盘阵列,共享缓存。
传统集中式存储起步早,技术成熟,架构简单,表现出足够的稳定性,对高IOPS、低延时、和数据强一致性有很好支持。另外,近年来全闪存阵列存储发展迅速,IOPS性能提高到机械硬盘存储的100倍以上,能够有效解决IOPS性能痛点。
传统集中式存储的特性适合作为金融/医疗等核心业务系统的数据库存储。
传统存储的系统架构决定了其扩展能力有限,无法很好支撑高并发访问性能。随着我们进入大数据时代,集中式存储增长空间越来越有限。
分布式存储
企业不断快速增长的海量数据,需要更有弹性可扩展的存储架构。
分布式存储是新兴的存储技术,采用“标准的x86服务器硬件+存储软件”的架构,将标准X86/ARM服务器通过高速以太网或Infiniband互连,通过分布式存储软件将服务器本地的HDD、SSD等存储介质组织成统一的大规模存储资源池。分布式存储实现了存储的硬件与软件解耦,数据中心能够以标准化硬件搭建存储平台,提升IT敏捷性,降低运维成本,符合软件定义数据中心的发展趋势。
分布式存储也称为软件定义分布式存储(SDS: Software Defined Storage)。
分布式存储的存储单元为x86/ARM服务器(也称为节点),以标准2U 存储服务器为例,前面板可插入12块3.5寸硬盘。
图 存储服务器:2U高度,12盘位
硬盘的容量,有4TB\6TB\8TB\10TB\12TB\16TB等。
如果选择10TB硬盘,则单个节点的物理容量为 12 * 10 = 120TB。
分布式存储有效解决了传统集中式存储的可扩展性问题,规模可扩展至上千个节点,容量扩展到上百PB甚至EB级,性能随容量线性提升。按需在线扩容后,自动实现数据再均衡。分布式存储的多个存储节点能够同时提供读写服务,因此具有很高的吞吐率,可达到几十GB/s。
分布式存储支持3种存储功能,能够打造统一的数据存储平台:
SAN块存储,SCSI/iSCSI接口协议
NAS文件存储,CIFS/NFS接口协议
对象存储,S3接口协议
分布式存储使用多副本和纠删码技术实现数据保护。多副本方式(业界常用的多副本方式一般为2副本或3副本),其优点是可靠性高,性能高;但缺点是存储容量有效利用率低(2副本为50%,3副本为33%)。业界常用的纠删码配置方式一般为8+4(8个数据块,4个校验块,容量利用率为66%)。纠删码的优点是可靠性高,容量利用率高,缺点是性能低。
一般选择原则是:
在线存储设备用多副本;备份归档用纠删码;
小文件用多副本;大文件用纠删码。
目前,国内有多种分布式存储产品可以选择,包括开源软件、基于开源软件优化的产品、国产研发的分布式存储产品等。
上海霄云研发的碧海分布式存储,性能优异,解决了海量小文件存储的痛点,性能达到传统集中式高端存储和Ceph类产品的3倍,文件数可达到百亿级以上,为医疗PACS影像、金融电子票据、自动驾驶、工业自动化等海量数据场景提供了革新的存储解决方案。
结语
综上所述,分布式存储是一种未来主流的存储技术,具备非常好的发展前景,但是分布式存储并不能适应所有的业务场景,需要根据实际的业务需求进行合理选择。
精彩评论