华为分布式存储-化作大数据产业支点,撬动海量数据的无限潜能
发布时间 : 2022-12-27
2022中国移动合作伙伴大会
智慧中台生态创新高峰论坛
在广州举行
存储、计算、数据服务等
产业链伙伴共聚一堂
期间,华为分布式存储领域副总裁韩振兴围绕“YB数据时代下,如何打造湖仓一体创新存储底座”主题进行探讨,重点分享了面向大数据湖仓一体架构,华为分布式存储在软件、硬件与解决方案上的创新之举,期望与全产业共同拥抱新应用、新机遇。
遍地开花的大数据应用
偌大的城市里,在我们看不见的地方,大数据正“悄悄”地改变着人们的生活:
在运营商,每秒钟3000万条记录、每天数PB的数据需要被处理,正在支撑疫情防控、辅助应急救灾、规避电信诈骗;
在金融业,大型银行的数据湖存储可达50PB,正通过挖掘历史与实时交易日志模型,联合分析,提供精准营销、识别支付风险;
在交通行业,一座中型城市的智慧交通系统每年产生100PB数据,正依靠车辆轨迹的识别处理,逐渐实现智能调度、提升通行效率。
这些数字,织起了百姓生活的方方面面,串联起每一个家庭、每一个人。如今,如山似海的数据应用、数据格式正在涌现,而如何聚焦释放每一比特数据所蕴含的价值,是众多企业需要反复深思的问题。
韩振兴表示:
“
当前,企业的实时数据流通常汇集在数据仓库中,而更多的历史数据则存储于数据湖。跨越湖仓的分析应用带来了大量数据倒换与搬迁,分析结果的时延高达数天。实现湖仓数据融合存储、数据格式归一、支持混合负载,是避免资源浪费、提升分析时效的关键手段。
”
拥抱大数据
数据存储该怎么做?
多、杂、乱、慢。
这是大数据处理中的四个关键词。展开来看,它阐述了四个趋势:数据集合的规模和产生速度持续提升、数据类型与格式更加繁冗、单位数据价值密度不断降低、数据处理难度逐步加大。
为了破解这些问题,结合了数据分层、存算分离等理念的湖仓一体架构应运而生。它融合了数据湖的灵活性与数据仓库的高效率,实现一份数据、一套任务在湖、仓之上无缝调度和管理。而在打造这个敏捷高效的湖仓一体架构过程中,作为数据最核心的载体,存储也同步面临三个“需要”:
需要开放的数据格式。一份数据能被多种计算引擎访问,并支持对接多样化生态。
需要数据访问的高性能、低时延。满足万级客户端并发访问,并实现混合负载自适应。
需要灵活的扩展能力。大数据规模增速极快,存储必须支持EB级数据扩展,同时满足海量数据的存储成本最优。
一路以创新为征帆
化作大数据产业的支点
韩振兴表示,华为致力于打造湖仓一体的最佳数据基础设施,在时代的浪花里怀揣罗盘,勇作大数据产业的引渡人。华为OceanStor Pacific分布式存储拥有三大创新:
首先是软件架构。体现在两个方面:
统一湖、仓数据格式的访问。通过存储支持Hudi,实现一套存储数据0迁移,既提升数据访问效率,也降低存储成本。
对混合负载分而治之。凭借独创SmartBalance全均衡系统设计,能够自适应混合业务的多样I/O模型并采用不同处理方式,轻松应对流式处理、批量分析、查询检索、AI训练的全场景,实现带宽、IOPS和OPS性能全优。
然后是硬件设计。顺应了三个方向:
更高密的设计。从过去的12盘/U跃升至20盘/U,华为做到单位空间里容纳更多介质。单位容量密度的提升也映证了“更经济、更绿色”的存储理念。
更快的数据加速引擎。华为采取先进的缓存介质,构建内存级访问效率的分布式高速大缓存,将上层的部分处理算子、查询过滤算法下移到存储侧执行,有效节省了计算和网络的开销,访问时延做到仅10+微秒。
更可靠的软硬协同。通过定制化专用部件、专属Firmware、针对CPU/内存/缓存等核心硬件设计的I/O流等,简化交付、维护和生命周期管理难度,部件故障率降低30%。
同样还有大数据解决方案。重构在两个趋势:
从存算一体,到存算解耦,再到湖仓融合。
第一步跨越,实现计算、存储按需扩展,让专属的设备做更专业的事,帮助客户TCO大幅降低。
而第二步跨越,实现数据入库即可查,华为能做到用户无感知的原生HDFS和S3兼容,避免数据格式转换,向一湖多云、实时分析更进一步。
从热温冷数据分级,到跨域数据流动。
第一个层面,驱使数据在一套集群内、多套集群间分级流动,华为内置了ML(机器学习)模块,支持Workload热度、迁移时间、磁盘水位等的6个维度分级策略。
而第二个层面,是驱使数据在跨域跨站点间流动,顺应“东数西存”,凭借GFS(全局文件系统)实现跨域数据可见可查,无需人工干预,让热温数据存放在东部,而低成本的冷数据流动到西部。