回复互联畅想:分布式存储让扩容变得轻松,灵活性是真不错
下载贤集网APP入驻自媒体
数据湖是一种存储和处理数据的平台,更准确说是一个技术体系。2010 年 10 月由 Pentaho 公司创始人詹姆斯・迪克森为推广产品及 Hadoop 提出。 与数据仓库不同,数据湖利用 Hadoop 等技术,不预处理数据源数据,全部存储,解决了数据仓库分析灵活性不足、难以处理非结构化及半结构化数据等问题,还打破数据孤岛。其优点众多:能存储多样数据,满足时代需求与 AI 发展;采用读时模式,处理实时性强;基于分布式存储,容量大且可灵活扩展;基于开源软件和廉价硬件构建,成本低;保留原始数据特征,支持多样应用。 但数据湖也面临挑战。性能上,数据量大且格式杂,缺一致结构和事务支持,影响报告和分析性能。数据治理方面,其核心在于管理数据可用性、完整性与安全性,要重视元数据管理,建立数据目录以提升数据可访问和发现性,同时关注数据质量与合规,否则易成“数据沼泽”。 数据湖架构一般含四个主要层次:数据摄取层收集数据源数据并传输;数据存储层以原始格式大规模存储;数据管理层管理组织数据,保障安全合规;数据访问层提供工具支持数据查询、分析等操作。不同厂商提供组件产品,开源方案如 Delta Lake 等较知名,云服务商因能提供全托管方案推广积极。