时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{避免“数据湖”成为“数据沼泽”,流动的“数}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的避免“数据湖”成为“数据沼泽”,流动的“数内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
数据湖(Data Lake)在Wiki中定义如下: 简而言之,数据湖是按存储原始数据格式的数据存储,旨在任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节。一般以Hadoop系统存储为比较典型的解决方案,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。 数据湖的概念被企业中广泛用于大数据平台的存储与使用,替代了原有数据仓库体系当中的ODS(operational data store)存储企业中各种各样的数据。在易观,SDK的月活达到5.9亿,当易观的数据湖达到6.8Pb都无法存储半年数据的时候,我意识到这个问题:“这样真的是对的么?数据一味的堆积,等待被使用时才调用? ” 企业的业务是实时在变化的,这代表着沉积在数据湖中的数据定义、数据格式实时都在发生的转变,企业的大型数据湖对企业数据治理(Data Governance)提升了更高的要求。大部分使用数据湖的企业在数据真的需要使用的时候,往往外链工具因为数据湖中的数据质量太差而无法最终使用。 数据湖,被企业当成一个大数据的垃圾桶,最终数据湖成为臭气熏天,存储在Hadoop当中的数据成为无人可以清理的数据沼泽,最终以为TCO(Total cost of ownship)过高而被企业所抛弃。 这个时候我意识到:“大数据,不被有效使用就会成为大垃圾。” 如何让大数据的水保持清亮不会成为数据沼泽? 中国有句谚语:
数据只有流动起来,才可以不成为数据沼泽,湖泊只是暂存数据河流的基地。数据流动就意味着所有的数据产生,最终要有它的耕种者和使用者。要让数据有效流动起来,就要建立有效的“数据河”(Data River)。 什么是数据河? 数据河(Data River)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。 数据河的特点如下:
最终一个企业内部由多条河流组成一个公司内部的数据生态(Enterprise Data Eco System):
这个模式比较典型的一个实现就是易观方舟,易观方舟以IOTA架构安装到企业内部,帮助企业建立用户行为分析这个CDM的数据河,以“主、谓、宾”的模式打通企业内部用户的各种行为,直接提供给产品和运营做相关的数据分析,同时也是一个PaaS平台,可以供给给其他数据耕种者继续再次加工。 数据河是数据驱动中台的最终架构,只有让数据流动起来不断消费才可以让数据不断的自我更新迭代数据质量,不断自我加强才可以实现数据驱动业务。 数据,只有流动起来才可以产生价值。宁要IOTA架构下的数据河,不要Lambda架构下的数据湖。
本文由@Analysys易观 于 。, ,基于CC0协议 |
上一篇:不进行APP埋点的情况下,SDK可以收集到哪些数据
下一篇:从APP数据上报到可视化报表展示
小提示:您应该对本页介绍的“避免“数据湖”成为“数据沼泽”,流动的“数”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通避免“数据湖”成为“数据沼泽”,流动的“数的相关事宜。
关键词:3年, 中级, 数据河, 数据湖