数据湖一个更平衡的视角

最近与我的同事Anne Buff 的数据湖辩论可能已经结束,但许多组织中的讨论才刚刚开始。我们在辩论中学到的东西——你可能会在你自己的组织中发现——它迫使人们就管理大数据世界中不断增长的数据量展开更广泛的讨论。随着近年来大数据技术的冲击,组织不得不重新审视支持其数据收集、处理、存储和分析活动的底层技术。而现在,基于 Hadoop 的数据湖恰好是一个非常流行的选择。 关于数据湖。在我们进入“到数据湖还是不到数据湖”的讨论之前,让我们定义什么是数据湖。这是我们在辩论中使用的定义: 更多阅读 图像 这是您的生活,由您的数据主演 隐私死了吗?调查显示 使用 Hadoop 总能省钱吗? 大数据备忘单:高管们想知道的 大数据怎么了?让我们看看趋势 数据湖是一个存储库,以其原生格式保存大量原始数据,包括结构化、半结构化和非结构化数据。

直到需要数据时才

定义数据结构和要求。 自称为 Pentaho 首席极客的 James Dixon 创造了数据湖一词,并这样描述它: “如果你把数据集市想象成瓶装水的商店——经过清洗、包装和结构化以方便饮用——数据湖就是一个更自然状态的大水体。数据湖的内容从源头涌入填满湖面,湖中的各种用户可以前来检查、潜入 电话号码列表 或取样。” SWOT 数据湖。为了帮助保持讨论的平衡(因为我意识到我带着自己的偏见来到谈判桌前),我使用臭名昭著的 SWOT 图来确定与数据湖相关的一些关键因素。[你们中的一些人可能会从最近的帖子中认出它。]此快速快照旨在帮助您在自己的组织内启动数据湖对话: 图像 优势 降低成本。基于 Hadoop 的数据湖在很大程度上依赖于开源软件,旨在运行在低成本的商用硬件上。因此,从软件和硬件的角度来看,可以节省大量成本,这是不容忽视的。 一站式数据购物。Hadoop 不尊重数据。它将存储和处理所有内容(结构化、半结构化和非结构化),而成本和时间仅为现有传统系统的一小部分。

电话号码列表

将所有或大部分数据集

中在一个地方可以获得很多好处——以前所未有的方式混合和匹配数据集。 弱点 数据管理。我们可能会挂断谈论(大)数据的数量、种类和速度,但对于这个讨论同样重要的是能够治理和管理所有这些数据,而不管底层技术如何。对于基于 Hadoop 的数据湖,开源项目和供应商产品都在不断成熟/开 BF线索 发以支持这种不断增长的需求。我们正朝着正确的方向快速前进,但我们还没有完全到达那里。 保安。基于 Hadoop 的安全性一直是一个长期问题,但开源社区和供应商正在努力并取得重大进展,以支持组织的安全和隐私要求。虽然很容易对这个特殊的“弱点”指指点点,但重要的是要认识到我们每周(几乎每天)听到的关于数据泄露的报告主要是对现有传统系统的攻击,而不是对这些较新的大数据系统的攻击. 机会 发现。此功能允许用户发现“未知的未知数”。与现有数据仓库不同,在现有数据仓库中,用户可以提出的问题和答案都受到限制,而基于 Hadoop 的数据湖则没有限制。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注