首页 » 哪些主题包含表现最好的内容?

哪些主题包含表现最好的内容?

Sprout 大数据方法的关键
我们的 Hadoop 生态系统依赖于 Apache Hbase,这是一个可扩展的 哪些主题包含表 分布式 NoSQL 数据库。 Hbase 对我们处理大数据的方法至关重要,因为它不仅能够对整个数据集进行快速范围扫描,而且还能够进行快速、随机、单记录查找。

Hbase 还允许我们批量

加载数据并更新随机数据,以便我们可以更轻松地处理无序到达或部分更新的消息,以及社交媒体数据带来的其他挑战。然而,自我管理的 Hadoop 集群给我们的基础设施工程师带来了高昂的运营成本,包括手动管理灾难恢复、集群扩展和节点管理。

为了帮助减少管理这些包含数百 TB 数据的系统所需的时间,Sprout 的基础设施和开发团队 伯利兹电报筛查 齐心协力,寻找比运行自我管理的 Hadoop 集群更好的解决方案。我们的目标是:

让 Sprout 工程师更好地构建、管理和操作大型数据集
最大限度地减少工程师手动拥有和维护系统的时间投入
减少因集群扩展而造成的不必要的过度配置成本

提供更好的容灾方式和可靠性

当我们评估当前大数据系统的替代方案时,我们努力寻找一种能够轻松与我们当前的处理和模式集成的解决方案,并减轻手动管理集群带来的操作负担。

评估新的数据模式替代方案
我们团队考虑的解决方案之一是数据仓库。数据仓库充当数据分析和聚合的集中存储,但与 Hbase 相比 广告活动效果分析 更类似于传统的关系数据库。他们的数据经过结构化、过滤并具有严格的数据模型(即单个对象具有单行)。

对于我们存储和处理具有多个

并行存在的消息版本的社交消息的用例,数据仓库的模型效率低下,无法满足我们的需求。我们无法将现有模型有效地适应数据仓库,并且性能比我们预期的要慢得多。重新格式化我们的数据以适应数据仓库模型将需要大量的开销来在我们的时间轴上进行返工。

我们研究的另一个解决方案是数据湖屋。数据湖房扩展了数据仓库概念,以允许较少的结构化数据、更便宜的存储以及围绕敏感数据的额外安全层。虽然数据湖房提供的功能比数据仓库更多,但它们的效率不如我们当前的 Hbase 解决方案。通过测试合并记录以及插入和删除处理模式,我们无法为批处理作业生成可接受的写入延迟。

使用 AWS EMR 减少开销和维护

根据我们对数据仓库和 Lakehouse 解决方案的了解,我们开始研究运行托管 Hbase 的替代工具。虽然我们认为当前对 Hbase 的使用对于 Sprout 的工作是有效的,但我们问自己:“我们如何才能更好地运行 Hbase 以减轻我们的运营负担,同时仍然保持我们的主要使用模式?”

从那时起,我们开始评估 Amazon 的 Hbase 弹性映射缩减 (EMR) 托管服务。评估 EMR 需 库拉索领先 要以与测试数据仓库和 Lakehouse 相同的方式评估其性能,例如测试数据摄取以查看其是否能够满足我们的性能要求。我们还必须测试数据存储、高可用性和灾难恢复,以确保 EMR 从基础设施/管理角度满足我们的需求。

EMR 的功能改进了我们

当前的自我管理解决方案,使我们能够像使用 Hbase 一样重用当前的读取、写入和运行作业模式。 EMR 的最大优势之一是使用 EMR 文件系统 (EMRFS),该系统将数据存储在 S3 中而不是节点本身上。

我们发现的一个挑战是 EMR 的高可用性选项有限,这限制了我们在单个可用区中运行多个主节点,或在多个可用区中运行一个主节点。通过利用 EMRFS 缓解了这一风险,因为它为灾难恢复提供了额外的容错能力,并将数据存储与计算功能分离。通过使用 EMR 作为 Hbase 的解决方案,我们能够提高可扩展性和故障恢复,并最大限度地减少维护集群所需的手动干预。最终,我们认为 EMR 最适合我们的需求。

 

滚动至顶部