具有成本效益的大规模天气分析与原生云Apache - Spot.io火花

所面临的挑战

Weather2020提取天气数据从公共机构在世界各地以各种格式——包括特定于行业的格式不适合大数据。他们使用时间序列数据跨越40多年的气象和地理空间数据。

他们需要管道将这些数据,清洁它,丰富它,聚合,并将其存储在云数据湖以具有成本效益的方式。他们的数据就可以被多个下游数据产品:

Weather2020的团队有扎实的工程技术和自定义数据知识提取和建模天气数据,但是他们没有任何经验与Apache火花。

EMR需要太多的设置和维护工作。我们不想花时间编写bash脚本管理和配置它。砖感觉就像一个赌场。它看起来不像正确的产品对于我们的技术团队,和他们的陡峭的价格为我们统治他们。- - - - - -马克斯首席工程师@ Weather2020数据。

现货的海洋Apache火花的门槛降低了Apache火花,使其更多的开发人员友好,同时最小化基础设施成本由于自动驾驶功能。

*支持动态分配和使用i3实例与大型ssd带来最显著的性能改进考虑到管道的规模(shuffle-heavy工作处理TBs的数据)。

更快地交付项目:它只花了3周构建和productionizeTerabytes-scale数据摄取管道,没有经验与Apache火花。

控制成本:性能优化鼓励公平定价结构实现了总成本降低60%所有权的砖。

一个灵活的、可扩展的体系结构:海洋火花是部署在管理、自动定量Kubernetes(的)集群内部Weather2020 AWS帐户。

Weather2020是一种预测天气分析公司决策者提供远程天气预测和分析各个行业如农业、零售、能源、保险、和烟火。