所面临的挑战

Weather2020提取天气数据从公共机构在世界各地以各种格式——包括特定于行业的格式不适合大数据。他们使用时间序列数据跨越40多年的气象和地理空间数据。

他们需要管道将这些数据,清洁它,丰富它,聚合,并将其存储在云数据湖以具有成本效益的方式。他们的数据就可以被多个下游数据产品:

  1. 长期天气预报基于Spark-based预测分析
  2. 实时仪表板(由SparkSQL)
  3. 数据交付顾客所需的自定义格式的管道

Weather2020的团队有扎实的工程技术和自定义数据知识提取和建模天气数据,但是他们没有任何经验与Apache火花。

解决方案

EMR需要太多的设置和维护工作。我们不想花时间编写bash脚本管理和配置它。砖感觉就像一个赌场。它看起来不像正确的产品对于我们的技术团队,和他们的陡峭的价格为我们统治他们。- - - - - -马克斯首席工程师@ Weather2020数据。

现货的海洋Apache火花的门槛降低了Apache火花,使其更多的开发人员友好,同时最小化基础设施成本由于自动驾驶功能。

  • 自动化基础设施管理:基于负载的动态集群规模和调整基础设施配置参数和火花来优化性能。
  • 本机集装箱化:Weather2020建造自己的码头工人图像简化PySpark代码及其复杂的包装库(Cython和C依赖性)。
  • 气流集成:气流是部署在同一Kubernetes集群(的)海洋火花。我们用它来安排我们的日常管道

*支持动态分配和使用i3实例与大型ssd带来最显著的性能改进考虑到管道的规模(shuffle-heavy工作处理TBs的数据)。

结果

更快地交付项目:它只花了3周构建和productionizeTerabytes-scale数据摄取管道,没有经验与Apache火花。

控制成本:性能优化鼓励公平定价结构实现了总成本降低60%所有权的砖。

一个灵活的、可扩展的体系结构:海洋火花是部署在管理、自动定量Kubernetes(的)集群内部Weather2020 AWS帐户。

Weather2020是一种预测天气分析公司决策者提供远程天气预测和分析各个行业如农业、零售、能源、保险、和烟火。

https://weather2020.com/