随着数据管道的规模和频率的扩大,组织一直在寻找降低成本和更有效地利用数据基础设施的方法。作为Kubernetes上领先的Spark管理平台,我们已经帮助一些客户做出了迁移他们的Spark的决定dota2雷竞技规则 ,利用战略点实例选择,灵活的pod配置,以及可以纠正过度配置的资源利用工具。
今天,我们很高兴地宣布,Ocean for Apache Spark现已面向Spot控制台内的所有客户。(在这里你可以找到完整的指南开始吧。)
Spot by NetApp用户现在可以轻松地开始迁移到Ocean for Apache Spark。您甚至可以直接部署到现有的Ocean集群中。访问Ocean for Apache Spark中的Clusters选项卡,系统将提示您选择要导入的Ocean集群。您也可以从我们的众多选择之一起程拓殖模块查找与您的云提供商和集群配置匹配的部署。
为什么要为Apache Spark开发Ocean ?
降低应用成本,同时提高可靠性和可用性
利用Ocean的智能点实例选择,Ocean for Apache Spark消除了将应用程序与特定实例类型配对的需要,允许Ocean在运行时选择具有最高可用性、最低价格和最低可能性的点实例类型。这种灵活性可以提高应用程序的持续时间并减少斑点致死率高达79%.
深入了解Spark应用程序的性能
我们认识到Spark开发和调试可能具有挑战性,我们在这里提供帮助!通过我们的资源利用工具,您可以准确地了解您的Spark应用程序是如何执行的,识别哪些资源(I/O,内存,CPU,垃圾收集)正在影响应用程序的执行,并更有效地解决瓶颈。此外,我们组织您的应用程序日志-驱动程序,Kubernetes而且executor -以及维护Spark历史服务器,以便您始终可以访问Spark UI。
集成现有的数据工具
Ocean for Apache Spark支持Jupyter笔记本(包括JupyterHub和JupyterLab)的执行,并集成了像Airflow、AWS StepFunction和Azure Data Factory这样的调度器。我们有一个健壮的REST API,不仅可以轻松地从任何地方提交Spark应用程序,而且还提供了应用程序级的指标,如数据读写、shuffle数据、CPU利用率和成本,可以实现有意义的监控和警报。
通过构建在开源、云原生技术的基础上,Ocean for Apache Spark还与Kubernetes生态系统中的流行工具(可观察性、网络、安全性、集群管理等)进行本地接口。
成本的透明度
通常情况下,对Spark应用程序成本的唯一认识和洞察来自每月的账单;您不需要构建复杂的ETL管道来从云提供商提取数据。幸运的是,我们已经为您完成了大部分艰苦的工作!我们的集群成本分析仪表板提供了作业和应用程序级别的历史成本数据,因此您可以准确地了解Spark工作负载的成本。这些数据可以在Ocean for Apache Spark控制台中查看,可以作为CSV下载,也可以从API中提取。
开始使用用于Apache Spark的Ocean
我们已经帮助许多客户将他们的Spark工作负载迁移到Kubernetes上的Spark,并充分利用了Ocean for Apache Spark所提供的所有优势。
不要只相信我们的话。来自世界各地的统计学家联合国全球大数据平台利用Apache Spark的Ocean来简化他们的工作并降低成本。以及数据集成产品Lingk.io从EMR迁移到Apache Spark的Ocean,在改善最终用户体验的同时实现了高成本节约。
如果您或您的团队有兴趣了解更多,请安排一个时间与我们的Spark专家团队讨论您的用例,并确定Ocean for Apache Spark是否适合您。