为调度Apache火花Kubernetes vs纱

k8 vs纱

火花是一种最广泛使用的大数据分析的计算工具。它擅长实时批处理和流处理,机器学习,人工智能,NLP和数据分析应用程序。由于其内存处理能力,引发流行上升。随着火花的使用增加,年长的Hadoop堆栈是在下降的各种限制,使数据团队更难实现业务成果。Hadoop很难与更广泛的企业集成技术堆栈和不提供灵活性大数据以外的工作负载。所以,Hadoop不适合实时分析——Kubernetes擅长的东西。尽管Hadoop下降一个由容器和Kubernetes所主导的世界里,火花仍然是高度相关的。事实上,Kubernetes的出现开辟了一个新的机会来改善火花的世界。这就是我们看在这篇文章中,从纱线到Kubernetes火花管理应用程序。

火花在纱

火花使用两个关键组件——分布式文件存储系统,和管理工作负载调度器。通常,火花将对存储、使用HDFS运行和纱线(另一个资源管理器)或便,两个最常见的资源管理器。不像便这是一个操作系统调度器,纱是一个应用程序级调度器。迄今为止,纱是首选的调度程序处理资源分配提交作业时的火花。纱被目的建立资源调度器Hadoop的工作,便需要一个被动的调度方法。便可用资源,预计报告框架选择是否执行工作。雷竞技rabet官网纱,另一方面,是意识到可用资源,积极将任务分配给这些资源。雷竞技rabet官网

纱是如何工作的呢?

纱集群包含许多主机,其中一些主机,而大多数工人主机。一个ResourceManager处理资源集群级别雷竞技rabet官网,而NodeManager管理个人主机级别雷竞技rabet官网的资源。他们跟踪vcores在集群和本地主机级别和记忆。
纱的火花

当应用程序上运行像火花纱、ResourceManager NodeManager评估集群上的可用资源和分配到一个主机的每个容器。雷竞技rabet官网通过这种方式,纱线的主要工作是管理资源和任务安排在一个集群中。雷竞技rabet官网

使用纱远比管理引发作为一个独立的应用程序。大型数据集,许多并发工作负载运行,和日益复杂的后端基础设施,纱线可以引发大规模运行。

纱线在云端的局限性

纱线不足在哪里在版本和依赖性等方面控制,从彼此孤立的工作,优化资源配置。为了运行多个工作负载需要每个工作负载类型的专用集群。根据克里斯托弗·克罗斯比的谷歌纱“集群复杂,必须使用更多的组件比所需工作或模型。"由于纱线很难有效地管理任务——建立评估的目的。纱迫使你做出妥协与高要求工作负载实时处理。此外,正如今天的数据需求不仅仅是“大”,但也“微”和短暂的,纱无法跟上现代工作负载的要求。

因为纱线低于工作隔离它需要建立和拆除集群需要运行的每个新工作。这会产生成本,是一个容易出错的过程,浪费计算资源。雷竞技rabet官网这些维护任务把注意力从工作上运行火花——这是最重要的。

更糟的是,火花基础设施和平台的人才库是减少劳动力的大规模迁移到的那一天下一波大数据资源管理——Kubernetes

Kubernetes正在取代纱

Kubernetes今天被称为一个集装箱编配平台。随着使用不断爆炸,Kubernetes是没有企业技术依然完好无损,包括火花。有很多优势使用Kubernetes管理火花。在早期,关键原因是,很容易引发应用程序部署到现有Kubernetes基础设施在一个组织。这将各种软件交付团队的努力。这个原因是许多明显的优势迅速成为超越Kubernetes”在其优势的。

支持Kubernetes实验从2018年2月2.3版本。然而,由于版本3.1发布20201年3月,支持Kubernetes已经达到一般的可用性。以前,有与Kubernetes性能差异和可靠性问题,但是现在,Kubernetes在这些方面已经赶上或超过了纱。事实上,亚马逊跑比较测试报告5%使用Kubernetes时节省时间而不是纱。
kubernetes vs纱

Kubernetes火花的好处

有很多优势在Kubernetes运行火花而不是纱。让我们看看关键好处:

  1. 包所有的依赖关系以及火花应用程序容器。这避免了依赖性问题与火花。
  2. Kubernetes”资源配额和名称空间带来更大控制应用程序如何使用和共享系统资源。雷竞技rabet官网
  3. 可切换的支持基础设施意味着火花在混合云设置应用程序现在便携式。
  4. Kubernetes角色和ClusterRole特性允许您设置细粒度权限基于API的资源和组织这些权限组。雷竞技rabet官网
  5. 标签容器图像用于版本控制,促进更好的审计,并回滚失败的部署能力。
  6. Kubernetes生态系统与强大的开源插件是盛开的管理与监控。普罗米修斯对于时间序列数据,日志聚合Fluentd, Grafana数据可视化的几个显著的例子。
  7. GitOps允许您以声明的方式管理基础设施和应用程序部署。通量和阿尔戈是两个主要GitOps工具,使这一点。
  8. 设置时,您可以使用舵图表安装、管理和版本控制方案及其依赖关系。

这已经是一长串的好处,但最大的原因采取Kubernetes纱是大数据分析的未来。在每个云供应商的支持下,企业通过CNCF(原生云计算基础)Kubernetes留了下来,和革新是大数据进行了分析。

所有的优势,有挑战与运行的火花Kubernetes,不应该被忽略。

挑战与Kubernetes火花

第一个挑战考虑与Kubernetes火花是它需要专业知识,团队缺乏数据。如果您的组织已经投资Kubernetes操作跨团队,这可能不是一个问题。

最后的深刻的博客的主题Kubernetes和火花,Oleksandra Bovkun &罗马伊万诺夫的话完全操作这个平台需要至少Kubernetes的基本知识,执掌,码头工人和网络。如果你想避免它,你可能会试图把一层抽象这个平台通过创建一个UI, Kubernetes API的调用下面。”
虽然Kubernetes擅长扩展应用程序,用户仍然需要解决底层基础设施规模的方法。火花应用程序可以动态的和给他们的基础设施,是动态支持快速应用程序部署。然而Kubernetes提供灵活、更有弹性、更有效的基础设施需要大量的时间,专业知识和资源年代。

另一个关键的挑战是成本控制,同时保持灵活的基础设施来支持动态应用程序。大数据操作是昂贵由于大规模研究、测试、建模和实验。如果不控制,成本失控。实施成本控制的主要方法是使用现货实例。这些实例是由云供应商提供大幅折扣。然而,他们不来保证可用性,可以在任何时候终止提供者需要他们回来。因此,第二天操作的一个重要部分是节省成本的一种策略,在处理弹性与失败的节点。这需要精心的策划,是劳动密集型的。

Kubernetes提出了一个很好的机会来革新与火花大数据分析。它将工作负载的基础设施上运行。它带来了一套全新的管理和监视工具火花。它在处理速度略优于现任纱。它不再是实验选择,或者妥协——这是大数据分析的未来。然而,获得这些好处需要深刻理解Kubernetes如何运作的设置和维护它。

介绍点波

NetApp介绍了波点的serverless引擎运行Kubernetes火花,帮助数据和DevOps团队管理云基础设施的复杂性。波,用户可以运行他们的集装箱火花应用程序在一个聪明的地方,在需求和保留的情况下,优化减少集群足迹和云成本。波旋转Spark-aware基础设施与自动定量机制匹配正确的实例类型和规模最大化应用程序的性能和效率。通过监测云资源利用率,实时和加班,波为反复出现的火花不断曲调配置工作。离开波规模和管理基础设施,应用程序可以真正利用火花Kubernetes功能。

了解更多关于波

下载我们的免费指导”,自动定量和6其他Kubernetes自动化挑战”