大不了的关于大数据和Kubernetes

Jon烈性黑啤酒

营销副总裁

2021年1月11日,

阅读时间:6分钟

apache火花大数据原生云容器容器美丽 kubernetes 火花 Spark-on-k8s

阅读时间:6分钟

你应该Kubernetes上运行大数据的工作量吗?不久以前,大多数人会说不是。你们可能听说过的原因包括:

大数据的工作负载需要直接访问存储和网络资源雷竞技rabet官网
Kubernetes调度器不理解大数据的特定需求的工作负载
支持监控Kubernetes太有限了
与大数据集成软件不够先进,让它容易操作软件像火花,卡夫卡,类似Kubernetes-managed容器。

虽然早期采用Kubernetes主要是无状态的服务,而不是以数据为中心的应用程序,负责大数据平台越来越多的团队现在想采用Kubernetes,尤其是那些希望在云中部署和操作大数据的工作量。其固有的可伸缩性,Kubernetes事实上成为一个主要的路上大数据团队运行他们的应用程序。

是什么改变了?Kubernetes的架构和能力总是使它呼吁大规模基础设施上部署和操作可伸缩的分布式应用程序,但解锁,价值主张复杂和不切实际,直到Kubernetes及其生态系统的发展使这些好处可访问和可实现的。

让我们仔细看看。

Kubernetes大数据软件

原因考虑使用Kubernetes和容器支持软件是基于大数据的核心利益Kubernetes-it使得基础设施和运营团队更容易部署、规模和管理软件和资源以一种灵活的、可靠的方法。雷竞技rabet官网团队负责大数据平台和基础设施已确保有足够多的数据科学家和工程师获得他们需要的数据和系统,使它重要的解决方案,简化和简化基础设施管理。雷电竞官网进入随着Kubernetes变得越来越视为一个云的操作系统大数据平台团队越来越多地采用这些工作负载。

确保可移植性

大数据软件通常部署在各种environments-not只有有多个生产集群处理数据,但也有集群测试,过渡开发,部署在数据探索和更多样化的基础设施。

包装大数据软件及其依赖项容器由Kubernetes便于部署大数据管理软件,而不需要重新配置组件适合底层硬件和软件基础设施,不管基础设施正在运行。例如,相同的堆栈可以很容易地复制在不同的云地区甚至是私有云,使用不同的硬件代或不同的实例类型,而不需要重新配置和重新包装。

简化

一个相关的好处是使用容器和Kubernetes可以明显轻松地构建和部署大数据应用程序在一个可靠的和可重复的方式。这尤为重要,对于大数据的应用程序,包括许多组成部分,每一个都有一个非常特殊的依赖关系列表和配置要求。

使用容器和Kubernetes,可以避免不匹配的库版本的复杂性和Hadoop组件的兼容性,卡桑德拉,火花或类似的复杂系统。不仅如此,你可以尝试使用版本控制和多个版本标记的容器,让它容易部署和更新每个不创建冲突和不兼容性。使它更容易快速创建部署数据工程师和科学家用于实验,数据探索、测试和新的应用程序,而不消耗时间和精力的DevOps和基础设施团队建立,大小和规模的基础设施和软件组件。

资源管理

大数据的工作量,尤其是那些支持开发、数据探索和测试,运行时可以有大型基础设施的需求,但也有高度可变的使用。每个部署的专用集群创建大量的成本通过资源利用效率低。雷竞技rabet官网

而不是强迫你创建多个孤立的基础设施集群,Kubernetes可以有效地共享资源,这样相同的集群可以安全地用于多个甚至并发应用程序,提高利用率,同时避免依赖冲突或非托管资源的竞争。雷竞技rabet官网Kubernetes的能力如命名空间和资源配额保证相当不同的工作负载可以共享资源,而节点选择器和角色可以用来隔离资源和访问。雷竞技rabet官网

解锁Kubernetes大数据软件的好处

虽然这些好处的一个基础部分Kubernetes和容器从一开始,Kubernetes和大数据软件的发展使他们更加便利,帮助开门Kubernetes越来越多地被用于大数据基础设施。

易于部署

运营商为常见的大数据平台的可用性使它明显容易Kubernetes上部署大数据的软件。现在有各种各样的专业Kubernetes经营者,使其易于部署大数据解决方案Kubernetes-for例子,雷电竞官网进入Apache卡夫卡运营商,Apache火花运营商,Apache Cassandra运营商和其他许多人。这些运营商解锁的可用性的可移植性Kubernetes的好处,便于在各种环境中部署大数据软件在一个一致的、可靠的方法。

日益增长的生态系统

尽管有限的工具,了解生态系统和处理Kubernetes大数据解决方案可能是一个障碍在早期的Kubernetes,随着时间的推移Kubernetes发展解决方案的广泛和丰富的生态系统监测、日志、安全,更可以用于大数据平台。雷电竞官网进入寻找工具来帮助收集和检查所有的Hadoop集群中的每个节点生成的日志吗?快速搜索会发现很多相关教程等话题建立与Kubernetes fluentd,使用ElasticSearch检查Kubernetes日志,等等。类似地,您可以很容易地找到的例子的方法来监视性能的Apache火花Kubernetes使用集群普罗米修斯收集度量标准可以提出并使用预先构建的查看Grafana仪表板的火花。

资源管理的进步

另一个因素,使得它更容易使用Kubernetes支持大数据的工作负载是资源管理的进化在Kubernetes和大数据的软件。例如,考虑调度:集群经理如纱或便被使用或被一些大数据软件平台帮助分配任务的资源。雷竞技rabet官网尽管这些集群经理提出了基本独立的经理,他们不是为Kubernetes-the建立负载平衡和队列的复杂性很难利用这些与Kubernetes调度器。结果的一个挑战就是使用相同的并发应用程序集群,例如两个不同的火花集群,意味着你不得不做出妥协都依赖隔离和性能隔离。

最近更新Kubernetes和大数据解决方案成为可能,甚至有利于利用Kubernetes的资源管理与雷电竞官网进入解决方案。比如说火花。火花最近推出了(目前实验)支持使用Kubernetes调度器形式化了,在那之前需要的第三方插件。这种支持允许您使用Kubernetes帮助调度火花任务资源,利用资源管理、隔离和Kubernetes内置负载平衡。雷竞技rabet官网提供重要的改进在使用其他调度器与火花,使其更容易同时运行多个版本的火花和其他大数据工具,共享节点不同的任务,而不需要静态分区节点,和co-schedule实时批处理工作负载。

性能

调度器的成熟和老练的进步Kubernetes处理另一个常见的担忧Kubernetes可以提供大数据处理所需的性能。最近AWS博文,讨论中描述基准测试Kubernetes火花,使用Kubernetes调度器可以引发性能超过性能与其他调度器更常用的火花。使用TPC-DS基准,快5%的AWS团队观察到的性能在使用Kubernetes相比,调度器使用纱线。

采取下一个步骤

一旦你决定你想用Kubernetes支持大数据部署,重要的是要确保你利用知识、工具和技术,可以使尽可能简单。首先,你可以通过阅读别人如何做,例如如何部署目标Apache Cassandra在Kubernetes或如何Adobe开始与Apache Kubernetes卡夫卡。

在即将到来的文章中,我们将采用一种更深层次的看Kubernetes上运行大数据解决方案,包括一个看的一些方法,我们的客户都是这样做,他们是雷电竞官网进入如何利用技术从现货NetApp帮助那些努力。如果你想了解更多这方面的,一个地方开始检查海洋,我们的自动化解决方案和优化Kubernetes和容器的云基础设施。更深层次的潜水,看看如何使用我们试试免费试用,看一看海洋的文档在我们的教程设置Apache与Kubernetes火花。