大数据应用程序需要分布式系统来处理,存储和分析大量的公司收集的信息。Apache火花已经成为框架,为用例从人工智能和机器学习数据分析,通过提供一个统一的界面分布在计算机集群的数据处理任务。火花需要其他服务管理集群中,纱线,便有两家知名集群管理工具。最近,Kubernetes已经成为越来越普遍的方法来管理大数据集群的云,提供用户的灵活性,microservices的速度和可伸缩性。
当用户将受益于与Kubernetes部署应用程序,这是适合大数据负载的原因很多还有Kubernetes引入的复杂性,目前真正的挑战,建立一个全面优化大数据平台。
请继续阅读,了解更多关于你将面对的一些挑战与Kubernetes构建原生云引发应用程序,以及如何克服它们。
时间和专业知识
为了运行火花与可靠性和Kubernetes high-performance-especially在生产环境和配置基础设施大数据处理系统的规模是至关重要的。然而,这并不容易或简单,需要大量的时间和专业知识。从创建k8集群和节点,设置自动定量、Kubernetes充满了复杂性,可以让新手刚刚开始一个挑战。数据科学家不想与管理基础设施,因为Kubernetes相对新生的空间,数据操作团队是剩下一个陡峭的学习曲线。DevOps团队,另一方面,与Kubernetes有经验,但仍以其复杂性和有限的知识大数据和机器学习工具。
DIY Kubernetes
对于大规模的大数据应用程序,选择一个DIY Kubernetes部署,而不是管理等服务的或GKE,可以为用户提供更大的灵活性和控制集群,但是很难站立会议和实现,尤其是对一个团队Kubernetes经验。一套广泛而复杂的组件,需要配置插件和服务而考虑应用程序的具体要求和需要,将影响安装。对于火花应用程序,用户将不仅需要设置Kubernetes和找出他们如何监视和故障诊断应用程序,而且它们将如何部署一个火花运营商连接Jupyter笔记本(或另一个IDE),并建立和管理工作流。
维护人员的自我管理Kubernetes部署还需要了解云定价模型的计算,需要选择各种各样的随需应变,保留和现货实例为了最大化数据处理,同时控制成本。这些定价模型的细微差别,然而,使采购决策困难,往往有一个直接影响应用程序的性能。
动态基础设施管理
大数据系统需要灵活的基础设施的资源需求相匹配的可伸缩性容器上运行它。Kubernetes将豆荚当应用程序的请求,但它并不底层基础设施的规模。只要有一个健康的节点上运行有足够的容量,Kubernetes会安排的。这往往导致过度供给的豆荚运行在比他们需要的能力,这能让有限的集群资源之间的不平衡和不断增长的大数据的计算要求。雷竞技rabet官网优化这个DIY的方式可以成为一个永无止境的试验和错误的任务。
弹性
火花的体系结构上运行Kubernetes还常常需要用户实现自动化的流程,以确保系统的可靠性。提交一份工作时,创建一个火花司机豆荚,发射执行人豆荚执行任务。如果一个执行人pod失败,司机pod负责取代它。然而,如果司机pod失败可以降低您的应用程序。用户将不得不排除故障并重启豆荚。为了避免这种情况,最好的做法是自动化构建的(即lambda函数、气流)处理失败,需要繁重的数据工程师和科学家学习、部署、管理和规模工作流工具这个架构。
成本控制与现场实例
处理大量的数据往往是资源密集型和管理大数据系统的要求和需求可能代价高昂。虽然云提供商提供现货实例作为一个有成本效益的方式消费云能力,解锁这个成本并不简单。
就其本质而言,现货实例可中断。如果火花工作中断的终止点实例,实例上执行的任务可能会丢失,和应用程序所有者将从一开始就需要重新启动工作。这已经增加了复杂的云环境中,用户必须解决几个问题,以确保火花现货实例上运行的应用程序的可靠性。
实时感知应用程序选择现货市场
在灵活性上运行的工作负载的混合,对需求和保留的实例提高应用程序的可靠性,性能和成本效率。确定使用哪个模型和市场取决于应用程序——是容错吗?频繁的交通高峰经验吗?
对于现货实例上运行的应用程序,重要的是要选择市场最不可能被打断。最重要的是理解每个实例的实时可用性市场(实例类型,大小和可用性区域),并确保工作负载运行最稳定的市场。然而,基于实时应用需求选择实例,而不是预先配置的目标,是一个操作负担,包括积极监控市场和详细了解特定应用程序基础设施的需求。
应用弹性interruption-prone基础设施
与中断的风险,应用程序需要容错。设计可靠的应用程序的最佳实践,例如,microservices方法有助于防止故障影响整个应用程序。可靠地运行工作负载现场实例,建议传播实例在可用性区域和使用多个实例类型。然而这种策略添加操作任务,包括需要为每一个可用性区域管理自动定量组。这变得更加复杂,如果你想使用不同大小的实例,为一个单一的ASG不会支持混合实例类型与不同的CPU和RAM。
保证瞬时火花批、流和ML应用程序处理
当一个大数据项目的扩张,一个共同的瓶颈不足资源(CPU /内存/ GPU),导致低性能甚至中断的服务。雷竞技rabet官网当云中的操作使用户能够自旋向上更多的资源需要扩展时,没有速度的保证新提供的基础设施和健康为应用程序上运行。雷竞技rabet官网这导致pod调度处理时间延迟和增加工作。用户可以保持额外的能力,或空间,为潜在的准备基础设施扩展应用程序不必等待新的能力。确定适当的空间和限制浪费资源往往是比赛的试验和错误,要求用户有很好的理解资源利用率、历史扩展趋势和其他因素。雷竞技rabet官网
避免陷阱
毫无疑问,使用Kubernetes火花运行应用程序显著的好处。然而,即使Kubernetes大数据应用的普及,许多这些挑战尚未解决。在即将到来的帖子,我们将解决其中的一些问题,包括如何运行你的火花应用现场实例与弹性和效率。
与此同时,看看教程的文档如何设置Apache Kubernetes火花。了解更多关于现货的大数据解决方案,雷电竞官网进入与我们的团队。