编排火花与气流对海洋管道Apache火花

运行Apache Kubernetes上火花应用程序有很多好处Kubernetes总经理,但操作和规模重大的挑战数据团队。最近的海洋Apache火花点Kubernetes套件的解决方案,数据团队的力量和灵活性Kubernetes复杂性。雷电竞官网进入海洋原生云托管服务,引发Spark-on-Kubernetes自动化云基础设施和应用程序管理。

设计开发人员更友好,海洋火花带有内置集成与流行的数据工具,包括调度解决方案如气流和Jupyter笔记本。雷电竞官网进入有多种方式来运行应用程序火花dota2雷竞技规则 :

  • 你可以连接Jupyter笔记本使用交互式地火花
  • 你可以提交使用调度器火花应用程序像气流,Azure数据工厂,Kubeflow,阿尔戈,完美,或者只是一个简单的CRON作业。
  • 你还可以直接叫海洋火花REST API提交应用程序从任何地方,从而使自定义集成基础设施,CI / CD工具等等。

在本教程中,我们将向您展示如何连接编排服务企业客户之间最受欢迎,Apache气流,并说明如何安排和监控你的工作流和管道对海洋Apache火花。

我们将使用AWS服务管理工作流为Apache气流(MWAA)作为我们的主要例子,因为这很容易设置和处理底层基础设施管理的可伸缩性、可用性和安全性。但这些指令很容易适应不同的运行方式气流。

(可选)为Apache设置亚马逊管理工作流气流(MWAA)

一个使用Amazon S3 bucket商店Apache气流有向无环图(无进取心的人),定制的插件中plugins.zip文件,Python的依赖文件。请确保配置为S3 bucket屏蔽所有公共访问,桶版本控制启用和位于亚马逊MWAA AWS地区一样的环境。

下图显示了如何设置位置在S3存储不同的工件。

请按照说明在这里git存储库之间同步文件和S3

安装和配置海洋火花气流提供者

在MWAA,您可以提供一个需求。txt文件列出所有要安装python包。你应该包括ocean-spark-airflow-provider包,可用。其他发行版的气流,您可以简单地通过运行安装这个包pip安装ocean-spark-airflow-provider

这个开源包(见github库)提供了一个OceanSparkOperator,稍后我们将向您展示,并连接配置如何与海洋的火花。

请输入如下所示的连接细节。你可以访问它从管理- >连接- >添加新记录(+签名)和从连接类型下拉选择海洋Apache火花。

在连接窗口中,输入以下信息,然后单击Save。

  • 默认连接Id:使用ocean_spark_default。你可以使用一个不同的名称。
  • 连接类型:选择从下拉“Apache火花的海洋”
  • 描述:输入任何可选文本来描述连接。
  • 集群Id:海洋火花集群的Id
  • 帐户Id:集群属于现货账户Id,对应于一个云提供商帐户。
  • API令牌:令牌(参见你的现货,NetApp API如何创建一个API的令牌)

在气流中使用海洋火花操作员熟练的技艺

在气流中,DAG -或有向无环图是一家集你想要运行的任务,组织的方式反映了它们之间的关系和依赖关系图。气流将只运行一个任务开始,一旦上游所有任务完成。

当你使用海洋引发操作符定义一个气流任务,任务包括在海洋引发火花运行应用程序。例如,您可以运行多个独立并行管道,火花,只有最后一个火花(或non-Spark)应用程序运行一次并行管道已经完成了。

最后引发工作在这个DAG将执行一次两条平行的工作完成。

DAG定义在一个Python脚本,它代表了装饰边结构(任务及其依赖项)的代码。使用MWAA时,你应该上传DAG python脚本到S3熟练的技艺文件夹。这里有一个例子DAG组成的星星之火工作。

一旦文件被上传到S3熟练的技艺文件夹,DAG将出现在MWAA环境在几分钟内

单击Run运行DAG。火花在现场环境中应用程序将开始运行几分钟(注意:您可以通过配置减少启动时间净空高度)。

一旦应用程序完成后,您应该看到DAG MWAA环境中成功完成。

注意:如果你想给一个不同的名称以外的缺省名称的连接(ocean_spark_default),请使用OceanSparkOperator conn_id参数。

海洋开始使用Apache火花

气流只是其中几个内置的集成海洋Apache火花支持帮助数据团队运行他们的应用程序与Kubernetes火花。学习如何您可以很容易地设置、配置和规模引发应用程序与海洋火花和Kubernetes集群。安排一个初始会议与我们团队的Apache火花解决方案架构师,我们可以讨论你的雷电竞官网进入用例和帮你做一个成功的新员工培训的平台。