优化火花码头工人的图片现在可用

我们兴奋地公开发布优化码头工人形象Apache火花。他们可以从我们的免费下载DockerHub库,不管你是NetApp客户现货的。

这是很多工作的结果现货的海洋Apache火花团队确保我们可以:

  • 建立一个码头工人的组合图片为我们的客户服务需求,各种版本的火花,Python, Scala, Java, Hadoop,所有流行的数据连接器
  • 自动测试它们在不同工作负载,确保包括依赖关系一起工作(换句话说,让你从“依赖地狱”)。

我们的理念是提供高质量的码头工人形象,与电池包括“”,这意味着您将能够开始做你的工作和所有公共数据源支持的火花。我们希望这些图片只会为你工作,开箱即用的。

我们将保持这个舰队的图片随着时间的推移,及时了解最新版本和bug修复的火花和各种内置的依赖关系。

你有没有屏蔽所有的容器生产由于依赖问题?我们希望能救你。

一个码头工人形象的火花吗?

当您运行火花在Kubernetes火花的司机和执行人是集装箱码头工人。这些容器使用图像专为火花,火花分布本身包含(火花2.4,3.0,3.1)。这意味着火花的版本并不是一个全球集群属性,因为它是对纱线集群。

您还可以使用码头工人图像在本地运行的火花。例如您可以运行火花在司机才模式(在一个单一的容器),或火花在当地minikube Kubernetes集群上运行。我们的许多用户选择在他们的开发和测试。

使用码头工人将加快开发工作流和给你快速、可靠和可再生的生产部署。

更多地了解使用码头工人的好处对于火花,看看具体步骤使用码头工人在你的开发工作流程,检查我们的文章:“火花和码头工人:你的开发周期中突出了快10倍!”。

这些优化的码头工人的图片是什么?

它们包含火花分布本身——从开源的代码,没有任何专有的修改。

他们有内置连接器公共数据来源:

  • AWS S3 (s3a: / /计划)
  • 谷歌云存储(gs: / /计划)
  • Azure Blob存储(wasbs: / /方案)
  • Azure Datalake第一代(adls: / /计划)
  • Azure Datalake代2 (abfss: / /计划)
  • 雪花
  • 三角洲湖

他们也有内置的Python&PySpark支持,以及皮普conda所以它很容易安装额外的Python包。(如果您不需要PySpark,您可以使用更轻的图像标记前缀“jvm-only”)

最后,每个图像使用的组合版本从以下组件:

  • Apache火花:2.4.5 3.1.1
  • Apache Hadoop: 3.1或3.2
  • Java: 8或11
  • Scala: 2.11或2.12
  • Python: 3.7或3.8

请注意,并不是所有的可能的组合存在,看看我们DockerHub页面找到他们。

我们的图片包括连接器GCS, S3, Azure数据湖,三角洲,雪花,以及支持Python, Java, Scala, Hadoop和火花!

如何使用我们的火花码头工人的图片吗

更新(2021年10月):看到我们的一步一步的教程如何构建一个形象,开始使用我们的boilercode模板!

你应该使用我们的火花码头工人图像为基础,然后建立自己的图像通过添加代码依赖项。这里有一个Dockerfile例子来帮助你开始:

Dockerfile构建一个定制的火花的形象

一旦你建立了码头工人的形象,您可以运行在本地运行:码头工人运行{{image_name}}司机当地:/ / / opt /应用程序/主要。py {args}

或者你可以把你新建的码头工人注册你自己的图像,然后使用它在您的生产k8集群!

不要直接把我们DockerHub图像从你生产集群在一个未经身份验证的方式,当你击中率限制风险。最好把你的图片到您自己的注册表,或者从Dockerhub采购支付计划。

现货,NetApp从我们的用户可以直接使用图像文档。他们有一个更高的可用性和一些额外的高级功能,如Jupyter支持。

结论——我们希望这些图片对你会有用的

这些图片对你工作吗?你需要添加新的连接器或版本吗?让我们知道,我们会爱你的反馈。

你有兴趣获得试验数据的力学测试平台的好处一个集装箱火花的平台由Kubernetes供电,部署在云账户?安排一次演示和我们同去,我们将向您展示如何开始。