时间:2021-07-15 | 标签: | 作者:Q8 | 来源:Google Cloud网络
小提示:您能找到这篇{Google Cloud:基于 Dataproc 的 Apache Flink}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的Google Cloud:基于 Dataproc 的 Apache Flink内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
Google Cloud 的 Dataproc 让您能够以更简便、更经济的方式来基于 Google Cloud 运行原生 Apache Spark 和 Hadoop 集群。在本文中,我们将介绍在 Dataproc 的 Component Exchange 中提供的最新可选组件:Docker 和 Apache Flink。 Dataproc 中的 Docker 容器 Docker 是一种广泛使用的容器技术。由于它现在是 Dataproc 可选组件,Docker 守护进程 (daemon) 现在可被安装到 Dataproc 集群的每个节点。这将使您能够安装容器化应用程序,并且在集群中轻松地与 Hadoop 集群交互。 此外,Docker 对于支持以下这些功能也至关重要: 1.通过 YARN 运行容器 2.可移植 Apache Be顺为广告am 作业 在 YARN 中运行容器使您能够单独管理您的 YARN 应用程序的依赖性,并且允许您在 YARN 中创建容器化的服务。可移植 Apache Beam 将作业打包到 Docker 容器,并将其提交至 Flink 集群。 除了默认的 Docker registry,还可对 Docker 可选组件进行配置以使用 Google Container Registry。这使您能够使用由您的组织管理的容器镜像。 以下是利用 Docker 可选组件创建 Dataproc 集群的示例: gcloud beta dataproc clusters create <cluster-name> --optional-components=DOCKER --image-version=1.5 当您运行 Docker 应用程序时,使用 gcplogs 驱动程序,日志将被传至 Cloud Logging。 如果您的应用程序不依赖任何 Hadoop 服务,核实 Kubernetes 和 Google Kubernetes Engine 是否以原生方式运行容器。要了解有关 Dataproc 使用的更多信息,请参阅我们的相关文档。 基于 Dataproc 的 Apache Flink 在流分析技术中,Apache Beam 和 Apache Flink 更加出色。Apache Flink 是一个基于有状态计算的分布式处理引擎。Apache Beam 是定义批处理和流处理管道的统一模式。使用 Apache Flink 作为扩展引擎,除了 Google 的 Cloud Dataflow 服务,您还可以在 Dataproc 中运行 Apache Beam 作业。 Flink 以及在 Flink 中运行 Beam 适合大规模连续作业,可提供:
Google Cloud 的 Dataproc 团队最近宣布 Flink Operator on Kubernetes 现已可用。它允许您在 Kubernetes 中运行 Apache Flink 作业,具有减少平台依赖性和产生更好的硬件效率的优势。 基本 Flink 概念 Flink 集群包括 Flink JobManager 以及一组 Flink TaskManager。与 YARN 之类的其他分布式系统中的类似角色相似,JobManager 的“责任”包括接受作业、管理资源以及监控作业等。TaskManager 负责运行实际任务。 在 Dataproc 中运行 Flink 作业时,我们将 YARN 用作 Flink 的资源管理器。您可以以两种方式运行 Flink 作业:作业集群和会话集群。对于作业集群,YARN 将为作业创建 JobManager 和 TaskManagers,并且将在作业完成时销毁集群。对于会话集群,YARN 将创建 JobManager 和几个 TaskManager。集群可服务多个作业直至被用户关闭。 如何利用 Flink 创建集群 使用以下命令作为开始: gcloud beta dataproc clusters create <cluster-name> --optional-components=FLINK --image-今日头条引流优势version=1.5 如何运行 Flink 作业 在带有 Flink 的 Dataproc 集群启动后,您可以使用 Flink 作业集群直接将您的 Flink 作业提交至 YARN。接受作业后,Flink 将在 YARN 中为此作业启动 JobManager 和任务槽。Flink 作业将在 YARN 集群中运行,直至完成。然后,将关闭所创建的 JobManager。作业日志将在常规 YARN 日志中提供。尝试此命令以运行一个字数统计示例: HADOOP_CLASSPATH=`hadoop classpath` flink run -m yarn-cluster /usr/lib/flink/examples/batch/WordCount.jar 默认情况下,Dataproc 集群将不启动 Flink 会话集群。相反,Dataproc 将创建脚本“/usr/bin/flink-yarn-daemon”,该脚本将启动 Flink 会话。 如果您要在 Dataproc 创建时启动 Flink 会话,使用metadata关键词来允许启动: gcloud dataproc clusters create <cluster-name> --optional-components=FLINK --image-version=1.5 --metadata flink-start-yarn-session=true 如果您要在 Dataproc 创建后启动 Flink 会话,可在主节点运行下列命令: $ . /usr/bin/flink-yarn-daemon 向该会话集群提交作业。您需要获得 Flink JobManager URL: HADOOP_CLASSPATH=`hadoop classpath` flink run -m <JOB_MANAGER_HOSTNAME>:<REST_API_PORT> /usr/lib/flink/examples/batch/WordCount.jar 如何运行 Java Beam 作业 运行以 Java 编写的 Apache Beam 作业非常简单。无需额外的配置。只要您将 Beam 作业打包为 JAR 文件,不需要进行任何配置即可在 Flink 中运行 Beam。以下是您可以使用的命令: $ mvn package -Pflink-runner$ bin/flink run -c org.apache.beam.examples.WordCount /path/to/your.jar-网上推广方法-runner=FlinkRunner --other-parameters 如何运行以 Python 编写的 Python Beam 作业 以 Python 编写的 Beam 作业使用不同的执行模式。要基于 Dataproc 在 Flink 中运行它们,您还需要启用 Docker 可选组件。以下是创建集群的示例: gcloud dataproc clusters create <cluster-name> --optional-components=FLINK,DOCKER 您还需要安装 Beam 所必需的 Python 库,例如,apache_beam 和 apache_beam[gcp]。您可以传递一个 Flink 主 URL,让它在会话集群中运行。如果您未传递 URL,需要使用作业集群模式来运行此作业: import apache_beam as beamfrom apache_beam.options.pipeline_options import PipelineOptionsoptions = PipelineOptions([ "--runner=FlinkRunner", "--flink_version=1.9", "--flink_master=localhost:8081", "--environment_type=DOCKER"])with beam.Pipeline(options=options) as p: ...编写 Python 作业后,只需运行它以提交: $ python wordcount.py |
上一篇:使用 GCP Transcoder API 构建自动化转码工作流
下一篇:亚马逊为何莫名封号?别踩这些坑
基于对传统行业渠道的理解,对互联网行业的渠道我们可以下这样一个定义:一切...
小米应用商店的后台操作和苹果是比较相似的,因为都能填写100字符关键词,允许...
小米的规则目前是在变更中的,但是根据经验小米的搜索排名评分的高低是个很重...
为了恰饭,有时候是要接入一些广告的,所以FB也专门有一个广告的SDK,这就是A...
在 2018 年于旧金山举行的游戏开发者大会上,Amazon Web Services (AWS) 曾宣布,目前世...
关于Facebook Audience Network如何收款的问题,其实官方已经给了详细的步骤。本文主要...
本文介绍了Audience Network对广告载体的质量检查,以及它重点广告形式需要注意的问...
随着iOS开发,作为开发者或公司需要针对iOS App开发涉及的方方面面作出对应的信息...
Facebook和谷歌对出海企业广告渠道都很熟悉,但事实上,在国外还有一些渠道也很...
卖家从做号的第1分钟开始,就一定要想好变现路径是什么?一定要以变现为目的去...
小提示:您应该对本页介绍的“Google Cloud:基于 Dataproc 的 Apache Flink”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通Google Cloud:基于 Dataproc 的 Apache Flink的相关事宜。
关键词:Google,Cloud:基于,Dataproc,的