apache/beam_flink1.8_job_serverApache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型,同时提供一组特定语言的SDK用于构建管道,以及在分布式处理后端执行管道的运行器(Runner),包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet。
Beam提供了一种通用方法来表达易并行化的数据处理管道,并支持三类用户,每类用户具有不同的背景和需求:
Beam背后的模型源于Google的多个内部数据处理项目,包括MapReduce、FlumeJava 和 Millwheel。该模型最初被称为“Dataflow模型”。
要了解更多关于Beam模型(仍使用原名称Dataflow)的信息,请参阅O'Reilly的Radar网站上的“批处理之外的世界”:Streaming 101 和 Streaming 102,以及 VLDB 2015论文。
Beam编程模型中的关键概念包括:
PCollection:表示数据集合,大小可以是有界的或无界的。PTransform:表示将输入PCollection转换为输出PCollection的计算。Pipeline:管理准备执行的PTransforms和PCollections的有向无环图。PipelineRunner:指定管道应在何处以及如何执行。Beam支持针对Beam模型编写管道的多种特定语言SDK。
目前,该仓库包含Java、Python和Go的SDK。
有关新SDK或DSL的想法?请参阅JIRA。
Beam通过PipelineRunners支持在多个分布式处理后端上执行程序。目前,可用的PipelineRunners如下:
DirectRunner:在本地机器上运行管道。ApexRunner:在Apache Hadoop YARN集群(或嵌入式模式)上运行管道。DataflowRunner:将管道提交到Google Cloud Dataflow。FlinkRunner:在Apache Flink集群上运行管道。代码从dataArtisans/flink-dataflow ***,现已成为Beam的一部分。SparkRunner:在Apache Spark集群上运行管道。代码从cloudera/spark-dataflow ***,现已成为Beam的一部分。JetRunner:在Hazelcast Jet集群上运行管道。代码从hazelcast/hazelcast-jet ***,现已成为Beam的一部分。有关新运行器的想法?请参阅JIRA。
要了解如何编写Beam管道,请阅读我们网站上提供的[Java、Python 或 Go]快速入门指南。
要参与Apache Beam:
有关构建和测试Beam本身的说明,请参见贡献指南。

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务