结构化流:如何工作?

在我们之前的博客文章-结构化流:这是什么? 我们知道结构化流是一种快速,可扩展,容错,端到端,一次准确的流处理API,可帮助用户构建流应用程序。

现在该学习了-它是如何工作的? 因此,在此博客文章中,我们将通过一个示例来研究结构化流的工作。

因此,让我们看一个例子:

[要点https://gist.github.com/gupta-himanshu/a6c31e0e6c28d8705debaef38b2c215c /]

上面是一个结构化流的示例,该结构化流以Socket为源,控制台为宿。 它包含3个主要部分:

  1. -第一部分是源,由lines变量表示。 它不过是从流媒体源创建的DataFrame。
  2. 操作 -由于获得了相同的DataFrame API,因此计算字数计数具有与批处理数据相同的代码。
  3. Sink —最后一部分是Sink,由查询变量表示。 就是发送结果的流接收器。

现在,当我们用文字看到代码及其结构时,是时候通过插图来了解它的工作原理了:

在上图中, 查询变量表示具有无限行数的DataFrame。 每次向Socket推送都会在DataFrame中追加新行或更新旧行,最终将数据发送到接收器(即Console)。

因此,我们已经看到了结构化流的工作原理,即,它的作用就像一个具有无限行数的表。 希望您喜欢这个博客。 请随时提出建议或评论。

我们将回来更多关于结构化流的博客。 直到敬请期待🙂