UpdateStateByKey 实时统计全局wordcount(pyspark)
创建时间:2018-04-23 11:20
字数:353
使用 updateStateByKey 操作实现基于缓存的实时wordcount程序
updateStateByKey 介绍 updateStateByKey操作,可以为每个key维护一份state,并持续不断的更新该state。
首先,要定义一个state,可以是任意的数据类型;
其次,要定义state更新函数——指定一个函数如何使用之前的state和新值来更新state。
对于每个batch,Spark都会为每个之前已经存在的key去应用一次state更新函数,无论这个key在batch中是否有新的数据。如果state更新函数返回none,那么key对应的state就会被删除。当然,对于每个新出现的key,也会执行state更新函数。
注意,updateStateByKey操作,要求必须开启Checkpoint机制。
实例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 from pyspark.streaming import StreamingContext from pyspark import SparkContext sc = SparkContext("local[2]", "streaming_socket") ssc = StreamingContext(sc, 10) # 必须开启 checkpoint 机制,这样才能把每个 key 对应的 state 存到内存和磁盘中, 以便于在内存数据丢失的时候, 可以从 checkpoint 中恢复 ssc.checkpoint("hdfs://127.0.0.1:9000/wordcount_checkpoint") lines = ssc.socketTextStream("localhost", 9999) words = lines\ .flatMap(lambda l: l.split())\ .map(lambda w: (w, 1)) # 第一个参数表示当前 batch 中这个 key 的值(可能有多个) # 第二个参数表示 key 之前的 state def word_count(values, state): if not state: state = 0 for value in values: state += value return state wordcount = words.updateStateByKey(word_count) wordcount.pprint() ssc.start() ssc.awaitTermination()
文章标题: UpdateStateByKey 实时统计全局wordcount(pyspark)
文章字数: 353
本文作者: Waterandair
发布时间: 2018-04-23, 11:20:47
最后更新: 2019-12-28, 14:03:59
原始链接: https://waterandair.github.io/2018-04-23-spark-updatestatebykey.html
版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。