利用PySpark统计相邻字符串对出现的次数

2021/4/12 18:58:51

编程Tag： 字符串 Map demo txt Ne Lambda PySpark 相邻 SparkContext

本文主要是介绍利用PySpark统计相邻字符串对出现的次数，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

如有文件demo.txt数据如下：

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

代码如下：

from pyspark import SparkContext


sc = SparkContext()

rdd1 = sc.textFile('demo.txt')
rdd2 = rdd1.map(lambda x: x.split(';'))


def ne(x):
    return list(zip(*[x[i:] for i in range(2)]))


rdd2.flatMap(ne).map(lambda x: (x[0] + ' , ' + x[1], 1)).reduceByKey(lambda a, b: a + b).collect()

输出结果如下：

[('A , B', 2),
 ('B , C', 1),
 ('D , B', 1),
 ('B , D', 2),
 ('D , A', 1),
 ('C , D', 1),
 ('D , C', 2),
 ('A , E', 1),
 ('E , D', 1)]

这篇关于利用PySpark统计相邻字符串对出现的次数的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

利用PySpark统计相邻字符串对出现的次数

相关编程文章