spark core案例二:清洗过滤

2022/8/27 6:24:37

本文主要是介绍spark core案例二:清洗过滤,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

  • 题目描述
/**
 * 用户的行为日志数据清洗过滤
 *    网站的独立访客数:一个唯一的IP地址就是一个独立访客
 *    1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD
 *    2、RDD中重复的IP去重
 *    3、RDD中的累加值
 */
  • 案例
object A2DataAnaly {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf().setAppName("demo02").setMaster("local[3]")
    val sc:SparkContext = new SparkContext(sparkConf)

    val value: RDD[String] = sc.textFile("hdfs://node1:9000/dc")
    val ip = value.map((line: String) => {
      val str = line.split(" ")
      (str(0), 1)
    })
    val ipAll: RDD[(String, Int)] = ip.distinct()
    println(ipAll.count())
    sc.stop()
  }
}


这篇关于spark core案例二:清洗过滤的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程