根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。
要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。
1.下载scala插件
Scala插件的安装有两种方式:在线与离线。我们学习在线安装方式。
启动IDEA,在欢迎界面中选择Configure→Plugins命令,搜索scala进行下载
2.配置scala环境
3.创建scala class
4.编写scala代码
5.运行结果
总体流程
4.去除重复的值
6.导入必要的包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SparkSession}
7.在Apache Spark中,SparkSession 是一个核心对象,用于与Spark交互。它是执行Spark应用程序的入口点,负责创建DataFrame和Dataset,以及读写数据。
8.这段Scala代码是在使用Apache Spark的RDD(弹性分布式数据集)API来处理文本数据。
9.将RDD[Row]转为DataFrame
10.使用开窗函数取每一天的搜索前3名