4.8.1 利用Spark SQL实现词频统计
本实战教程演示使用 Apache Spark SQL 实现词频统计(Word Count),包含交互式操作和项目开发两种方式。针对给定文本数据(如 “hello hadoop world” 等),通过 DataFrame API 或纯 SQL 查询处理。核心步骤包括:读取 HDFS 上的文本文件、使用explode和split函数拆分单词、按单词分组计数、按词频降序和单词升序排列(ORDER BY count DESC, word ASC)以解决相同词频时的排序不确定性问题。实战涵盖了从环境准备(创建 HDFS 目录、上传文件)、交互式代码编写(两种方法)、Maven 项目构建(配置 Spark 依赖、Scala SDK、日志设置)到最终结果输出(控制台显示、保存至 HDFS)的完整流程。
