网站首页 站内搜索

搜索结果

查询Tags标签: 词频,共有 106条记录
  • 算法之大数据

    算法之大数据参考链接思想哈希函数可以把数据按照种类均匀分流 布隆过滤器用于集合的建立与查询,并可以节省大量空间 一致性hash解决数据服务器的负载管理问题 利用并查集结构做岛问题的并行计算、 位图解决某一范围上数字的出现情况,并可以节省大量空间 利用分段统计思…

    2022/7/23 14:23:03 人评论 次浏览
  • 文本挖掘预处理之TF-IDF

    原地址 目录前言1. 文本向量化特征的不足 前言 在文本挖掘预处理之向量化与Hash Trick中,我们讲到,在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特…

    2022/7/9 23:53:13 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 准备文件 1.下载小说或长篇新闻稿2.上传到hdfs上 读文件创建RDD分词 排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序输出到文件…

    2022/4/11 23:43:01 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿上传到hdfs上读文件创建RDD分词排除大小写lower(),map()标点符号re.split(pattern,str),flatMap()停用词,可网盘下载stopwords.txt,filter()长度小于2的词filter()统计词频按词频排序输出到文件查看结果B. 一句…

    2022/4/9 23:49:54 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 1、准备文件1、下载小说或长篇新闻稿2、上传到hdfs上2、读文件创建RDD3、分词4、 排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(),长度小于2的词filter()5、统计词频6、按词频排序7、输出到文件 8、查看结果B. 一句话实现…

    2022/4/8 6:20:12 人评论 次浏览
  • 五、RDD操作综合实例

    A.分步骤实现 1.准备文本文件2.读文件3.分词4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter()5.统计映射成键值对6.排序7.写文件 8.查看文件 B.一句话实现 文件入文件出 C.和作业2…

    2022/4/7 23:23:25 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿上传到hdfs上读文件创建RDD分词排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()1.统计词频2.按词频排序3.输出到文件4.查…

    2022/4/7 23:20:54 人评论 次浏览
  • 5.RDD操作综合实例

    5.RDD操作综合实例一、词频统计 A. 分步骤实现 1、准备文件分词排除大小写lower(),map().标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这里用\W+即可)停用词,可网盘下载stopw…

    2022/4/7 6:20:16 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 1.准备文件1.下载小说或长篇新闻稿 2.上传到hdfs上2.读文件创建RDD3.分词4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 5.统计词频 6.按词频排序 7…

    2022/4/7 6:19:50 人评论 次浏览
  • 5.RDD操作综合实例

    一、词频统计 A. 分步骤实现 1.准备文件(1)下载小说或长篇新闻稿 (2)上传到hdfs上 2.读文件创建RDD 3.分词4.排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度小于2的词filter()5.统计词频6.按词频排…

    2022/4/6 23:23:01 人评论 次浏览
  • 5.RDD操作综合实例

    准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件查看结果 B.一句话实现

    2022/4/6 6:22:01 人评论 次浏览
  • 4.RDD操作

    一、 RDD创建1.从本地文件系统中加载数据创建RD2.从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs3.通过并行集合(列表)创建RDD    输入列表,字符串,numpy生成数组 二、 RDD操作 转换操作转换操作filter(func)显式定义函数lambda函数map(func)显式定…

    2022/3/30 6:20:10 人评论 次浏览
  • RDD操作

    一、 RDD创建1.从本地文件系统中加载数据创建RDD从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 转换操作 filter(func)传入lambda匿名函数 显式定义函数 map(func)显式定义函数lambda函…

    2022/3/28 6:24:13 人评论 次浏览
  • 4.RDD操作

    一、 RDD创建1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组一、 1.从本地文件系统中加载数据创建RDD:2.启动HDFS:上传文件并查看:停止HDFS:3.通过并行集合(列表…

    2022/3/28 6:24:03 人评论 次浏览
  • 用python对modern family 摩登家庭 1~11季剧本台词的词频分析

    摩登家庭这部美剧学英语应该不模式,某宝上买了1~11季的台词,想对里面得单词出现频率做个统计,高频出现的单词应该就是日常常用的,应该牢牢记住。出现次数太低的也可以不用学了。 分析程序用的是python语言。 其中单词总量:23298个,分析结果以txt文本文件保存。词频结…

    2022/3/25 11:23:20 人评论 次浏览
共106记录«上一页1234...8下一页»
扫一扫关注最新编程教程