搜索结果
查询Tags标签: embedding,共有 32条记录-
Embedding相关笔记
目录Word2Vec模型Deep Crossingt-SNE数据降维 Word2Vec模型模型结构:1个输入层:输入向量为词汇的one-hot编码 1个隐藏层:权值矩阵的形状为[vocab_size, hidden_size] 1个输出层:输出长度为vocab_size的向量,向量中每个元素对应词库中一个词的概率模型训练:W2V有Skip…
2022/5/3 23:24:28 人评论 次浏览 -
文本预处理
文本预处理通常包括四个步骤:读入文本 分词(Tokenization) 建立词典(vocab),将每个词映射到唯一的索引(index) 根据词典,将文本序列转为索引序列,方便输入模型 建立词向量矩阵读入文本 class ZOLDatesetReader:@staticmethoddef __data_Counter__(fnames):# 计数器jie…
2022/4/14 23:15:16 人评论 次浏览 -
双塔DNN召回模型/DSSM/HNSW算法
参考这篇文章: https://zhuanlan.zhihu.com/p/128988454 《谷歌最新双塔DNN召回模型——应用于YouTube大规模视频推荐场景》https://zhuanlan.zhihu.com/p/93257390 《向量化召回在360信息流广告的实践》先是第一篇: https://zhuanlan.zhihu.com/p/128988454上述模型训练…
2022/2/24 17:22:16 人评论 次浏览 -
基于tensorflow2.x的命名实体识别任务(三)
上一篇博客介绍了文本分类任务的text_cnn模型,本篇博客主要介绍一下另一个常见的nlp任务,命名实体识别。简单来说,命名实体识别也可以算分类,但是它的不同点在它是对整个句子的每一个字做实体标签预测,也可以称为序列标注任务。 还是从以下几个步骤来简单说明一下命名…
2021/12/30 23:12:45 人评论 次浏览 -
基于tensorflow2.x的命名实体识别任务(三)
上一篇博客介绍了文本分类任务的text_cnn模型,本篇博客主要介绍一下另一个常见的nlp任务,命名实体识别。简单来说,命名实体识别也可以算分类,但是它的不同点在它是对整个句子的每一个字做实体标签预测,也可以称为序列标注任务。 还是从以下几个步骤来简单说明一下命名…
2021/12/30 23:12:45 人评论 次浏览 -
python RandomTrees特征编码
算法简介 通过构建随机森林,为变量进行编码: 首先训练一个随机森林的模型按照决策树的分叉,每个叶节点都会占用一个位置,比如下图就共有4个叶节点,因此最大的编码长度是4 如果这个特征A的值a,既可以匹配到第1个叶节点的位置,也可以到第3个叶节点的位置,那么这个值…
2021/12/22 20:22:25 人评论 次浏览 -
python RandomTrees特征编码
算法简介 通过构建随机森林,为变量进行编码: 首先训练一个随机森林的模型按照决策树的分叉,每个叶节点都会占用一个位置,比如下图就共有4个叶节点,因此最大的编码长度是4 如果这个特征A的值a,既可以匹配到第1个叶节点的位置,也可以到第3个叶节点的位置,那么这个值…
2021/12/22 20:22:25 人评论 次浏览 -
图神经网络在推荐系统中的应用
互联网中到处都是图结构的数据,比如我们熟悉的社交网络,最近流行的知识图谱等等,这些数据中包含着大量的关系信息,这对推荐系统来说是非常有帮助的。 为了能更好地利用这些信息进行推荐,各大巨头可谓尝试了各种办法,比如 DeepWalk、Node2Vec 这些非常实用的 Gra…
2021/11/22 23:13:20 人评论 次浏览 -
图神经网络在推荐系统中的应用
互联网中到处都是图结构的数据,比如我们熟悉的社交网络,最近流行的知识图谱等等,这些数据中包含着大量的关系信息,这对推荐系统来说是非常有帮助的。 为了能更好地利用这些信息进行推荐,各大巨头可谓尝试了各种办法,比如 DeepWalk、Node2Vec 这些非常实用的 Gra…
2021/11/22 23:13:20 人评论 次浏览 -
1113-七言诗词收集与LSTM自动写诗
七言诗词收集 数据清洗 通过之前对每个诗词进行的诗词形式的分类:提取诗词形式与对应的诗词内容两列 开始清洗: ①找到formal为七言绝句的诗词 ②对诗词进行分词,判断是否符合要求,然后去除一些非法字符的段落import pandas as pd import re#获取指定文件夹下的excel …
2021/11/13 23:39:45 人评论 次浏览 -
1113-七言诗词收集与LSTM自动写诗
七言诗词收集 数据清洗 通过之前对每个诗词进行的诗词形式的分类:提取诗词形式与对应的诗词内容两列 开始清洗: ①找到formal为七言绝句的诗词 ②对诗词进行分词,判断是否符合要求,然后去除一些非法字符的段落import pandas as pd import re#获取指定文件夹下的excel …
2021/11/13 23:39:45 人评论 次浏览 -
BERT和GPT
Word Embedding和Word2Vec Word2Vec是用来产生Word Embedding的一组技术、模型。Word Embedding词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间(one-hot-encoding)嵌入到一个维数低…
2021/11/3 23:10:21 人评论 次浏览 -
BERT和GPT
Word Embedding和Word2Vec Word2Vec是用来产生Word Embedding的一组技术、模型。Word Embedding词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间(one-hot-encoding)嵌入到一个维数低…
2021/11/3 23:10:21 人评论 次浏览 -
如何理解深度学习中的embedding?
什么是深度学习里的Embedding? 这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设)。流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低…
2021/11/2 23:14:40 人评论 次浏览 -
如何理解深度学习中的embedding?
什么是深度学习里的Embedding? 这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设)。流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低…
2021/11/2 23:14:40 人评论 次浏览