兴趣点图谱的内容理解

2022/1/22 23:08:51

编程Tag： 理解挖掘样本图谱兴趣召回共现

本文主要是介绍兴趣点图谱的内容理解，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

本节包括：

项目背景介绍

兴趣点图谱建设

• 节点挖掘

• 关系挖掘

兴趣点图谱应用

项目背景-推荐基本范式在这里插入图片描述

项目背景-推荐不准
在这里插入图片描述
搜索使用：词粒度进行召回，但是排序阶段，能够利用完整query排序，因此搜索可以使用basic粒度分词做召回。

eg：王宝强马蓉离婚，会把同时包含‘王宝强’、‘马蓉’和‘离婚’的文章排在前面

推荐使用：词粒度进行召回，但是排序阶段，用户模型把文章中词关系丢失，分别作为兴趣点累计，因此推荐使用词粒度是不合理的。

eg：王宝强马蓉离婚，会分别累计‘王宝强’和‘马蓉’两个兴趣点。

项目背景-信息茧房 在这里插入图片描述
项目背景-内容理解相关研究

个性化推荐要求

• 推荐系统需要积累用户模型，因此需要保留文章上下文，语义粒度要完整

• 除了抽取原文出现的兴趣点外，需要了解用户背后的消费动机，因此需要有推理能力

兴趣点图谱
在这里插入图片描述
Part1 兴趣点图谱建设
兴趣点挖掘

改进：

1）有监督方式：将基于对齐、pattern挖掘到的兴趣点作为训练样本，通过有监督方式提升效果

2）统一框架挖掘兴趣点：提出了一个GCTSP-Net框架来统一挖掘概念、事件、话题多种类型兴趣点
在这里插入图片描述
关系挖掘-上下位关系挖掘

分类-概念

方法：根据共现次数计算
在这里插入图片描述
概念-实体

方法：根据共现次数计算
在这里插入图片描述
缺点：准确率低，文章中会有大量的对比性实体，会引入噪音

改进：

1）监督学习的方式，提升准确率

2）自动化样本标注：利用用户的同session行为准备正样本，借鉴word2vec的思路，随机生成负样本

事件-话题

方法：Common Pattern Discovery (CPD)

事件1: “周杰伦|开|演唱会 ”

事件2: “泰勒斯威夫特|开|演唱会 ”

话题 => “歌手|开|演唱会 ”
在这里插入图片描述
关系挖掘-关联关系挖掘
方法：利用实体共现计算实体之间关联关系，篇章级共现和搜索级共现

缺点：

1）未共现的实体PAIR认为是无关联

2）共现次数少，通过共现计算关联度偏差大

改进：

1）实体向量化，可以计算任意实体PAR关联度

2）有监督训练提升效果，样本准备：高共现数据作为正样本，随机负采样，控制正负样本比例

在这里插入图片描述
Part2 兴趣点图谱应用
内容理解
召回1：关系召回（包含上下位关系）雷凌->省油家用车

召回2：语义召回（缺失上下位关系）

句子级隐式语义召回

耗油5升->省油家用车

词语级显式语义召回召回的候选太多，计算超时

匹配1：双塔 VS MatchPyramid
在这里插入图片描述

内容理解

这篇关于兴趣点图谱的内容理解的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！