ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题
2021/6/15 20:33:29
本文主要是介绍ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题
目录
特征工程之高维组合特征的处理思路
1、原始数据:语⾔言和类型两种离散特征
2、为了提高拟合能力,语言和类型可以组成二阶特征
3、以逻辑回归算法为例例
4、所有的特征,才开始看起来没有任何问题
问题出现
问题解决
特征工程之高维组合特征的处理思路
1、原始数据:语⾔言和类型两种离散特征
2、为了提高拟合能力,语言和类型可以组成二阶特征
3、以逻辑回归算法为例例
<x_i,x_j>表示x_i和x_j的组合特征,w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4
4、所有的特征,才开始看起来没有任何问题
但当引入ID类型的特征时,就会出现大规模数据。
(1)、⽤用户ID和物品ID对点击的影响
(2)、用户ID和物品ID的组合特征对点击的影响
问题出现
若用户的数量=m,物品的数量为n,那么学习的参数的规模mxn。但是可是,在互联⽹网环境下,数量
都可以达到千万量级,几乎无法学习这么大规模的参数。
问题解决
有效的方法就是将用户和物品分别用k维的低维向量表示(k<<m, k<<n),其中$x_i^’$ 和 $x_j^’$分别表示
x_i和x_j对应的低维向量。
需要学习的参数的规模变成m*k+n*k (实质上就是等价于矩阵分解)。
这篇关于ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-07-02springboot项目无法注册到nacos-icode9专业技术文章分享
- 2024-06-26结对编程到底难不难?答案在这里
- 2024-06-19《2023版Java工程师》课程升级公告
- 2024-06-15matplotlib作图不显示3D图,怎么办?
- 2024-06-1503-Loki 日志监控
- 2024-06-1504-让LLM理解知识 -Prompt
- 2024-06-05做软件测试需要懂代码吗?
- 2024-06-0514-ShardingSphere的分布式主键实现
- 2024-06-03为什么以及如何要进行架构设计权衡?
- 2024-05-31全网首发第二弹!软考2024年5月《软件设计师》真题+解析+答案!(11-20题)