序列推荐: Learning Reinforced Dynamic Representations for Sequential Recommendation Weiqi

摘要

近年来,序列推荐在解决许多在线服务中的信息过载问题方面发挥了重要作用。目前的序列推荐侧重于在任何时候为每个用户学习固定数量的表示,为用户提供单个表示或多个兴趣表示。然而,当用户探索电子商务推荐系统上的物品时,该用户的兴趣数量可能会随着时间的推移而变化(例如,增加/减少一个兴趣),这会受到用户不断变化的自我需求的影响。此外,不同的用户可能有不同数量的兴趣。探索个性化的动态用户兴趣数量,并据此学习一组动态的用户兴趣表示是有意义的。本文提出了一个用于推荐系统(RDRSR)的具有动态数量兴趣表示的强化序列模型。

具体而言,RDRSR由动态兴识别(dynamic interest discriminator, DID)??楹投巳し峙淦鳎╠ynamic interest allocator, DIA)??樽槌?。

  • DID???strong>通过双向自注意和Gumble Softmax学习整体的序列信息,探索用户兴趣的数量。
  • DIA??榻返セ飨罘峙涞揭蛔樽有蛄兄?,并构造用户的动态兴趣表示。我们将分配问题形式化为马尔可夫决策过程(MDP),并从策略中为每个物品采样一个动作,以确定它属于哪个子序列。

此外,在真实数据集上的实验证明了我们的模型的有效性。

Main Story

推荐系统可以缓解信息过载问题,改善用户体验。传统的推荐系统大多侧重于获取一般用户的兴趣,如协同过滤。近年来,越来越多的研究人员研究了序列推荐问题,以捕获动态用户行为,该问题假设用户信息需要随时间变化。

用户通常与从概念上随时间不同的几种类型的项物品进行交互。一些研究人员提出各种方法来模拟用户历史行为中的多种兴趣(multi-interest modeling)。目前所有的多兴趣建模方法都依赖于预先给定的固定数量来生成相应数量的表示,假设所有用户的兴趣数量相同且不随时间变化。如下图所示:

然而,固定数量的兴趣假设在实际应用中不一定正确。

例如,一个用户可能有非常广泛的兴趣,而另一个用户有更集中的意图
上图显示了两个用户,每个用户都有一系列交互(即点击)物品,用户 A 总体上有三个兴趣(家具、电子产品和运动产品),而用户 B 只有两个兴趣((家具和电子产品) .另一方面,随着时间的推移,在用户行为中,用户可能有更多/更少的兴趣。
用户A一开始只对家具感兴趣,然后A逐渐开始对电子产品和运动产品表现出兴趣。所以我们可以看到用户A的兴趣数量从1变为3。因此,对固定数量的兴趣进行建模并不能完全模拟真实的用户意图。如果用户的兴趣比给定的固定数量多,那么用户的意图就不能准确表示。另一方面,如果用户的兴趣小于给定的固定数字,那么用户的意图表示就带有噪声。因此,考虑用户的动态兴趣数很重要。

本文提出了一种新算法来学习用户行为序列的动态嵌入表示,其中每个嵌入表示对用户意图的一个方面进行编码。

由于阅读该文时,该论文为预印状态,其intro可能会有较大调整

Method

1. Overview

模型的输入是用户行为序列,这些物品被送入嵌入层并转换为物品嵌入。 动态兴趣识别器DID专注于使用双向自注意力和 Gumble-Softmax 的来学习动态兴趣数。 动态兴趣分配器DIA则根据 DID 中的学习兴趣数量激活相应的分配策略。 然后 DIA 将点击物品分配到具有激活策略的子序列中,并通过平均池化方法形成不同的兴趣。 最后,通过策略来决定目标物品属于哪个子序列,并使用相应的用户兴趣表示来计算兴趣和将用于预测的目标物品之间的奖励。

Problem definition

  • input:用户交互序列

  • ouput: 预测当前序列下一个交互物品

  • embedding操作: item embedding 与 user

    embedding; 对于item embedding 在输入模型时候添加position embedding(可学习)

2. Dynamic Interest Discriminator

用户的动态兴趣数是随着时间的推移而演变和变化的,一个新的点击物品将表明用户获得更多兴趣或减少兴趣,因为他可能会得到他想要的东西。 DID旨在通过用户当前的点击顺序找到用户动态兴趣数量。

首先,使用双向架构自注意力块,点击序列中的兴趣相关项目聚集得更紧密,并获得更多信息的物品表示: 即最基本的self attention:

然后再过两层的前馈神经网络:
然后通过注意力机制,计算用户表征和当前序列表征的象形, 获取联合用户通用表示(user general purpose representation):

可以看到以上即为通过基本的transformer结构来得到一个偏好表征f,它是k维的特征,每个特征对应一个偏好数量的概率值,用来选取最后的动态兴趣数量。

链接:【数学】 Gumbel Softmax - 张楚珩的文章 - 知乎https://zhuanlan.zhihu.com/p/115386452

基于上面得到f向量,使用Gumbel Softmax来选择计算概率分布,确定动态兴趣数量;若使用softmax来完成生成的话,该过程不可导,导致无法end-to-end训练算法。

argmax通过gumbel softmax变为下式:

3. Dynamic Interest Allocator

DIA 将点击序列拆分为不同的子序列,其中每个子序列代表用户的兴趣,我们使用平均池化方法来获取用户对这些子序列的兴趣表示。 DIA以马尔可夫决策过程(MDP)的形式将分配点击序列问题形式化,并对每个项目进行采样动作形式策略以确定其属于哪个子序列。 我们的策略 可以在做出决定时预见未来的顺序信息,这可以提供有效的线索来确定物品级别的相关性,而无需直接监督信号。
形式化地把任务表示为:使用强化学习算法将序列C_i=\{x_1,x_2,...,x_t\}划分到h个子序列中S_{seq}={sub_1,...,sub_h},每个子序列对应一个用户兴趣表征。
当前时刻,状态表征为s^T, 动作空间为a\in{a_1,...,a_h}, 即选择子序列分割,那么策略表示为:

对于每个子序列给定初始化的兴趣表征: P^0={p_1^0,...,p_h^0},每个向量为d维度向量,并使用用户embedding来初始化。

在T时刻,我们通过策略得到当item所属的子序列,然后相应地对子序列的表征进行更新:
目前原文写作比较混乱... 该部分为译者凭上下文理解所写

这个pooling方法应该是DID中所用的那套方法。

在现实中,用户的点击顺序之间存在着复杂的关系,如点级别、联合级别有或没有跳过。为了准确捕捉这些关系,文中使用注意力机制来定义状态转换,它探索了新的点击物品和生成子序列之间的关系:

即使我们使用了硬分配,但当我们定义状态转移时, 一些来自其他子序列的信息也被转换为动态兴趣表示,这使提出的模型更加可靠。

Reward setting
通过以上的DIA分配过程,得到了多兴趣表征,那么下面就是要将多兴趣表征和目标物品进行关联。仍然写的比较混乱。。。。

p^t_{target}原文未提出详细的说明,我理解应该是下一个商品分配到的兴趣表征,然后通过采样的方法计算目标商品和目前选出的目标兴趣表征的关联:

这样的期望值计算过程没有用到生成的其他兴趣表征,只有当target物品的兴趣选择正确, reward才是最优结果. 为了推进策略学习,文中还计算了所有生成的兴趣簇和target item的关联:
公式应该有误, 应该是e_target


为了正交地执行学习的动态多兴趣表示,即使得兴趣间差异尽可能大,计算所有不同生成的动态兴趣表示之间内积的绝对值的平均值, 如下:
若差异越大则内积和往往越小,那么计算期望时会加上负号。
最后的期望计算如下:
\lambda_0=0.001

Model Optimization


最终的loss如下:

实验

问题

  1. 好像没有讨论算法的复杂度,对RL模块介绍也不够清楚

小结

  • 本文围绕序列推荐中的多兴趣建模问题出发,针对现有方法采用兴趣数量固定的方法缺陷,提出使用DID进行动态兴趣数量分配; 并使用RL进行模型优化

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息http://08643.cn/u/40d14973d97c

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容