选自arXiv
作者:Guangda Huzhang、Zhen-Jia Pang、Yang Yu等
机器之心编译
参加:Panda
用验证集来测验算法功能、挑选模型是一种常见操作,在电商范畴也是如此。但阿里巴巴与南京大学的一篇论文指出,关于在线引荐排序这种具有决议计划要素的环境,验证集评价得到的功能与实在的在线功能会呈现很大的收支,验证集作用好的办法实在功能或许更差。
「这在某种程度上预示着,这一方向的研讨或许现已被验证集评价带歪了。」针对这一问题,他们提出了一种新的评价器-生成器办法,可显着提高产品排序的有效性。
论文链接:https://arxiv.org/pdf/2003.11941.pdf
学习排名(LTR/Learning-to-rank)是网络查找引擎和引荐体系的核心问题,直接关乎这些事务的赢利。之前的许多 LTR 办法都假定一项产品(或文档)存在固有的查询相关性,这些办法希望能依据有标示的数据集精确习得这种相关性。这些标签一般是通过顾客隐性反应所搜集的,可在许多办法中被用作练习模型的根本真值(ground-truth)。在上述设置中,重视依据数据的排名方针是合理的,比方被广泛选用的曲线下面积(AUC)和归一化折损累积收益(NDCG)。这会得到与标示数据严密匹配的 LTR 模型,然后这些模型会被用于寻觅最相关的产品。
可是,在电子商务场景中,一款产品的转化率并不只依赖于产品自身。举个比方,假如一款产品周围都是类似但更贵的产品,那么顾客购买它的或许性就会升高,这被称为「钓饵效应(decoy effect)」。图 1 展现了一个产品周围竞品或许改动顾客行为的暗示事例。假如计算一项产品周围或许存在的竞赛环境状况,那么,由于与一切产品组合相关的竞赛环境信息可达数十亿,则得到的数据规划将十分巨大。
为了霸占组合空间巨大这一难题,Zhuang et al., 2018 提出了不同于经典 LTR 办法的重排名(re-ranking)战略。这种学习进程首要是寻觅与查询相关的一个小型的候选产品调集,然后在重排名阶段决议候选产品的次序。这种重排名战略能够极大地减小组合空间,因而能够对候选项有全面的了解,以便找到恰当的次序。Ai et al., 2019 提出的逐分组评分函数(GSF)结构也重视的是产品之间的影响力,其与重排名办法选用了相同的设置。
图 1:钓饵效应的一个示例。左图:三款销量最好的产品排成一条线,它们的转化率大致平等。右图:两款销量最好的产品加一款钓饵产品,榜首款产品会取得更高的转化率。经典 LTR 或许会像左图那样安排次序,由于它们的前史体现很优秀。可是它没有才能找到右图那样的创造性排序——这或许完成更好的成绩。
即便重排名战略现已削减了候选项的数量,使得在组合空间中进行查找变得能轻松完成,可是为了找到最佳排序,咱们依然需求一个精确的评价器来为各个产品列表打分。可是,一般的状况是已有列表的许多排序办法其实并未在已搜集的数据中呈现过。考虑到这样一些问题,阿里巴巴和南京大学的研讨者发现:之前选用依据数据的方针的监督学习办法有两个严重限制。榜首,依据数据的方针往往与在线体现不一致,因而或许误导学习进程。第二,监督学习范式难以探究组合空间,因而难以直接优化转化率(CR)和毛销售量(GMV)等终究的功能方针。因而,有必要树立一种超出数据集规模的评价办法以及一种超出监督学习范式的探究办法。
本论文为电子商务的逐分组 LTR 提出了一种评价器-生成器结构 EG-Rerank。EG-Rerank 可运用产品及其上下文信息来猜测已排序产品列表的购买概率。此外,研讨者还引进了一个判别器并将其用作自傲评分函数(self-confidence scoring function)。这个判别器可通过对立练习办法来学习,可给出评价器为一个产品列表给出的分数的相信度。研讨者运用这一判别器来引导生成器从判别器的视角在相信空间中输出次序。然后,EG-Rerank 通过一种强化学习办法来练习 LTR 模型,其可在评价器的引导下探究产品的次序。本文的首要奉献包括:
研讨者在世界上最大的世界零售渠道 AliExpress Search 进步行了试验,成果标明某些常用的依据数据的方针或许与网上的实践体现不一致,因而承认依据数据的方针或许会误导 LTR 模型的学习进程。
研讨标明所学习到的评价器或许是一种十分稳健的方针,能够代替依据数据的方针。
研讨者展现了评价器-生成器结构的 EG-Rerank 和 EG-Rerank+ 办法。研讨标明,在在线 A/B 测验中,比较于通过微调的工业级再排名逐对评分模型,EG-Rerank+ 可将转化率安稳地提高 2%——关于老练的大型渠道而言,这是十分严重的提高。
办法
新提出的用于逐分组 LTR 的评价器-生成器结构包括一个生成器、一个评价器和一个判别器,如下图所示。
图 2:EG-Rerank 结构。首要练习评价器并将其固定下来,然后通过 PPO 练习生成器,其奖赏由评价器供给。关于 EG-Rerank+,生成器和判别器是一起练习的。
在这一结构中,运用强化学习依据评价器的反应来优化生成器是很天然的思路。
评价器
评价器的结构见图 2,其输入包括一个产品列表的特征及其场景特征。场景特征独立于产品,但能供给丰厚的信息,比方日期、语言和用户的揭露档案。
为了统筹购买样本的稀少性,评价器还用点击数据标签进行了联合练习。这可协助模型学习点击猜测使命和购买猜测使命中的常识常识。
生成器
在该结构中,生成器的结构类似于指针网络(pointer network),但为了更快速地在线猜测,该网络进行过简化。
编码器:生成器的编码器的输入分为两部分。榜首部分是表征列表的当时状况,其处理进程类似于评价器中的办法。第二部分是提取动作的特征。编码器的输出包括 N 个向量,其间包括候选产品的特征和当时的躲藏状况。
解码器:解码器的输入是 N 个动刁难和躲藏状况,输出则可通过简略的 masking 进行采样得到。
EG-Rerank
研讨者优化生成器的办法是 PPO 算法,这是依据评价器在生成器输出上的反应来完成的。可是,规范的 PPO 算法无法在阿里巴巴的离线数据中练习得到安稳的 critic 网络。在试验中,critic 网络总是输出随机值,无法依据编码器发生的状况而为练习供给太多协助。因而,研讨者并未练习 critic 网络,而是采样了一些轨道,然后估量状况的值。
假如评价器练习优秀,那么这样的结构理应能够顺畅作业。可是,由于评价器企图仅靠巨大的产品组合空间中一小部分规模来建模顾客的行为,所以就呈现了一个很显着的缺陷。图 3 在模仿环境中展现了这种现象。
图 3:在仅有 30 款产品的模仿环境中测验集(左)与全样本空间(右)的猜测误差。练习集和测验集由一个练习后的模型录入,它们与挑选误差的散布相同。能够正常的看到,即便样本数量如此之少,在全样本空间中评价器分数与环境之间的距离也显着愈加显着。
EG-Rerank+
针对这一问题,这篇论文提出的解决方案是引进一个序列判别器,参加这个判别器后的结构记为 EG-Rerank+。
这样的修正会导致生成器输出判别器无法容易区别来历的次序。因而,评价器的反应将变得更有决心。图 4 展现了所记载的数据中列表、EG-Rerank 和 EG-Rerank+ 的输出的散布。
该数据包括几千个原始查询为「手机屏幕保护膜」的实在列表。很显着,EG-Rerank+ 的输出比 EG-Rerank 更挨近记载中的列表。
图 4:实在数据中的列表散布。为了削减在线环境中的噪声以及更好的演示,研讨者移除了离各组质心最远的 20% 的记载。
试验
下表展现了各种办法在模仿环境中的体现:
表 3:在依据规矩的模仿环境中的模型体现。评价器依据原始次序为产品打分,这样咱们便能够在生成使命中扫除它。EG-Rerank 和 EG-Rerank+ 并没有为列表打分的函数。各分组的最佳用下划线标出,粗体则表明大局最佳。
研讨者还在 AliExpress Search 进步行了少数在线 A/B 测验,其间每个模型都可供给随机部分的查找查询。模型能够获取曩昔两周的数据,展现的列表稀有十亿个,购买记载稀有百万个。购买转化率是在线功能的首要方针。在线环境的改变速度十分快,每天的距离或许都各不相同。一切的 A/B 测验都继续进行了一周时刻,然后方差是可接受的,能够清楚地确认更好的办法。
在长时间测验中,事实证明,通过微调的 RankNet* 离线体现最好且在线体现也很超卓。RankNet* 与该体系能很好地协作,而且能够近乎实时地更新自己,其间 EG-Rerank(EG-Rerank+)每天都进行增量练习。得益于判别器战略,EG-Rerank+ 的均匀离线 Group AUC(约 0.63)比 EG-Rerank(约 0.51)高。表 4 给出了在线方针的成果。
表 4:在线功能。在 CR gap 列,榜首行由于是基准,所以距离一直为 0。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------
参加机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报导:content@jiqizhixin.com
广告 & 商务协作:bd@jiqizhixin.com