首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

信息流内容理解技术实践

2019-12-29

共享嘉宾:郭伟东  高档研讨员

文章收拾: 李传勇

出品社区:DataFun

注:欢迎转载,转载请留言。

现在信息流引荐中运用的内容了解技能,首要有两部分构成:1. 门户年代和查找年代留传的技能堆集:分类、关键词以及常识图谱相关技能;2. 深度学习带来的技能福利:embedding。可是分类关于爱好点描写太粗,实体又简单引起引荐多样性问题,而 embedding 技能又面对难以解说的问题。这次首要介绍在信息流引荐中,是怎么做内容了解战胜上述问题的。 首要包含:

项目布景

爱好图谱

内容了解

线上作用

项目布景

① 门户年代:1995~2002年,首要代表公司:Yahoo、、、。互联网初期,因为数据较少,因而需求一个内容聚合的当地,人们才能够快速的找到信息。因而,门户经过   “内容类型”   对内容进行收拾,然后以频道页办法满意用户需求。因为数据少,初期由人工对新闻进行分类。跟着数据的增多,靠人工分类现已变得不现实,因而各大公司纷繁引进分类技能,自动化文本分类。尔后,文本分类技能发展迅速。

② 查找/交际年代:2003年~至今,首要代表公司:搜狗、、Google、百度。跟着网络的遍及,数据的数量和类型的丰厚,门户网站现已不能够承载信息分发的使命。所以,一种新的信息分发技能诞生——查找。查找除了需求分类信息以外,还需求精确知道文章是   “关于什幺的” ,关键词技能很好的处理了这个需求,所以也成为那个时期的研讨抢手。可是关键词技能有一个问题没办法战胜:实体歧义问题 。2012年 Google 提出常识图谱概念,能够用于处理上述的实体歧义问题,实体链指的问题也有了比较大的发展。

③ 智能年代:2012年~至今,首要代表公司:今日头条、出门问问等。运用2012年来作为智能年代的开端,首要是这一年头条建立。头条界说了一种新的信息分发办法——个性化引荐。尽管个性化引荐技能早有研讨,可是关于信息分发这个使命有不可或缺的推进作用。

可是在信息引荐中,咱们仍然在运用分类、关键词和实体等传统的内容了解办法,那到底在智能年代下是否需求新的内容了解计划呢?

引荐和查找十分类似,都是依据已有的输入,回来跟输入相关的文章,可是关于内容了解的要求差异较大,下面仔细剖析下原因:

查找是给定一个 query 后,猜想 doc 被点击的概率进行排序。大致的处理流程如下:首要对 query 分词,得到 term, weight 的一个列表 ,然后依据每一个 term 拉倒排索引 document list 做召回,再对召回的一切文章取并集,最终做全体的排序。留意:这儿排序的条件是一切   term 的交集 。

引荐是给定一个 user 后,猜想 doc 被点击的概率进行排序。大致的处理流程如下:首要查询 user 的用户画像,得到 term, weight 的一个爱好点列表,然后依据每一个 term 拉倒排索引 document list 做召回,再对召回的一切文章取并集,最终做全体的排序。留意:这儿排序的条件跟查找是不同的,排序的条件是   term 的并集 。例如用户阅览了王宝强马蓉离婚的新闻,会把 “王宝强”、”马蓉” 作为两个爱好点堆集到用户画像中,而对新的文章排序时分,实践上现已丢掉了 “王宝强” 和 “马蓉” 爱好点是同一篇文章一同堆集的这个信息。

经过上述剖析,咱们能够得到这样的定论:查找经过召回之后,排序有完好的上下文信息;可是在引荐中因为经过了用户画像,运用传统的内容了解计划时,排序会丢掉用户阅览的上下文信息。因而, 引荐关于内容了解需求保存完好的上下文 ,即把 “王宝强马蓉离婚” 作为一个完好的爱好点,而不只是像查找相同别离保存 “王宝强” 和 “马蓉”。

传统的内容了解只是处理了文章是什幺的问题,可是关于用户 ” 为什幺会消费”  却没有考虑。举个比方来说,假如咱们的一个朋友看了一款 XC60 的轿车,咱们会给他引荐什幺内容呢?咱们必定不会不断的引荐 XC60,而是会猜想朋友或许是喜爱沃尔沃这个品牌,比较垂青安全性,或许关于空间有必定要求的 SUV。因而,假如要做好一个引荐体系,内容了解相同也需求相应的才能,发掘用户实在消费目的。

以上是整个项目的布景,咱们总结一下。传统 NLP 技能存在缺陷:

分类:人工预界说,量级千规划;长处:成果可控性高,人工能够参加运营;缺陷:粒度太粗,难以描写用户粒度的爱好点,引荐不精准;

关键词:规划巨大,量级可达千万;长处:技能老练;缺陷:绝大多数词不能反映用户爱好,需求合作爱好白名单一同运用,不能处理歧义的问题;

实体词:常见实体百万量级;长处:精准描写用户爱好,成果可控性高;缺陷:引荐内容单一,简单构成信息茧房;

LDA:量级千规划,长处:技能老练,能够人工预先选择出有含义的类簇;缺陷:规划和分类适当,粒度太粗,与分类问题相同;

Embedding:量级不受约束;长处:研讨抢手,有老练技能;缺陷:难以解说。

个性化引荐需求:

引荐体系需求堆集用户模型,因而需求保存完好的上下文,语义粒度要完好;

不同的人消费同一篇文章背面原因或许不同,因而需求有必定的推理才能。

因而,传统的内容了解计划并不能很好的满意个性化引荐的需求。个性化引荐不只需求传统的内容了解办法,还需求一种能够有完好上下文,而且具有推理用户实在消费目的的才能。

爱好图谱

依据上述剖析,咱们提出了爱好点图谱,用于处理上述个性化引荐中遇到的问题。爱好点图谱由四层组成:别离为:分类层、概念层、实体词和事情层。下面别离介绍各层的内容:

分类层,一般是由 PM 建造,是一个严厉树状的结构,一般在1000左右个节点;

概念层:有相同特点的一类实体称之为概念,例如老年人专用手机、省油耐用车等;

实体层:常识图谱中的实体,如:刘德华,华为 P10 等;

事情层:用来描写某一个事情,例如:王宝强离婚、三星手机爆破等。

分类层首要处理人工运营的需求;概念层推理用户消费的实在目的;实体层担任一般爱好点的召回;事情层精准描写文章内容。下面介绍怎么结构爱好点图谱。

概念实质是一种短语,其实短语发掘的论文十分多,像韩家炜教师团队就有许多相关的论文,可是概念有自己的独特性:

①  没有练习样本,而且人工难以标示 。 因而只能经过弱监督办法处理冷启动的问题,然后运用监督办法提高掩盖。

②  粒度问题。 比方 “明星” 是一个概念,可是太泛,不能精准描写用户爱好,可是 “身段好的女明星” 就很合理,那怎么描绘粒度呢?运用 UGC 数据,用户实在表达需求。

因而,具体发掘时,咱们运用了查找数据,经过用户的点击行为进行半监督算法的学习。 具体算法如上图所示:

发掘概念运用的是查找数据,每一个概念都有多个点击的网页,对网页进行实体抽取,然后核算实体和概念的共现频次就能够取得较为精确的上下位联系,咱们在 KDD 的 paper 中有具体的介绍,这儿就不再重复。

事情指的是抢手事情。假如一个事情比较抢手,网友就会有了解需求,会经过查找引擎来查询事情,因而咱们运用 query 作为抢手事情发掘的来历。

一个比较常见的办法是依据事情查找量改变趋势判别,惯例的做法是 BRD ,判别时刻序列上是否有爆发点。可是 BRD 会遇到一些归一化,甚至多 point 的问题,所以咱们选用了上图的办法战胜上述问题:

抢手辨认:时序剖析,辨认抢手 query。首要界说一个抢手事情的趋势模板;然后对第一步预处理后的时序数据与抢手模板进行类似度核算,假如类似度很高,阐明趋势共同,则为抢手事情,不然就对错抢手。类似度核算的办法最早用的间隔是欧拉间隔,可是因为欧拉间隔需求严厉的时序对齐,会构成一些 bad case,因而改用 DTW 算法。

论题检测:同一个事情会有多种表述办法,对应多个 query,因而需求把相同事情的 query 聚类到一同,构成论题。

事情辨认 命名:抢手的论题中往往会随同一些非事情型的论题,如抢手美剧更新时,会呈现一个热度高潮,上述办法会混入一些非事情,因而咱们需求对抢手的论题做一个分类。一个十分有用的特征是 url 中的一些单词,会很有区别性。

个性化引荐体系中除了要满意用户当时爱好以外,还需求探究到用户不知道的潜在爱好点,扩展用户阅览视界。因而需求对节点核算相相联系。现在咱们仅针对实体做了相相联系的核算。

咱们很简单想到,假如两个实体常常会在同一篇文档中呈现,应该便是高相关的;或许用户常常接连查找,即搜完 “刘德华”,然后会立刻查找 “朱丽倩”,应该也是高相关的。的确这种直觉是正确的。尽管这种办法精确率很高,可是会遇到一些问题:没有共现过的,会被以为没有任何的联系;关于共现少的 pair 对,联系的亲近度核算误差也会比较大。

因而,需求经过实体向量化的办法战胜上述问题。上述的共现数据能够作为正例,负样本选用同类实体随机负采样,正负样本份额1:3,经过 pair wise 的 loss 进行练习,得到每个实体的 embedding,然后核算恣意两个实体的相关度。

内容了解

主题分类层是 PM 收拾的,可是 PM 收拾的过程中或许会存在一些认知误差。能够运用用户的点击行为对内容进行聚类,聚完类之后让 PM 去标示,然后总结出一些更适合的类别用于描绘用户的爱好。

咱们运用了比较传统的关键词提取思路,运用传统特征工程 + GBRank 算法排序。在实践中会遇到这样的问题,如示例,Twitter 呈现在 title 中的实体,传统的办法会把 Twitter 分数核算的很高,可是这篇文章中却不是要点,要点是两支 LOL 战队的骂战。所以咱们在 BGRank 之后,加了 re-rank 层,为一切的候选词做一个重排序。词之间边联系运用相相联系 embedding 核算类似度得到。

关于概念和事情类型的标签,原文中或许并不会呈现,用抽取的办法就没有办法处理。咱们选用召回+排序的办法处理。召回的逻辑分为联系召回和语义召回,其间联系召回会用到爱好点图谱中的联系数据,召回 1-hop 内的节点作为候选,语义召回经过语义向量召回与 title 近邻的节点作为候选,然后用交互匹配的办法进行排序。假如 1-hop 内的节点数量太多,排序耗时会十分大,因而这儿选用粗糙集的办法进行候选的粗排,缩小候选调集再进行排序。

线上作用

试验部分,baseline 是仅用传统的实体和分类标签,而试验组除了实体和分类以外,一同运用概念和事情类型的爱好点,最终线上作用提高显着。

今日的共享就到这儿,谢谢咱们。

小编引荐:

伟东教师 的团队 ,现在 有 NLP 和 CV 方向工程师的需求,假如有志愿做一些异乎寻常作业的小伙伴,欢迎重视本文大众号,回复:” 伟东教师 “,填加伟东教师微信详聊。

| 高档研讨员

热门文章

随机推荐

推荐文章