2013年1月21日 星期一

泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的?

PingWest
from (作者不明)
http://www.pingwest.com/jinritoutiao-reading/

toutiao

我认为,任何不做好个性化推荐系统的新闻类阅读产品都是没有前途的,任何不讲清楚推荐体系的相关报道都是耍流氓。上周我写了一篇《文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的》,在文章中介绍了由AVOS公司的四位中国工程师通过文本挖掘算法筛选关键词,根据传播热度识别体系对文章进行筛选、排序,打磨出的新型个性化阅读产品——美味爱读。随后,一个创业团队向我推荐他们的阅读产品——今日头条,并非常有自信地表示他们也有非常棒的推荐体系。美味爱读目前是一个垂直于科技领域的,包含中英文内容的阅读产品(用户可选择是否接收英文内容),而今日头条是一个中文的泛阅读产品。这样一款产品面对更多的信息源,那他们是怎么做个性化推荐的呢?

我们知道,冷启动是个性化推荐中非常重要的一环,即当产品链接新用户后,需要一定的时间去收集用户行为数据。在此之前,如何做出较为精准的推荐呢?美味爱读的做法是在用户接入时建立颗粒较细的兴趣标签系统,而今日头条则选择了另一种解决方案——通过对用户微博账号的分析建立一个"兴趣图谱",即根据用户在微博上发布的内容及其所属类别、用户自标签、社交关系、社交行为、参与的群组、机型、使用时间等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况,可以根据二者间的共同好友数、相互评论熟、@数、私信数等来做度量。其实新浪微博内部也在利用多种技术建立每个用户的的兴趣模型。

举个例子,拿我的微博ID接入今日头条后,系统后台便会对我的兴趣作出分析,建立初始的DNA数据,并根据这些兴趣的权重来进行推荐。当然,因为这只是第一步,所以我们称之为冷启动。

mine

在冷启动后,今日头条会根据初始的兴趣模型从三个维度呈现内容:第一个是"推荐",即会从抓取到的每条信息(包括图片信息)中提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户的兴趣模型进行推荐的内容,团队创始人张一鸣告诉我,他们每天会采用Visual-based抓取技术处理超过100万个网页, 以保证内容来源足够准确;第二个是"热门",即互联网和社交网站上出现最多的内容;第三个是好友动态中,可查看好友的评论、转发、�"





ifttt
Put the internet to work for you. via Personal Recipe 673252

沒有留言:

張貼留言