網絡摘聞: 泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？

2013年1月21日星期一

泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？

PingWest
from (作者不明)
http://www.pingwest.com/jinritoutiao-reading/

我认为，任何不做好个性化推荐系统的新闻类阅读产品都是没有前途的，任何不讲清楚推荐体系的相关报道都是耍流氓。上周我写了一篇《文本挖掘算法、热度识别体系：美味爱读是如何搭建个性化阅读架构的》，在文章中介绍了由AVOS公司的四位中国工程师通过文本挖掘算法筛选关键词，根据传播热度识别体系对文章进行筛选、排序，打磨出的新型个性化阅读产品——美味爱读。随后，一个创业团队向我推荐他们的阅读产品——今日头条，并非常有自信地表示他们也有非常棒的推荐体系。美味爱读目前是一个垂直于科技领域的，包含中英文内容的阅读产品（用户可选择是否接收英文内容），而今日头条是一个中文的泛阅读产品。这样一款产品面对更多的信息源，那他们是怎么做个性化推荐的呢？

我们知道，冷启动是个性化推荐中非常重要的一环，即当产品链接新用户后，需要一定的时间去收集用户行为数据。在此之前，如何做出较为精准的推荐呢？美味爱读的做法是在用户接入时建立颗粒较细的兴趣标签系统，而今日头条则选择了另一种解决方案——通过对用户微博账号的分析建立一个"兴趣图谱"，即根据用户在微博上发布的内容及其所属类别、用户自标签、社交关系、社交行为、参与的群组、机型、使用时间等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户和用户之间的交流状况，可以根据二者间的共同好友数、相互评论熟、@数、私信数等来做度量。其实新浪微博内部也在利用多种技术建立每个用户的的兴趣模型。

举个例子，拿我的微博ID接入今日头条后，系统后台便会对我的兴趣作出分析，建立初始的DNA数据，并根据这些兴趣的权重来进行推荐。当然，因为这只是第一步，所以我们称之为冷启动。

在冷启动后，今日头条会根据初始的兴趣模型从三个维度呈现内容：第一个是"推荐"，即会从抓取到的每条信息（包括图片信息）中提取几十个到几百个高维特征，并进行降维、相似计算、聚类、分类等处理，然后根据用户的兴趣模型进行推荐的内容，团队创始人张一鸣告诉我，他们每天会采用Visual-based抓取技术处理超过100万个网页, 以保证内容来源足够准确；第二个是"热门"，即互联网和社交网站上出现最多的内容；第三个是好友动态中，可查看好友的评论、转发、�"


Put the internet to work for you.	via Personal Recipe 673252

網絡摘聞

2013年1月21日星期一

泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？

沒有留言:

張貼留言

2013年1月21日 星期一

泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的？

沒有留言:

張貼留言

2013年1月21日星期一