Peacock:大规模主题模型及其在腾讯业务中的应用

Peacock:大规模主题模型及其在腾讯业务中的应用

作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益

摘要

如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该返回酒水或者水果类广告。可是你知道吗?“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理[......]

继续阅读

[分布式机器学习的故事-5]Rephil和MapReduce:描述长尾数据的数学模型

文章转自王益的《分布式机器学习的故事》

Google Rephil是Google AdSense背后广告相关性计算的头号秘密武器。但是这个系统没有发表过论文。只是其作者(博士Uri Lerner和工程师Mike Yar)在2002年在湾区举办的几次小规模交流中简要介绍过。所以Kevin Murph[......]

继续阅读

[分布式机器学习的故事-4]LDA和MapReduce:可扩展的基础是数据并行

文章转自王益的《分布式机器学习的故事》

因为MPI在可扩展性上的限制, 我们可以大致理解为什么Google的并行计算架构上没有实现经典的MPI。同时,我们自然的考虑Google里当时最有名的并行计算框架MapReduce。

MapReduce的风格和MPI截然相反。MapReduce对程序的结构[......]

继续阅读

[分布式机器学习的故事-2]分布式机器学习的评价标准

文章转自王益的《分布式机器学习的故事》

在后文中会详细介绍的各个大规模机器学习系统,基本都有三个特点:

  1. 可扩展。可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地[......]

继续阅读

[分布式机器学习的故事-1]大数据带来的新机遇

文章转自王益的《分布式机器学习的故事》

一个新时代

起源

分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。[......]

继续阅读

火光摇曳