【转】大规模高维数据实时相似搜索算法:Product Quantization 及其改进

| 导语 Product Quantization,国内有人直译为乘积量化,这里的乘积是指笛卡尔积(Cartesian product),意思是指把原来的向量空间分解为若干个低维向量空间的笛卡尔积,并对分解得到的低维向量空间分别做量化(quantization),用于解决相似搜索问题(similarity search)或者也可以说是近邻搜索(nearest neighbor search)问题。PQ 是一种量化(quantization)方法,本质上是数据的一种压缩表达方法(其实通信学科的一个主要研究工作就是研究信号的压缩表达),所以该方法除了可以用在[......]

继续阅读

分布式机器学习系统AnyEmbedding介绍

继2016年下半年我们开发了分布式机器学习系统Sabaton并且成功应用于腾讯广告业务之后,2017年上半年我们又开发(推出)了分布式Embedding训练系统AnyEmbedding。

基于腾讯多源异构数据现状,比如广告业务中有User,App,Query等数据,如何设计算法学习这些数据的embedding表示?同时腾讯用户(qq,weixin)规模在10亿左右,如何设计高效的分布式训练系统?在我们分享的ppt中将一一呈现。

以下是我们内部分享的ppt

PS:目前介绍分布式机器学习系统的工程实现文章并不多,比如分布式机器学习系统的架构[……]

继续阅读

【社招】腾讯CDG社交与效果广告部(广点通)—数据挖掘工程师(深圳&北京)

岗位职责:

负责广告系统精准定向技术研究和优化;
负责文本语义分析,用户画像挖掘和相似人群挖掘系统研发;
负责海量用户数据处理平台建设优化;
负责大规模机器学习和深度学习算法研发应用;
深入广告业务做数据分析和优化。

岗位要求:

扎实的数据结构和算法功底,编码强悍;
熟悉 Linux 开发环境,精通 C/C++,熟悉 Python、Java、Scala 更好;
有自然语言处理、机器学习知识背景,有实践经验更佳;
有深度学习、搜索引擎、推荐系统相关技术经验者优先;
有海量数据处理和并行计算开发经验者优先,如 Hadoop、Storm、[……]

继续阅读

Peacock采样算法性能比较

近期, 我们将对peacock进行升级, 我们将采用更快的sampler来加速LDA的训练.

我们首先在单机版上进行了正确性验证和性能测试. 下面是实验结果.

  1. 结论

单机版共实现了4个Sampler: LightLDA, AliasLDA, SparseLDA, Gibbs Sampling LDA(下面简称LDA).

我们在调试完收敛性后, 在3个不同语料上做了收敛性实验, 并在其中的大型语料上做了性能测试.

结果表明, LightLDA在收敛性和模型质量相当的情况下, 具有巨大的性能优势.

 

    [……]

继续阅读

《白云书园》之数字时代(三八)

图灵测试

讲完了计算机他爹和程序猿他妈的故事,小书终于可以品一口香茶了。

小云对小书赞了个大拇指,“你们看小书不光会数数,还挺八卦呢。”

大家闲聊了两句,园园想起了上次小白没讲完的关于判断人和机器的故事,就催着小白接着白活这个故事。小云和小书也跟着起哄让小白接着讲。

小书在大家怂恿下,就开腔了:“小白讲的计算机爸妈的八卦太精彩了。要是我接着讲判断人和机器的故事,那就要请出计算机,或者说人工智能,历史上另一位历程碑级别的人物了。电影发烧友肯定知道。”

“我就是发烧友,你说的哪位啊?”小云问道。38-1

“模仿游戏的主角,艾伦·图[……]

继续阅读

《白云书园》之数字时代(三七)

分工和效率

小书这一通乱侃,口干舌燥。另外三人听得也是有滋有味,还没睡着。

小云先开口了:“园园说故事要与经济和女神有关系,女神是有了,和钱的关系呢?”

小书说:“有啊,还没到不是。说起经济管理,这巴贝奇也是在历史上有名有号的。你们听说过“Babbage Principle(巴贝奇准则)”吗?

园园眼珠转了又转,然后道:“这个我倒好像有点印象。你们知道 George Joseph Stigler 乔治·斯蒂格勒,1911年1月17日-1991年12月1日)吗?他是经济学家、经济学史家、芝加哥大学教授及1982年诺贝尔经济学奖得主[……]

继续阅读

《白云书园》之数字时代(三六)

计算机前世篇[史上第一程序员]

在分析机的故事中,不仅巴贝奇的故事够传奇,还有另外一位计算机历史上不得不提的里程碑似的人物:写出大家认为是的历史上第一段计算机程序的女神 Ada Lovelace (艾达·洛夫莱斯,1815年12月10日-1852年11月27日)。埃达原名Augusta Ada Byron(奥古斯塔·艾达·拜伦),全名为 Augusta Ada King, Countess of Lovelace (奥古斯塔·艾达·金,洛夫莱斯伯爵夫人)。

36-1
艾达·洛夫莱斯,1815年12月10日-1852年11月27日
艾达1815年12月生于伦敦,她是诗人父亲 George Gordon Byron (乔治·戈登·拜伦) 与母亲 Anne Isabella Milbanke (安妮·伊莎贝拉·米尔班奇)唯一的合法子嗣。她母亲安妮是一名业余数学家,人称“平行四边形公主”。1816年1月16日,母亲安妮离开拜伦,带着一个月大的艾达离开。她父亲这位浪漫的诗人不久便离开了英国,再也没有回来。

[……]

继续阅读

《白云书园》之数字时代(三五)

计算机前世篇[机械机算机 — 分析机 ]

虽然差分机最终还是没建成,但在设计制造差分机的十年过程中,巴贝奇在不断地改进设计的重复劳动中意识到他没必要把自己圈在差分机这个计算多项式的范围内。

退一步,海阔天空。他发现他其实可以建造个有更广泛用途的计算机器,他把它命名为分析机(Analytical Engine)。设计和尝试建造这个充满传奇色彩的机器成了他整个下半生的梦想。这个分析机的设计理念比差分机更超前,向未来穿越了大概一个世纪。

从1834年开始,巴贝奇就开始一直追他建造分析机的梦想。到了1836年间,他完成了第一个雏形设计,一年后他又从头推倒,再来设计了一次。[1]

巴贝奇设计中的分析机是由蒸汽机驱动,机器大约有15英尺高,25英尺长,几乎是一个小火车头。

  • 它的“内存”是由齿轮组成的,齿轮位置记录数字。它们大约可以存储1000个40位的十进制数(约16.7 KB)。
  • 机器有一个算术单元,就是现在说的CPU,用来进行四则运算、比较和求平方根操作。运算的基本原理与帕斯卡的转轮相似,但他改进了进位装置,使得40位数加40位数的运算可完成于一次转轮之中。它做一次20位乘40位的运算只需两分钟。虽然这个速度与现代电子计算机根本不可比,但当时已经是很惊人的了。
35-1
分析机内部计算部分的设计图

[……]

继续阅读

《白云书园》之数字时代(三四)

计算机前世篇[差分机和二代差分机]

在差分机项目开始的近十年后,1832年,巴贝奇终于有足够的零件组装差分机的一个部分了。该部分大约24英寸高,19英寸宽,14英寸深,大概是整个机器的七分之一。它的工作很完美,可以计算六位数二阶差分的序列。这是当时最复杂和精致的机械了。

这个珍贵的发明被转移到巴贝奇住所旁边的一个耐火建筑。他经常在那里举办周六晚上聚会向朋友们 展示他的发明。惠灵顿公爵也因为自己在其中的角色感到骄傲,成为这个聚会的常客。

巴贝奇差分机建成的一部分

[……]

继续阅读

《白云书园》之数字时代(三三)

计算机前世篇[巴贝奇和差分机]

在八卦了人力计算机,计算器,和打孔卡之后,我们来聊一聊现代计算机的雏形。到这就必须提到英国人 Charles Babbage查尔斯·巴贝奇,1791 – 1871)了。如果,我是说如果历史上有哪个人可以称得上计算机之父的话,那可是非这位传奇大侠莫属了。

到了十八世纪末,工业革命如火如荼在英国推进并蔓延到欧洲大陆,特别是法国。政府,工商,航海,和各科学领域都第一次对能做四则运算计算器和各种函数表格(对数,平方根,立方根,三角函数等)提出迫切需要。

比如在1784年,法国政府决定制订对数和三角函数(如正弦和余弦)的新表。这个项目就是人力计算机的典型应用。六位杰出的数学家负责设计的数学算法并对这个项目负责。他们手下的七八位人力计算机再教和监督手下七八十号更初级人力计算机进行计算。该项目历时两年多,结果是两份17卷手写表格。但因为担心手写记录中的错误,这些表格最后没有发表。对这种表格制造的过程,数学家也很头疼。

这时英国青年人查尔斯·巴贝奇出现了。巴贝奇出生就是个富二代,是个富有的银行家的儿子。谁说富二代不学无术呢?人家这位可是一个天才的数学家。

查尔斯·巴贝奇,1791 – 1871

[……]

继续阅读

《白云书园》之数字时代(三二)

跨界一家亲

小书讲的津津有味,滔滔不绝。在看小白那边听的也是醉了。

“诶,我说小书,你一个学统计的,怎么无聊的去了解这么多关于计算机的知识,还是史前计算机的知识?”

“现在大数据不是需要把统计和计算机揉在一起吗。会计算机都在学统计方法,会统计理论的都在恶补堆码。世界大同!”

“纯跨界也就算了,你这揉合的也太穿越了。”

“你从头看,才能看出统计、计算机还有数学本来就是一家亲,就像我们两个好基友一样,哈哈。”

好基友[/capt[……]

继续阅读

火光摇曳