【社招】腾讯CDG社交与效果广告部(广点通)—数据挖掘工程师(深圳&北京)

岗位职责:

负责广告系统精准定向技术研究和优化;
负责文本语义分析,用户画像挖掘和相似人群挖掘系统研发;
负责海量用户数据处理平台建设优化;
负责大规模机器学习和深度学习算法研发应用;
深入广告业务做数据分析和优化。

岗位要求:

扎实的数据结构和算法功底,编码强悍;
熟悉 Linux 开发环境,精通 C/C++,熟悉 Python、Java、Scala 更好;
有自然语言处理、机器学习知识背景,有实践经验更佳;
有深度学习、搜索引擎、推荐系统相关技术经验者优先;
有海量数据处理和并行计算开发经验者优先,如 Hadoop、Storm、[......]

继续阅读

Peacock采样算法性能比较

近期, 我们将对peacock进行升级, 我们将采用更快的sampler来加速LDA的训练.

我们首先在单机版上进行了正确性验证和性能测试. 下面是实验结果.

  1. 结论

单机版共实现了4个Sampler: LightLDA, AliasLDA, SparseLDA, Gibbs Sampling LDA(下面简称LDA).

我们在调试完收敛性后, 在3个不同语料上做了收敛性实验, 并在其中的大型语料上做了性能测试.

结果表明, LightLDA在收敛性和模型质量相当的情况下, 具有巨大的性能优势.

 

    [......]

继续阅读

《白云书园》之数字时代(三八)

图灵测试

讲完了计算机他爹和程序猿他妈的故事,小书终于可以品一口香茶了。

小云对小书赞了个大拇指,“你们看小书不光会数数,还挺八卦呢。”

大家闲聊了两句,园园想起了上次小白没讲完的关于判断人和机器的故事,就催着小白接着白活这个故事。小云和小书也跟着起哄让小白接着讲。

小书在大家怂恿下,就开腔了:“小白讲的计算机爸妈的八卦太精彩了。要是我接着讲判断人和机器的故事,那就要请出计算机,或者说人工智能,历史上另一位历程碑级别的人物了。电影发烧友肯定知道。”

“我就是发烧友,你说的哪位啊?”小云问道。38-1

“模仿游戏的主角,艾伦·图[......]

继续阅读

《白云书园》之数字时代(三七)

分工和效率

小书这一通乱侃,口干舌燥。另外三人听得也是有滋有味,还没睡着。

小云先开口了:“园园说故事要与经济和女神有关系,女神是有了,和钱的关系呢?”

小书说:“有啊,还没到不是。说起经济管理,这巴贝奇也是在历史上有名有号的。你们听说过“Babbage Principle(巴贝奇准则)”吗?

园园眼珠转了又转,然后道:“这个我倒好像有点印象。你们知道 George Joseph Stigler 乔治·斯蒂格勒,1911年1月17日-1991年12月1日)吗?他是经济学家、经济学史家、芝加哥大学教授及1982年诺贝尔经济学奖得主[......]

继续阅读

《白云书园》之数字时代(三六)

计算机前世篇[史上第一程序员]

在分析机的故事中,不仅巴贝奇的故事够传奇,还有另外一位计算机历史上不得不提的里程碑似的人物:写出大家认为是的历史上第一段计算机程序的女神 Ada Lovelace (艾达·洛夫莱斯,1815年12月10日-1852年11月27日)。埃达原名Augusta Ada Byron(奥古斯塔·艾达·拜伦),全名为 Augusta Ada King, Countess of Lovelace (奥古斯塔·艾达·金,洛夫莱斯伯爵夫人)。

36-1
艾达·洛夫莱斯,1815年12月10日-1852年11月27日
艾达1815年12月生于伦敦,她是诗人父亲 George Gordon Byron (乔治·戈登·拜伦) 与母亲 Anne Isabella Milbanke (安妮·伊莎贝拉·米尔班奇)唯一的合法子嗣。她母亲安妮是一名业余数学家,人称“平行四边形公主”。1816年1月16日,母亲安妮离开拜伦,带着一个月大的艾达离开。她父亲这位浪漫的诗人不久便离开了英国,再也没有回来。

[......]

继续阅读

《白云书园》之数字时代(三五)

计算机前世篇[机械机算机 — 分析机 ]

虽然差分机最终还是没建成,但在设计制造差分机的十年过程中,巴贝奇在不断地改进设计的重复劳动中意识到他没必要把自己圈在差分机这个计算多项式的范围内。

退一步,海阔天空。他发现他其实可以建造个有更广泛用途的计算机器,他把它命名为分析机(Analytical Engine)。设计和尝试建造这个充满传奇色彩的机器成了他整个下半生的梦想。这个分析机的设计理念比差分机更超前,向未来穿越了大概一个世纪。

从1834年开始,巴贝奇就开始一直追他建造分析机的梦想。到了1836年间,他完成了第一个雏形设计,一年后他又从头推倒,再来设计了一次。[1]

巴贝奇设计中的分析机是由蒸汽机驱动,机器大约有15英尺高,25英尺长,几乎是一个小火车头。

  • 它的“内存”是由齿轮组成的,齿轮位置记录数字。它们大约可以存储1000个40位的十进制数(约16.7 KB)。
  • 机器有一个算术单元,就是现在说的CPU,用来进行四则运算、比较和求平方根操作。运算的基本原理与帕斯卡的转轮相似,但他改进了进位装置,使得40位数加40位数的运算可完成于一次转轮之中。它做一次20位乘40位的运算只需两分钟。虽然这个速度与现代电子计算机根本不可比,但当时已经是很惊人的了。
35-1
分析机内部计算部分的设计图

[......]

继续阅读

《白云书园》之数字时代(三四)

计算机前世篇[差分机和二代差分机]

在差分机项目开始的近十年后,1832年,巴贝奇终于有足够的零件组装差分机的一个部分了。该部分大约24英寸高,19英寸宽,14英寸深,大概是整个机器的七分之一。它的工作很完美,可以计算六位数二阶差分的序列。这是当时最复杂和精致的机械了。

这个珍贵的发明被转移到巴贝奇住所旁边的一个耐火建筑。他经常在那里举办周六晚上聚会向朋友们 展示他的发明。惠灵顿公爵也因为自己在其中的角色感到骄傲,成为这个聚会的常客。

巴贝奇差分机建成的一部分

[......]

继续阅读

《白云书园》之数字时代(三三)

计算机前世篇[巴贝奇和差分机]

在八卦了人力计算机,计算器,和打孔卡之后,我们来聊一聊现代计算机的雏形。到这就必须提到英国人 Charles Babbage查尔斯·巴贝奇,1791 – 1871)了。如果,我是说如果历史上有哪个人可以称得上计算机之父的话,那可是非这位传奇大侠莫属了。

到了十八世纪末,工业革命如火如荼在英国推进并蔓延到欧洲大陆,特别是法国。政府,工商,航海,和各科学领域都第一次对能做四则运算计算器和各种函数表格(对数,平方根,立方根,三角函数等)提出迫切需要。

比如在1784年,法国政府决定制订对数和三角函数(如正弦和余弦)的新表。这个项目就是人力计算机的典型应用。六位杰出的数学家负责设计的数学算法并对这个项目负责。他们手下的七八位人力计算机再教和监督手下七八十号更初级人力计算机进行计算。该项目历时两年多,结果是两份17卷手写表格。但因为担心手写记录中的错误,这些表格最后没有发表。对这种表格制造的过程,数学家也很头疼。

这时英国青年人查尔斯·巴贝奇出现了。巴贝奇出生就是个富二代,是个富有的银行家的儿子。谁说富二代不学无术呢?人家这位可是一个天才的数学家。

查尔斯·巴贝奇,1791 – 1871

[......]

继续阅读

《白云书园》之数字时代(三二)

跨界一家亲

小书讲的津津有味,滔滔不绝。在看小白那边听的也是醉了。

“诶,我说小书,你一个学统计的,怎么无聊的去了解这么多关于计算机的知识,还是史前计算机的知识?”

“现在大数据不是需要把统计和计算机揉在一起吗。会计算机都在学统计方法,会统计理论的都在恶补堆码。世界大同!”

“纯跨界也就算了,你这揉合的也太穿越了。”

“你从头看,才能看出统计、计算机还有数学本来就是一家亲,就像我们两个好基友一样,哈哈。”

好基友[/capt[......]

继续阅读

《白云书园》之数字时代(三一)

计算机前世篇[打孔卡片]

十八十九世纪中各种计算器的出现大大地帮助了计算机(专职进行计算的人)提高了计算效率和计算准确性,但输入计算式、检查和记录结果都还是体力活。要把人力从繁琐的计算中完全解放出来,数据输入,输出和计算的自动化还是计算机械面临的挑战。

说到从计算器到计算机的发展历史,有位英国人 Charles Babbage(查尔斯·巴贝奇, 1791 -1871)的传奇故事就不得不提。好吧,我们就暂时放下他的事不表,先来专心吧一吧他设计他的传奇计算机器 Analytic Engine 时计划用打孔卡片(punched card)的历史地位。

用来控制织布机的打孔卡片

人类对自动化的追求不只在体现提高计算能力的研究中,而且也体现在各种需要重复劳动生产中的,织布就是其中之一。

说起织布,想想就是件体力活。横一下,竖一下,横一下,竖一下,…… 无穷无尽。要在布上指出美丽的图案,又是件脑力活。在织布机每次移动前挑选不同颜色丝线来拼出图案。 如果是纯脑力活也就罢了,但在织完一块布后,很喜欢,要想再出块一样的布,那就算有超级大脑也记不住织上块布时每一步颜色选择的精细细节了。

31-2
雅卡尔的织布机织出的图案

[......]

继续阅读

《白云书园》之数字时代(三十)

计算机前世篇(机械计算器)

为了减轻人们的计算负担,从用来计数的石头贝壳绳结到后来的算盘,各种计算辅助设备逐渐在人类历史上出现。

起初,发明了对数(log)运算的苏格兰人 John Napier(约翰·纳皮尔)在1617年发明了一个后来被称为纳皮尔骨头的工具。

纳皮尔骨头

他把乘法口诀刻在象牙棍上,从而把乘法运算转化为简单的对位加法。这些象牙棒也可以用来把除法运算转为减法。更为上进一些的用法还也可以用来开平方。[......]

继续阅读

《白云书园》之数字时代(二九)

计算机前世篇(姑娘计算机)

说起计算机,一种能进行科学计算的机器,经常会联想到算盘,比如互动百科上关于计算机发展历史中就有这么一段:[1]

要追溯计算机的发明,可以由中国古时开始说起,古时人类发明算盘去处理一些数据,利用拨弄算珠的方法,人们无需进行心算,通过固定的口诀就可以将答案计算出来。

算盘?

怎么说呢?算盘作为早期帮助数学计算的工具,其唯一的价值在于帮助人在执行计算中所需要记忆的部分。对与是谁发明了算盘,或者哪国家最先[......]

继续阅读

《白云书园》之数字时代(二八)

码农男女

园园本来还打算让小书继续讲分辨机器和人的故事,可一看表已经十点多了。这么晚了,明天上班还要早起呢。于是两人收拾起不错的心情,离开了饭馆。

送园园安全回家后,小白到家倒头就睡。这一觉睡的好香,直到早晨被小书上班出门时的摔门声吵醒。赶紧爬起来抹了把脸,赶车去了。

经过一番堵车之后,小白终于赶到了公司,发现部门的兄弟都已经面对屏幕专注地上网了。还好没有错过什么重要的会议。过去这几天过的真是累并快乐着。开始干活!

还没等把一夜积压的邮件处理完,小书的骚扰电话就来了。

“喂,小白。昨晚你去哪儿了!怎么一夜未归啊!”[......]

继续阅读

《白云书园》之数字时代(二七)

人?猫?机器?

等园园和小书不知不觉地把桌上的饭菜都收拾干净,才发现原来两人吃起东西来都是还蛮拼的。这顿饭吃出的收获就是发现两人还是有不少共同爱好的,最重要是了解到大家都是吃货。

园园擦干净嘴,又开始思考那个天马行空的社交经济学的问题了。喝了口茶,她开口了:“你说那些僵尸粉,我们能不能用什么简单方法把他们和正常微博用户区分出来?”

小白好无奈啊,“美女你还真学术嘞。区分真人和机器这事可是有点历史了,大概十几年吧。好吧,我就我所知来给你八卦一下吧。”

“好啊,我洗耳恭听。”

“关于这个问题我听说的最早的段子是这样的。有天一位英[......]

继续阅读

《白云书园》之数字时代(二六)

健身健心

虽然僵尸粉的出现让小白辛苦整理的数据和园园要研究的问题分道扬镳,但这不影响两人吃饭的心情,海阔天空地闲扯得挺高兴。

闲聊间,小白还不忘要帮小书打听点关于小云的八卦。这就听见他问了,“园园,你和小云两位大美女是怎么认识的?”

“我们几年前上健身课程时碰上的。她身材那么好,我就搭讪上去让她带我一起练习。慢慢地就成了好闺蜜了。”

“健身好啊,我们很多码农的生活作息规律都很不健康。在学校里就养成了晚上熬夜的习惯,过了晚上十点就来精神写代码了。那时早上的课基本上不是没起床翘掉了,就是在课堂上睡过去了。”

0

 [......]

继续阅读

火光摇曳