《白云书园》之数字时代(二六)

健身健心

虽然僵尸粉的出现让小白辛苦整理的数据和园园要研究的问题分道扬镳,但这不影响两人吃饭的心情,海阔天空地闲扯得挺高兴。

闲聊间,小白还不忘要帮小书打听点关于小云的八卦。这就听见他问了,“园园,你和小云两位大美女是怎么认识的?”

“我们几年前上健身课程时碰上的。她身材那么好,我就搭讪上去让她带我一起练习。慢慢地就成了好闺蜜了。”

“健身好啊,我们很多码农的生活作息规律都很不健康。在学校里就养成了晚上熬夜的习惯,过了晚上十点就来精神写代码了。那时早上的课基本上不是没起床翘掉了,就是在课堂上睡过去了。”

0

 [......]

继续阅读

《白云书园》之数字时代(二五)

网络人群

周一上班,小白提前到达办公室。打开机器的第一件事就是去把中国爬盟上的微博数据下载了一些,又把培养了一批爬虫,让它们去再随便去多爬点数据。

半小时时间不到,就几十万微博用户信息到手。赶紧给园园打个电话。

“喂,园园吧,我是全明白。”

“嗯。我明白。怎么这么早打电话,一定是昨天我忘了什么东西在车里吧。”

“没有没有,你怎么会忘东西呢?”嘴里这么说着,小白心里寻思:“你又没有带什么东西,怎么会忘呢。”

“那有什么事吗?这大早上的。”

“你不是让我爬微博数据吗?腿都累断了,爬了几百里地,帮你采集了几十万[......]

继续阅读

《白云书园》之数字时代(二四)

网络爬虫

送两位美女回家后,小白和小书闲扯着回到两人合租的窝里。

小书问:“小白,你觉得园园怎么样?”

“很好啊,有才华,而且很有研究精神。这不就号令我去爬些社交网络数据给她做。研究她关心的人际关系经济学呢。”

“爬网络数据来研究经济学?我印象中的经济学都是研究跟经济,或者说和钞票有关的问题的,为嘛和拉关系也有联系?还是网上关系。听起来很跨界啊。”

“现在流行跨界!难道你没看到唱歌的都争着去演电影,卖茶叶蛋的也有证明数学难题的,各大学都在大力努力培养复合型人才。互联网时代的转型你听过吧”

化缘的改叫众筹了,
算命的改叫分[......]

继续阅读

《白云书园》之数字时代(二三)

人际关系经济学

在山上走了一天下来,四人有说有笑还挺开心的。虽然四人的工作和生活经历相去甚远,但共同话题还蛮多的。

下得山来已经是下午四点多了。在山脚下吃了点东西后就准备开车回城。上车前,园园心有余悸地问:“小白,你上山时说的驾驶体验不会是真的吧。”

小云打开车后门,先把小书塞进后座,自己也快速挤了进去,然后放下车窗对园园说:“你担心就做司机旁边吧,监督他开车,有危险时也提个醒。更重要的是……不说了,你懂的。”

园园没办法,半不乐意地坐在了副驾驶的位子上。

这时小云又开腔了:“最重要是一直跟司机说话,别让他睡着了,要不乘客就[......]

继续阅读

腾讯广点通技术团队揭秘互联网效果广告背后的技术与挑战

T派IN课堂T派IN课堂

腾讯攻城师走进名校课堂,打开互联网技术黑匣子。腾讯广点通技术团队揭秘互联网效果广告背后的技术与挑战。合作高校:南京大学

课程总体介绍

好的商业模式是企业发展的动力来源,也是创新创业得以落地的必要条件。广告作为互联网行业最为主流和清晰的商业模式持续为企业创造价值。

尽管互联网广告的形态各异:品牌展示广告、搜索广告、效果展示广告、社交广告,但精准定向是其共同的追求。如何打开流量幕后的黑盒子,理解用户,精准定向,给用户有用的信息,构建用户、广告主、流量平台的共赢生态圈,涉及诸多

研究与技术问题。同时面对亿级用户、百亿级的流量、千[......]

继续阅读

《白云书园》之数字时代(二二)

无限风光在顶峰

大概一个钟头的时间,小云等人爬到了山顶。呵,这边风景还真是好,一览众山小。尽管有点累,但不影响大家心情愉快。

小白这时又开口了:“终于到山顶了。还记得来的路上我们说的优化问题吧,用优化的语言讲,我们终于收敛了。”

“还收敛呢,我看你还是收敛一下你的极客(Geek)作风,认真作人吧。”小云在一旁建议道。

22-1

小白不服地反驳说:“人生吗,不就是一次次爬山吗?看看自己现在的条件,找个自认为的最优方向,努力地向那个方向前进。直到走到前面没有上升空间了,就是到了小山顶了。前看看,后看看,左右再看看,一圈都是下坡路。肿么办[......]

继续阅读

《白云书园》之数字时代(二一)

漫步山中

四人漫步在这无名小山的半山腰上,虽然气势比不上名山大川,但山川秀丽也让人心旷神怡。

园园心里还在堵气,走在最前面不说话。小白知趣地躲在最后,倒是小云和小书走在中间有说有笑。走着走着就走进山谷里了。

小书觉得这么下去也不是个事啊,好好地出来踏青,园园和小白刚见面就闹别扭怎么行呢?小云也在旁边暗示他做点啥缓和一下气氛。

小书心领神会,扑通一下跌坐在地上。

“哎呦,扭了脚了……”

小白赶紧跑上来看,园园也走回来围观。三人都蹲在小书旁边措手无策。倒是小书自己说话了:“都怪我份量太足,走路不稳,没事没事,经常发[......]

继续阅读

广点通携手404寻亲项目:找回那块亲情拼图

世界上有一种最美丽的声音,那便是母亲的呼唤。为了帮助更多失踪儿童回家,广点通主动携手腾讯公益协会的404寻亲项目,通过使用广点通定向投放能力,参与21位失踪儿童的搜寻。最终在社会力量的共同努力下,11位失踪儿童找回了遗失的亲情拼图,而腾讯广点通贡献了自己的一份力量。

沸腾:“圳能量”敲开深圳人心扉

借助404寻亲页面和广点通定向寻找伟伟借助404寻亲页面和广点通定向寻找伟伟

2015年3月10日早,数家媒体争先报道同一个“圳能量”,是什么故事敲开了深圳人的心扉?是什么行动引起了两会代表的一致赞扬?

故事的起因发生在3月7日15时30分,16岁男孩伟伟从家里下楼找爸爸拿东西时走失。[......]

继续阅读

《白云书园》之数字时代(二十)

安全驾驶

说话间车到山脚下,四人下车后沿着山脚村边的小路向山上爬去。

小云边走边问:“小白啊,你开车的样子好认真啊,开了多久了?”

“两年了,驾车技术一流,从没出过事故。”

“是啊,你安全驾驶的诀窍是什么?”

“呵呵,不瞒女神你,一是少开车,一周我上班靠公共交通,周末窝家里的可能性也很大;二是尽量减少在危险的地方开车的时间。”

“怪不得这么紧张。那你说说路上最危险是哪段?”

小书插嘴道:“这个我知道,大数据显示大多数交通事故都发生在家门口或交通路口。”

“嗯!所以我总把车停在离家很远的地方,而且在路[......]

继续阅读

腾讯广点通招聘广告数据分析师

广点通广告数据分析师

岗位职责:

针对特定的广告行业需求,基于大规模用户数据,对用户兴趣、偏好进行数据挖掘和分析,挖掘广告主感兴趣的人群,协助广告主在广点通系统中进行广告定向投放, 并通过数据分析追踪广告投放效果,推动特定广告行业的效果优化。

岗位要求:

  1. 本科以上学历,数学、统计学、计算机等相关专业, 2年统计数据分析、数据挖掘研发相关工作经验,有互联网行业数据分析经验者优先;
  2. 熟悉数据建模知识、数据挖掘理论,熟练掌握数据分析体系架构、方法;
  3. 有海量数据分析处理经验及大数据分析计算平台的开发经验,熟悉 Hadoop/Ma[......]

继续阅读

《白云书园》之数字时代(十九)

走出雾霾

从离开市区,四人驾车往山中进发,越走空气质量越好。小白打开车窗,大家深呼吸。园园不禁感慨道,“这里空气可真不错,污染比城里小多了。这年头的空气污染好严重,PM2.5漫天飘,去哪都要戴个大口罩,好无聊。”

“对呀!这几年到处雾霾笼罩,让人的心情总是雾蒙蒙的。”小云跟上说,“经常看不到蓝天也就算了,白云也少见,穹顶之下不爽。”

小书从副驾驶的位置上说道:“你看前几天开APEC大会时,帝都蓝天白云多好。大家都说空气污染终于被控了,连APEC的名字都是为这起的:Air Pollution Eventually Control[......]

继续阅读

《白云书园》之数字时代(十八)

郊游交友

一晃五个工作日就过去了,小白和小书一直盼着的周末也终于就要到了,约好了和小云与园园周六一起去爬山的。

小白开上他的小破车,和小书一起去接两位女神。周末道路通畅,又提前到了。两人上车坐后座,小车往郊区进发。

小书先开口了:“这位司机同志是我好基友,叫权铭白。做大数据语言处理的,什么都明白。”小书憨笑着接上,“呵呵,就是个码农,程序猿而已。”

“哦,全明白。”小云笑道:“好啊。这位是我好朋友,夏园园,经济学家。”

园园跟着说:“这两周尽听小云提起你们俩了,今天好好跟你们学点数字知识。”

说话间,小车向山中进发。渐[......]

继续阅读

《白云书园》之数字时代(十七)

加班的困惑

“加班加班,我们组这些人怎么这么爱加班呢?”小白心里不停地抱怨着。这不,今晚有加班了。说也奇怪,码农们都是太阳落山后就精神来了,没事也不回家,非要加班。小组头目也是如此,简直就是没事也加班,好像谁耗得时间长谁贡献到似的。抱怨归抱怨,别人不走你也不好意思早走。“哎,这都是神马世道。我单身也就算了,这些都已经成家的不知是怎么想的,更不知道他们家领导都是怎么想的。”

晚上八点多了,办公室的人也走了一半了,小白这才从听音乐的无聊状态切换到准备回家状态。晃晃悠悠就到家已经九点多了。刚进家门,小书就从厨房里跑出来了。

“小白回来了。这个[......]

继续阅读

《白云书园》之数字时代(十六)

抽样,又见抽样

收拾好背包,小书刚要离开办公室,却被邻坐的同事拦住了。

“小书,能不能帮我出个主意?”

“美女,你有什么人生终极问题呀?”

“我们调查员的终极问题,如何给客户简单地说清楚为什么要抽样呢?”

“上周我刚给我一个兼职做模特的美女作家讲了美国选总统民调的事,一千人左右就能对候选人的支持率估计到误差在3%左右。人家文科生好象也一下就接受了。”

“这么老的故事你也拿出来骗文科生啊!我这个客户公司老总是学数学的,和你一样也爱数数(认死理),对抽样有怀疑,觉得全数一遍最靠谱。”

“我去,那TA找会计事务所去不就[......]

继续阅读

《白云书园》之数字时代(十五)

统计之都

拖着疲惫的身心,带着周一综合症,小书来到了单位。还好今天不用上街,只用把上周街调收来的数据汇总。其实小书也不是总要去站街的,只是偶尔要用到一些抽样数据来帮助其他渠道来的数据做市场调查。就像占中一样,这事要是必须天天干,鸭梨山大呀。

处理数据一直到下午,小书才有机会喘口气。真是累呀,比起小白讲起的让机器自己去网上爬语料来数据收集的方法,简单是一个天上,一个地下。

终于在下班前一个小时把计划的活干完了,于是小书就在网上逛逛。忽然想起小白提起的统计网站,决定研究一下。糟了,网址是什么来着?好像是什么之度,问下度娘吧。

提问:“[......]

继续阅读

使用简洁分配方案的广告投放

使用简洁分配方案的广告投放

Ad Serving Using a Compact Allocation Plan

Author: Peiji Chen et al.

译者:lexqu (屈伟)

初校版: 1.1.0

Introduction

在线广告的核心问题是广告投放,比如如何迅速地向用户展示某个广告,并得到一个全局的目标函数最优解。本文主要关注合约式广告,合约式广告是一个有数十亿的行业。在合约式广告中广告主会购买未来一段时间(2011年七月~八月)的某些定向用户的流量(比如,加州访问体育方面的男性用户的100万次访问),广告系统会在广[......]

继续阅读

VC维的来龙去脉

目录:

  • 说说历史
  • Hoeffding不等式
  • Connection to Learning
  • 学习可行的两个核心条件
  • Effective Number of Hypotheses
  • Growth Function
  • Break Point与Shatter
  • VC Bound
  • VC dimension
  • 深度学习与VC维
  • 小结
  • 参考文献

VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言,SVM,LR,深度学习等可能都已经用到线上了,[......]

继续阅读

《白云书园》之数字时代(十四)

被平均与被解救

小云和小书吃完饭后,也没有直接回家。打车到图书市场转了会,淘了几本老书,随便吃了个点心当晩饭,然后才回家。

打开电视,各大电视台不是各年龄段的婚恋(Gao Xiao)节目就是各地打鬼子的历史(Xia Che)片段,太无聊了。抄起电话,拨通了园园的号码。

“喂,园园,干嘛呢?”

“宅在家里呢,上网刷微博呢。你怎么有空给我打电话?不是去约会了吗?”

“约会?和那个爱数数啊哈哈。中午聊了会天而已,惊奇地再次发现他们学数数的居然还挺能扯的,和你们经济大师们有一拼。”

“我们经济学怎么能叫扯呢?我们研究的都是大到[......]

继续阅读

《白云书园》之数字时代(十三)

数据科学家

好不容易小白逮到第二个机会让小书认真听他讲会自己的主项,那个得意啊。这不,这不停不下来了。

“小书,你说你们统计只学了点统计抽样和回归,其实这些还是很牛B的。能用一部分数据就把问题搞清楚,何必多花力气去把所有数据都跑一遍呢?”

“你说的也是,只是我们在上学时学了很多模型玩具,没太多机会打实战,考试又主要侧重公式推导,数学证明,也不关心数据分析能力。等我毕业后在工作中才发现理想真的很丰满,现实确实很骨感啊。经常碰到一堆乱七八卦的问题和数据,还有数据格式没谱,没哪个模型好用的情况。”

“嗯,这个好像比较普遍。数学公式和统计模型本身教起来有逻辑,也好考察,比较阳春白雪。数据分析就显得有些下里巴人了。”

“是啊是啊!数据收集,数据洗涤,数据打包,数据存储,数据传输,…,这些脏活累活都是数据被整理成书上顺理成章地提到的矩阵前要干的。”

[......]

继续阅读

《白云书园》之数字时代(十二)

机器翻译

愉快地吃完饭后,小书送小云上了出租车,然后自己哼哼着小调,高兴地去电脑城闲逛了会,才往家里赶。一进门就对小白大声吆喝:“哎,哥们,今天收获太大了,也要好好谢谢你。”

小白手眼都没离开自己的游戏,头也不抬地问:“怎么样?终身大事解决了。女神要下嫁给你了?”

“这葡萄好酸啊!你看,好的开头是成功的一半。我平时那么烦你唠叨你搞的那个神马文字处理,NLP,啥的,恨不得把耳朵堵上。还好在没堵上耳朵之前听到的那些,今天居然派上用场了。”

小白听到这,一下放下了游戏,激动地问,“难道她也是码农?也懂NLP?”

“那倒没有,人家主业居然还是作家,美女作家听说过,以前没见过真人的,今天居然一起吃饭聊天,羡慕吧。”

“嗷,原来是玩文字的,比我处理文字的高端多了。”

“女神对文学研究,计算机文字处理之类的好像有些兴趣,看来我得多跟你学习,成天搞抽样好没意思。”

小白起身去冰箱给每人拿了瓶可乐,顺带做了个伸展运动后开口了:“其实我们现在的计算机处理语言能力主要还是用统计规律,你们统计,概率论,还有计算数学中的东西是我们现在做的东西的基础,我自己也就码农一个,但是好歹是努力学习统计知识的码农。机器翻译之类的也就是那么回事,你看我们伟大的汉语真是博大精深,要让机器把它搞清楚,还真不太容易呢,比如这个简单的:

让google, baidu, bing 三大翻译高手来搞定一个小公交站名:

12-1

北京西站南广场东

Google: Beijing West Railway Station South Square East

Baidu: Beijing West Railway Station South Plaza East

Bing: South Plaza Beijing West railway station to the East

[......]

继续阅读

火光摇曳