《白云书园》之数字时代(二四)

网络爬虫

送两位美女回家后,小白和小书闲扯着回到两人合租的窝里。

小书问:“小白,你觉得园园怎么样?”

“很好啊,有才华,而且很有研究精神。这不就号令我去爬些社交网络数据给她做。研究她关心的人际关系经济学呢。”

“爬网络数据来研究经济学?我印象中的经济学都是研究跟经济,或者说和钞票有关的问题的,为嘛和拉关系也有联系?还是网上关系。听起来很跨界啊。”

“现在流行跨界!难道你没看到唱歌的都争着去演电影,卖茶叶蛋的也有证明数学难题的,各大学都在大力努力培养复合型人才。互联网时代的转型你听过吧”

化缘的改叫众筹了,
算命的改叫分析师了,
八卦小报改叫自媒体了,
统计改叫大数据分析了,
忽悠改叫互联网思维了 ,
做耳机的改为可穿戴设备了,
IDC的都自称云计算了,
办公室出租改叫孵化器了,
圈地盖楼改叫科技园区了,
放高利贷改叫资本运作了,
借钱给朋友改叫天使投资了,
放高利贷都改叫资本运作了 ……

小白,你说那到底什么是人际关系经济学呢?”

“这个我也不懂,你们在后面长眠时,她提到微博微信等社交网络上,有人没事就是到处点个赞,这在最大化啥利益?还有的人喜欢狂转发,又是为了什么收益?具体你得自己问园园去,我码农一个,也就被抓壮丁去帮她爬点微博用户数据而已。”

“不过我也没听说你干过爬微博数据这事呀,这活你真行?”

“不行也得行啊,牛都吹出去了。胸脯拍得响响的,不就是写个或抄了小程序嘛,哥在行!”

“哎,你就作吧,看你死得多难看。”

“木事,不是有度娘么,请她帮忙搜一下,看看有没有现成代码。对,说请就请。”小白干劲还真大,撇下一天的疲惫,坐在电脑前就开搜。

小书无奈地同情了一下小书,自己先去洗澡了。等他再出来时,看到小书还在忙碌着,就问道:“小白进展如何?”

“嗯,度娘真给力,随便搜一下’爬微薄数据’,就找到个叫‘中国爬盟’的组织。”[1]

中国爬萌是通过众包方式获取微博数据的合作组织,可以通过贡献并分享您获取的部分数据来换取更多的数据. 最终达到共赢的目的.

“虽然网页上活动日期老了点,但上面的爬盟神器可能还能借鉴一下。好像有些数据可以直接下载,真是有良心啊。”

“小白,你估计这爬虫用起来会占多少网络流量?会不会搞的我们带宽都占用了?”

“这显然不能用家里的机器了,我以前看到过一个2013年的报道说当时爬虫程序产生的流量占到互联网总流量的百分之六十以上,这个听起来有点吓人。”

24-2

“这个确实吓人,原来大数据也不是随便就收集来的,光电费都要多少。不过到底这比例是怎么知道的呢?”

“听说是一个叫 Incapsula 的网页寄主提供公司,统计了在90天的时间里收集了对他们主机上的两万网站的来自世界上所有249个国家的14.5亿次访问的数据。”

For the purpose of this report we observed 1.45 Billion visits, which occurred over a 90 day period. The data was collected from a group of 20,000 sites on Incapsula’s network, which consists of clients from all available plans (Free to Enterprise). Geographically, the traffic covers all of the world’s 249 countries, per country codes provided by an ISO 3166-1 standard.

“原来也也是用自己家方便数的数据来估计整个网络的数据,不知道那两万网站是什么类型的网站,还有,到底哪里来的249个国家呢。”[2]


[1]中国爬盟 http://www.cnpameng.com 好像有个口号:以众包的形式利用所有人的力量,为每个需要数据的人提供最新最全的互联网数据。

[2]世界上到底有多少国家?这个问题还真不好回答呢。小伙伴们认为呢?

[*] 原文同时发布在: 《白云书园》之数字时代(二四) http://wp.me/p5Da4b-3O

本文链接:《白云书园》之数字时代(二四)
本站文章若无特别说明,皆为原创,转载请注明来源:火光摇曳,谢谢!^^


火光摇曳

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*