《白云书园》之数字时代(二五)

网络人群

周一上班,小白提前到达办公室。打开机器的第一件事就是去把中国爬盟上的微博数据下载了一些,又把培养了一批爬虫,让它们去再随便去多爬点数据。

半小时时间不到,就几十万微博用户信息到手。赶紧给园园打个电话。

“喂,园园吧,我是全明白。”

“嗯。我明白。怎么这么早打电话,一定是昨天我忘了什么东西在车里吧。”

“没有没有,你怎么会忘东西呢?”嘴里这么说着,小白心里寻思:“你又没有带什么东西,怎么会忘呢。”

“那有什么事吗?这大早上的。”

“你不是让我爬微博数据吗?腿都累断了,爬了几百里地,帮你采集了几十万用户信息。就是来问一下你什么时候来把它们搬回去。”

“啊?这么短时间就收集到了几十万。你真行!我这就起床,中午找你吃饭如何?”

“我去,这么急啊(ren xing)。我今天中午公司有午饭了,晚饭行不行?”

“好,一起晚饭。我刚好再睡会,周末爬山回来好累。拜拜!”

“太好了,也是一个和我一样喜欢睡懒觉的。”小白心里美滋滋地放下电话。


一日无事,到了晚饭时间,小白乐呵呵地放弃加班赶到约定的饭馆。

园园还是真准时出席,不愧是做学术研究的。两人坐定要了吃的后,园园开口了:“这么快就把数据弄好了,这要我如何谢你呢?”

“别着急谢呵!我把数据的前几千行捣腾出来了你先看下,是不是符合你的需求。”

说话间小白掏出码农必备的随身装备,笔记本。屏幕亮起处,长串的字符闪烁。

“乱,怎么这么乱呢?”园园惊叫道。

“点错了,错了,这个是爬下来的原始数据,都是一堆字符串。在它身上跑个程序就能提取出用户信息。”

“啊?这样子的,大数据看来真不是谁都能轻易玩转的。数据虽然便宜,但光收集和整理却要能堆码才能开始。那分析起来岂不是要码功了得才行。难道我们经济学这么阳春白雪的行当也要从堆码干起?郁闷!”

“那也不一定不是,找个好帮手也行。”小白面带骄傲地说。

“咦,有道理啊,要不你好人做到底,帮我把原始数据整理个表格。我想想啊。每个用户一行是必须的。第一列是……”

“我都帮你想好了。你不是要研究转发和点赞吗,刚才这个文件打开错了,我下班前抽了八小时把数据整理了一下。这个格式你看怎么样?”小白说着又打开了另一个文件(公司老板从监控摄像头里投来了狰狞的微笑)。

“真的是每个用户一行,都想到我心里去了。我再看看,有性别,地区,年龄等各种用户信息,外加原创和转发的所有微博。真是太全了。”

“那就好,回头我把数据传给你,我们专心吃饭吧。”

“嗯。不过怎么这么奇怪,绝大多数用户都是纯转发啊?”

“我猜是大多数人都缺乏原创精神吧。”

“不会吧,又不是写小说,我认识的朋友大多数都会不时地发点吃这个好吃的啦,看到哪个明星啦,抒情牢骚晒恩爱之类的。”

“也是啊,难道这些用户不是人?”

“这话说的,不是人是什么?”

“哎呀,这些还真可能是不是人。你听说过微博上卖粉的吧。”

“他们养无数的僵尸粉,看来我们是掉僵尸碓里了。养尸的让他们互粉,爬虫爬着爬着就绕到他们的圈子里了,很难再返回人间了。”[1]

“哈哈,那我用这数据岂不是可以写僵尸经济学的论文了,独此一家,打假包换,看来大数据也不是包治百病。”


[1]“僵尸粉”就是不活动的微博用户,通常无头像无内容无粉丝。一般来说,“僵尸粉”或者是网络公司注册来买卖给用户充粉丝数量的,或者有些公司干脆搞来自己用的,刷转发什么的。还有一种,人家就是注册了进来看微博的,没打算自己写。这个不是很好区分,也不是很好控制。http://www.baike.com/wiki/僵尸粉

[*] 原文同时发布在: 《白云书园》之数字时代(二五) http://wp.me/p5Da4b-3Q

本文链接:《白云书园》之数字时代(二五)
本站文章若无特别说明,皆为原创,转载请注明来源:火光摇曳,谢谢!^^


火光摇曳

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*