被删除的微博,未消失的数据

徐翰

微博自2010年国内问世以来,三年期间已经成长为拥有近3亿用户、平均每分钟发布7万条信息的社交媒体平台。面对众多鱼龙混杂的信息,对微博的审查则是令人头疼的问题,费时、费力且不讨好,似乎一点乐趣都没有。但在数据科学家看来这让人兴奋,审查者专注于删除那些被认为是不合适的微博,保留其他的微博的行为特征类似于剪纸——剪掉了不必要的部分,但是被剪掉部分的形状则让人一目了然。微博也许被删掉了,但从统计意义上看,数据并未消失。

关于微博小秘书

莱斯大学的Dan Wallach今年发表了关于微博小秘书们的研究。他认为汉字不同于基于拉丁字母的表音文字,过于艰深晦涩,再加上中国互联网层出不穷的各种“火星文”、密码符号文,因此“删除微博”这项“生产活动”无法不涉及人工、实时的方式,且须以每分钟50条的“产能”运作,才能达到目前的“产量”,通过进一步测算得知这也就是每8小时需要至少1400人;采取“三班倒”的制度,每天需要大约4200人,这是Dan的估计。如果实际情况没有这么多小秘书的话,则反过来意味着,删微博是“自动化工具+人工”的方式,基于目前信息,数据科学家们倾向于后一种结论,认为微博小秘书的合理人口数量大约在1000人左右。

关于“一转没”用户

Dan Wallach基于被动删除的微博数据样本,认为微博审查的确并非针对所有人。他们通过跟踪收集数据,找到了微博上的3500个“一转没”用户,其合计被删除微博平均达到每天4500条,占整个微博被删除量的12%,这些用户由于“劣迹斑斑”因此遭到高于平均的审查强度。值得注意的是,目前的数据样本并未包括那些因为内容而未能成功发布的微博,还有更多的微博是“胎死腹中”的。90%的微博删除是在发布后24小时内,在发布后5-10分钟内是删除高峰,而哈佛大学Gary King的研究结果也给出了类似结果,并且King认为一些微博的删除甚至比起相关事件公开结果的出现要提早很多天。

总之,微博也许被删除了,但正如一切人为行为都难逃雕琢痕迹一样,微博中的数据和信息并未随着被删除的微博而消失,而这些数据和信息有时候包含较为重大的内容。也许小秘书们在辛勤删除的同时,还需要注意自己的删除行为本身所泄漏的关于国家政治动向和重大事件的秘密,或是直接提供对近期事件的预测。也许微博小秘书们打个喷嚏,美国或欧洲各国政府就都懂了。

比如,每天微博删除的低谷是哪个时间段?答案是大约每天七点左右,你懂的。

 其它落款