天罡的大数据重审工作,是将所有的玩家数据进行挖掘、分析和利用,要将繁杂的大数据变成完备的高质量数据集,以支撑决策,清洗与去噪,十分必要。
诚如蔡鹏予黑进霸领系统,寻找有关莫菲的资料,以及搜查网络,想求些关于这个女人的公开数据,最后,却只得到一些皮毛信息。原始数据的不完整、不一致、异常、重复等等问题,也是在所难免,毕竟,就像更早之前,蔡鹏予跟安雅说的那样,大数据的处理,本来就跟垃圾处理差不多,谁也不可能一下子就在垃圾中掘到宝,面对一座垃圾山,还是得一点点扒拉、分类,才有可能看到其最后的价值。
可,谁来保证大数据的真实性呢?谁又敢说自己没在网络上造过假?
好比林妙妙黑进凌空手机,篡改他的手机型号,简简单单的“障眼法”便可误导算法,从而使机器以为凌空是“好欺负”类型,于是对其大数据杀熟。网络上“噪声”也随处可见,很多时候,倒并不是普罗大众跟林妙妙似的刻意为之,而是,人的本性使然——没有谁,会心甘情愿、毫无保留地将自己完全暴露——这是连动物,都知道的保护自己的法则。
因而有关大数据清洗的工作量就变得十分庞大与不易,加上天罡人手严重不足,10月7日早晨,蔡鹏予带领寥寥数个小伙伴,刚起了个头,就已是千丝万缕地理不清。
更可笑的是忙活了一上午,至饭点,冯贺那边的模型,分类出的“妖人”竟然比正常男女还多!天罡的玩家很多登录名是利用第三方平台,那么大数据在挖掘时,会一并,将其关联账号的内容也一起挖过来,如今是一个信息娱乐化的时代,很多年轻人并不会那么较真地填写资料,如果不是实时定位功能,许多所在地填写“地球”、“阿诺瓦星”的小伙伴,可能会让算法直接哭晕在线也说不定。
而性别分类确实就比较尴尬了,其实最准确的性别分类方法,当然是人脸识别,但天罡游戏,并没有向玩家开通这一功能,当然,即便可以刷脸,如今娘炮众多、女装大佬肆虐,搞不好机器也没那么准确。这样,能够拥有用户身份信息、银行卡信息的大型互联网公司,就让天罡这等屌丝工作室无比艳羡了。此时的网游、端游、手游们还没有要求玩家上传个人信息,故而,一切的基础,都建立在人为地建造算法模型上。
所以冯贺道:“鹏予,咱这是不是叫‘多做多错’?我瞧原来的数据画像感觉还挺精准的,结果重新弄一遍,嘿,越来越乱了!”
凌空抱着脑袋也仰天长叹:“啊……做这个事情太累人了!天呐!赐予我神力,告诉我,到底什么是真?什么是假吧?怎么我每次分析的结果都不一样啊?!”
蔡鹏予本来就心烦着,被这两个人一唱一和,更有些躁得慌,此时人事俞杏儿又跑过来,刚嗲嗲地叫了声:“蔡哥……”
就被蔡鹏予吼住:“干嘛?!”
粗声粗气地一句,登时吓住所有人,程序组、连同离得近的美术组,都把目光投向他,只见蔡鹏予一张脸阴沉沉的,眉宇间显然锁着电闪雷鸣,小伙伴们不知道他的情绪是不是因为工作,但,确确实实,每个人都看得出,他好像要刮台风的节奏!
蔡鹏予平时很少发脾气,即便偶有心情不好,也顶多是提前告知,让小伙伴们不要惹他,这样闷声酝酿暴风雨——
冯贺冲俞杏儿眨眨眼,道:“小俞啊,有什么事下午再说吧,这个点,大家都饿了,要不,先吃饭吧?”