Luhut Pandjaitan的大数据必须进行交叉检查才能准确
雅加达—海事和投资部长卢胡特·宾萨尔·潘贾伊坦(Luhut Binsar Pandjaitan)提交的大数据,作为他声称该国大多数网民目前希望推迟选举的正当理由,应该受到质疑。
不仅因为Luhut不想透露他声称包含1.1亿社交媒体用户声音的大数据内容 ,还因为数据如何以各种方法进行解释和测试,以便得出的结论是正确的。例如,如果如果选举推迟,印度尼西亚的大多数网民会更加同意,则得出一个结论。
瑞士德国大学数据挖掘课程讲师Alva Erwin表示,在对大数据下结论时必须小心谨慎。
"我们不应该只从一个来源得出结论。在研究方法中,最好做交叉检查,"欧文说。"理想情况下,结论应该从多个来源得出,以便其准确性是可以接受的。
在卢胡特的案例中,他是如何从据称拥有的大数据中得出结论的,也不清楚,因为部长不愿意进一步解释他拥有的数据。
"我认为,在匆忙下结论时,大数据也需要得到验证。我不知道他(卢胡特)匆忙下结论的方法是什么。但所有这些都应该进行验证和交叉检查,"欧文说。
只是不幸的是,Luhut也从未解释过大数据及其结论是否已经得到验证。
根据Erwin的说法,大数据本身就是一个大型数据集,因此很难用拥有的基础设施进行处理。大数据的特点是四个,体积、速度、多样性、真实性。
如果数据非常大且难以处理,则数量是多少。速度,因为数据本身出现时的速度。多样性是一种复杂的数据类型。真实性, 数据的真或不正确元素。还有,数据是 结构化的,半结构化的和非 结构化的。
"没有明确的衡量这种大数据的规模。一组数据,如果很难用拥有的基础设施进行处理,那么它可以被认为是大数据,"欧文说。
这些大数据可以在社交媒体,Twitter,Facebook,Instagram等的对话中获得。同样,在线媒体、广播、电视和评论中的新闻数据可以成为大数据的来源之一。
"我不知道卢胡特先生从哪里获得大数据,也许他有一个团队和社交媒体 。但是在 匆忙得出结论时,应该进行交叉检查,以便更准确,并且可以解释其有效性,"欧文说。