雅加达—海事和投资部长卢胡特·宾萨尔·潘贾伊坦(Luhut Binsar Pandjaitan)提交的大数据,作为他声称该国大多数网民目前希望推迟选举的正当理由,应该受到质疑。
不仅因为Luhut不想透露他声称包含1.1亿社交媒体用户声音的大数据内容 ,还因为数据如何以各种方法进行解释和测试,以便得出的结论是正确的。例如,如果如果选举推迟,印度尼西亚的大多数网民会更加同意,则得出一个结论。
瑞士德国大学数据挖掘课程讲师Alva Erwin表示,在对大数据下结论时必须小心谨慎。
"我们不应该只从一个来源得出结论。在研究方法中,最好做交叉检查,"欧文说。"理想情况下,结论应该从多个来源得出,以便其准确性是可以接受的。
在卢胡特的案例中,他是如何从据称拥有的大数据中得出结论的,也不清楚,因为部长不愿意进一步解释他拥有的数据。
"我认为,在匆忙下结论时,大数据也需要得到验证。我不知道他(卢胡特)匆忙下结论的方法是什么。但所有这些都应该进行验证和交叉检查,"欧文说。
只是不幸的是,Luhut也从未解释过大数据及其结论是否已经得到验证。
根据Erwin的说法,大数据本身就是一个大型数据集,因此很难用拥有的基础设施进行处理。大数据的特点是四个,体积、速度、多样性、真实性。
如果数据非常大且难以处理,则数量是多少。速度,因为数据本身出现时的速度。多样性是一种复杂的数据类型。真实性, 数据的真或不正确元素。还有,数据是 结构化的,半结构化的和非 结构化的。
"没有明确的衡量这种大数据的规模。一组数据,如果很难用拥有的基础设施进行处理,那么它可以被认为是大数据,"欧文说。
这些大数据可以在社交媒体,Twitter,Facebook,Instagram等的对话中获得。同样,在线媒体、广播、电视和评论中的新闻数据可以成为大数据的来源之一。
"我不知道卢胡特先生从哪里获得大数据,也许他有一个团队和社交媒体 。但是在 匆忙得出结论时,应该进行交叉检查,以便更准确,并且可以解释其有效性,"欧文说。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)