中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

“烂数据只会产生烂模型”,这种观念合理吗?

 蚂蚁搬运工

下载贤集网APP入驻自媒体

最近看到有人说“烂数据只会产生烂模型”,乍看之下很有道理,但其实是似是而非的。什么叫“烂数据”?在大数据时代,追求“样本等于母体”,也就是各种结构性、非结构性数据尽可能全部搜集,在分析时,在软硬件等技术条件允许下,也是尽可能对全样本进行分析。

数据在一开始就被设定“大而全”的搜集与保存,那么何者该被认为是“烂数据”?既然是“烂数据”又为何一开始就要去搜集、保存呢?


从大数据的理论角度來看,我认为不存在“烂数据”的问题,只有这些海量数据你用不用的上,如何去用,会不会用的问题。这里面牵涉到分析者的逻辑思维方式,设定条件的假设能力,是否熟悉各种分析技术与工具的能力等等。

辛苦搜集來的数据,大部分用不上,这不能说它们是“烂数据”,只能说自己暂时用不上。甚至,从另一角度來看,可能分析者受限于专业知识、对运营实务层面的了解深度以及分析技术能力等方面的不足,所以无法从庞大的数据里提煉出有价值的信息,或是建立更有效的模型。

"模型”是人为的,“数据”无辜 !

最新回复

还没有人回复哦,抢沙发吧~

发布回复

为您推荐

热门交流