之所以特别强调这一难题,源于在城市交通大统计数据应用领域研究中所发现的难题。这儿所谓处置方法论,涉及统计重要信息处置赢得特点值的处置准则和假定。
事实上,城市交通大统计数据挖掘所赢得的一些特性特点并非依据“间接重要信息”完成系统分析后获得的重要信息,而是经过假定所赢得的“间接重要信息”。在传统的城市交通进行调查中,住地、组织工作地、乘车、乘车目的等,均是居民乘车进行调查所赢得的间接重要信息。但在借助终端通信等统计数据所赢得的这些特性特点,是统计数据挖掘师在某些假定的基础上,透过假定而获得的。比如,住地一般是借助一段天数内夜间逗留处所的次数和时数推测而来,组织工作金泽尔透过用户在组织工作天数内空间逗留处所的规律推测而来。表面来看,此种推测似乎是方法论正确的,但事实上当中却存有很多圈套。比如,无论中国联通或是终端的手机统计数据,都存有按照省来进行统计重要信息处置的情形(只不过中国联通跨区统计数据具备保持子代ID连续性的可能性,而终端统计数据至少现阶段很难做到跨区ID连续性跟踪),即存有计划单列市边界线腹满或是截断后连接的难题。这时的处置准则假如不能与乘车特点相符合,将再次出现在计划单列市边界线子代公益活动异常增多的情形。还有,在城市内部城市交通的大统计数据挖掘中,常常将子代在某一区域(地理单点)逗留超过很大天数共振频率定义为在这儿造成了一场公益活动,即辨识为“公益活动点”,以区别于“行经点”,但在经济圈的壳状分析中,子代会在对外城市枢纽逗留很大天数,这类公益活动点是城市间壳状中的一种特定“公益活动”,事实上是一场城铁乘车中的特定逗留,而不应将其辨识为两次乘车。再有,辨识住地和组织工作地的统计数据天数长度是否一致,假如拿半年或是一年的统计数据辨识住地,拿当中一个月的统计数据辨识组织工作地,常常再次出现对具备很大壳状性的进城务工的职住关系错判(我们在珠三角城市群的有关统计数据挖掘中曾经再次出现不可否认的上海与皖北地区间的职住联系科创,假如是由于此种原因所造成)。
正因为存有上述之类的难题,因此在城市交通大统计数据挖掘中就再次出现了用于假定的准则、或是称为统计重要信息处置方法论,会对特点特性造成极大影响的情形。在现阶段的城市交通大统计数据挖掘中,普通用户与统计数据挖掘师间缺少对统计重要信息处置方法论的约定,进而再次出现协同障碍。须要再次特别强调,城市交通大统计数据的处置准则或是处置方法论,是一个须要在普通用户和统计数据挖掘师间予以明晰的组织工作“介面”。在没有建立有关标准之前,统计数据挖掘师假如为此做出明晰的说明,只有这样才能够赢得可靠统计数据。
城市交通大统计数据应用领域中的另一个难题是统计数据应用领域方法论,这是指在赢得可靠统计数据后如何有效予以使用,进而真正将大统计数据资源转化为决策能力提升的难题。为此将在后续推该文予以讨论。