芒果体育

芒果体育官方

芒果体育数据发掘(31)--频仍项集发掘方式

  最小撑持度便是说当撑持度到达必定的阈值后某种数据才有被发掘的后劲这个阈值便是最小撑持度计数(min_mouthful)。

  首要有具体来讲几个步调起首经过扫描数据库堆集每一个项的计数并搜集满意最小撑持度的项寻得频仍1-项集的聚集(该聚集记做L1)。而后L1用于找到频仍2-项集的聚集L2使用L2再找到L3如斯坚持下去直到不克不及再找到频仍k-项集为止。

芒果体育数据发掘(31)--频仍项集发掘方式(图1)

  FP-gbedth算法首要采取以下的分治战略起首将供给频仍项的数据库紧缩到一个频仍形式树FP-tree)但仍保存相干讯息芒果体育官网手机APP下载而后将紧缩后的数据库区分成一组前提数据库每一个联系关系一个频仍项或“形式段”并划分发掘每一个前提数据库。

  (1扫描事件数据库D一次。搜集频仍项聚集E和它们的撑持度计数对F依照撑持度计数降序排序获得频仍项列表L。

  机关FP-tree算法的焦点是append_tree进程。Insert_tree进程是对数据库的一个候选名目集的处置它对排序后的一个名目集的全面名目停止递归式的处置直到名目表为空。芒果体育

  (4)建立一个新节点N将其计数设为1链接到它的父节点T并经过节点链构造将其链接到具备沟通项名的节点。