《数据挖掘:概念与技术》读书笔记(四)

大数据 2017-08-31

  1. 决策树分类的主要步骤:(1)树以包含所有训练元组的单个根节点开始。(2)如果元组全部来自同一个类,那么该节点就成为一个叶子,用该类标记。(3)否则,调用属性选择方法来确定分割标准。这种方法可以使用启发式或统计测量(例如,信息增益或基尼系数索引)来选择“最佳”方式将元组分成单独的类。分割标准由分割属性组成,并且还可以指示分裂点或分割子集。(4)接下来,节点标有分割标准,作为节点的测试。分支从节点生长到分裂标准的每个结果,并且元组被相应地分割。这种分区有三种可能的情况:如果分割属性是离散值的,则为属性的每个可能的值生成分支;如果分割属性A是连续值,则生成两个分支,对应于条件A≤分裂点和A>分割点;如果分割属性是离散值,并且必须生成二叉树(例如,如果使用基尼系数作为选择度量),则节点处的测试是“A∈SA”,其中SA是分解A的 子集。它是A的已知值的子集。如果给定元组具有A的值aj,并且如果aj∈SA,则满足节点处的测试。(5)算法递归,为每个分区的元组创建一个决策树。停止条件:(1)如果给定节点上的所有元组属于同一个类,则将该节点转换为叶,并标记该类。(2)如果没有更多的属性可以创建更多的分区,那么可以使用多数来将给定的节点转换成一个叶子,标记为元组中最常见的类。(3)如果给定分支没有元组,则从父节点创建具有多数类的叶。
  2. 剪枝在决策树方法中的作用:构建的决策树可能会超过训练数据。可能有太多的分支,其中一些分支可能会由于噪音或异常值而反映训练数据中的异常。树修剪解决了通过删除最不可靠的分支(使用统计测量)过度拟合数据的问题。这通常导致更紧凑和可靠的决策树在其数据分类中更快更准确。使用单独的一组元组评估修剪的缺点是它可能不代表用于创建原始决策树的训练元组。如果单独的一组元组是偏斜的,那么使用它们来评估修剪的树不会是修剪树的分类精度的一个很好的指标。此外,使用一组单独的元组评估修剪意味着用于创建和测试树的元组较少。虽然这被认为是机器学习的一个缺点,但是由于可用的更大的数据集,数据挖掘可能不是这样。

  3. 朴素贝叶斯分类被称为朴素的,因为它假定类条件独立性。也就是说,属性值对给定类的影响与其他属性的值无关。这个假设是为了减少计算成本,因此被认为是“朴素”的。贝叶斯分类的主要思想是使用后验概率的贝叶斯定理,通过最大化P(X|Ci)P(Ci)(其中i是类的索引)来尝试和分类数据。

  4. 主动分类(例如,决策树,贝叶斯,神经网络)和被动分类(k-最近邻,基于案例的推理),在分类中,主动分类更快,因为它在接收任何新的元组进行分类之前构建一个泛化模型。权重可以分配给属性,这可以提高分类精度。主动分类的缺点是它必须承诺涵盖整个实例空间的单一假设,这可以减少分类,并且需要更多的时间来进行训练。被动分类使用更丰富的假设空间,可以提高分类准确性。与主动分类相比,训练时间较少。被动分类的缺点是所有训练元组都需要存储,这导致昂贵的存储成本,并且需要有效的索引技术。另一个缺点是分类时速度较慢,因为在新的元组需要分类之前,不会建立分类器。此外,属性都是均等加权的,这降低了分类精度。

  5. 基于关联的分类是一种生成和分析关联规则以用于分类的方法。我们首先搜索频繁模式和类标签之间的强关联。使用这样强大的关联,我们分类新的例子。基于关联的分类可以比经典决策树获得更高的准确性,因为它克服了决策树的约束,决策树一次只考虑一个属性,并且使用组合多个属性的非常高的置信度规则。对于文本文档分类,我们可以将每个文档建模为包含与术语相对应的项目的事务。(我们可以预处理数据)我们还将文档类添加到事务中。然后,我们发现形式为term1,term2,...,termk→classi [sup = 0.1,conf = 0.9]的频繁模式和输出规则。当新文档到达分类时,我们可以应用与文档匹配的最高支持度和置信度的规则,或应用CMAR中的规则组合。

  6. Boosting是一种提高分类器精度的技术。我们给出一组S的元组。对于迭代t,其中t = 1,2,...,T,训练集St从S中的替换被采样。将权重分配给训练集内的元组。创建一个分类器,Ct到St,在创建Ct之后,更新元组的权重,以便导致分类错误的元组将有更大的可能性被选择为下一个分类器。这将有助于提高下一个分类器Ct + 1的精度。使用这种技术,每个分类器应具有比其前身更高的精度。最后的提升分类器结合了每个分类器的得分,每个分类器的权重是其准确性的函数。

本文由 Tony 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

赏个馒头吧