《数据挖掘:概念与技术》读书笔记(二)

大数据 2017-08-27

  1. 如何评价数据质量:可用于评估数据质量的特性包括:及时性,可信度,增值性,可解释性和可访问性。

  2. 如何处理缺失的元组(值):忽略;填充;使用全局常量替代;对分类使用定量值;对同类样本给予相同值;使用最可能的值替代。
  1. 数据集成需要注意的问题:(1)模式集成:必须集成来自不同数据源的元数据,以匹配相当的实际。这被称为实体识别问题。(2)处理冗余数据:派生属性可能是冗余的,属性命名不一致也可能导致结果数据集中的冗余。可能发生元组级别的复制,因此需要检测和解决。(3)数据值冲突的检测和解析:表示,缩放或编码的差异可能会导致正在集成的数据源中相同的真实世界实体属性值不同。

  2. 处理数据库脏(异常)数据方法:
     begin for each record r
            begin check r for missing values
            If possible, fill in missing values according to domain knowledge (e.g. mean, mode, most likely value, etc.).
            check r for out of range values
            If possible, correct out of range values according to domain knowledge (e.g. min or max value for the attribute).
            check r for erroneous data types
            If possible, correct data type using domain knowledge If r could not be corrected, mark it as bad and output it to a log, otherwise load r into the database.
            end
            end  

本文由 Tony 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

赏个馒头吧