《数据挖掘:概念与技术》读书笔记(二)


  1. 如何评价数据质量:可用于评估数据质量的特性包括:及时性,可信度,增值性,可解释性和可访问性。

  2. 如何处理缺失的元组(值):忽略;填充;使用全局常量替代;对分类使用定量值;对同类样本给予相同值;使用最可能的值替代。


《数据挖掘:概念与技术》读书笔记(一)


  1. 基本概念:数据挖掘是指从大量数据中提取或“挖掘”有趣的知识或模式的过程或方法。数据挖掘是由于广泛的数据可用性以及将这些数据转化为有用的信息和知识的需求产生的。因此,数据挖掘可以被视为信息技术自然演进的结果。数据挖掘不仅仅是数据库统计学机器学习技术的简单转换。相反,数据挖掘涉及数据库技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图像和信号处理等多个学科,而不是简单的转换。数据库技术开始于数据收集和数据库创建所带来的开发数据管理的有效机制,包括数据存储和检索,以及查询和事务处理。最终提供查询和事务处理的大量数据库系统自然导致了对数据分析和理解的需求。数据挖掘的过程可分为(1)数据清洗 (2)数据组成 (3)数据选择(4)数据转换(5)数据挖掘(6)模式评估(7)知识表示