Tony 发布的文章

决策树(ID3)算法的实现和运用


  决策树简单来说是一种可用于问题判定的树形结构。如下图,就是一个决策树: 1.png

  椭圆表示终止模块,矩形表示判断模块,箭头称为分支。决策树虽然看起来简单,但在数据挖掘,人工智能等领域有着广泛应用。这里介绍的决策树称为ID3,它无法直接用于处理数值型数据。

  算法分析   优点:复杂度不高,对中间值缺失不敏感,可处理不相关数据   缺点:会产生过度匹配问题   适用数据类型:标称型

  要构造决策树,很重要的一步就是划分数据集。为了找到决定性特征,必须对每一种特征进行评估,并对原始数据集进行划分,划分后的子集分布于第一个决策点的所有分支上,如果某分支下的数据属于同一类型,则无需进一步划分,否则重复划分直至相同。那么,划分数据集的原则是什么呢? 将无序数据变得有序。这里涉及到信息熵的概念,详细介绍可以参考信息熵,这里我们只需要知道计算公式:H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)


kNN算法的实现和运用


kNN就是k-近邻算法,它的工作原理是:存在样本数据集,且样本中每个数据都有标签。在输入没有标签的数据后,将新数据的特征与样本进行比对,可以从样本中提取出最相似数据的标签。一般来说,只选取样本中前K个最相似数据(一般k<20)。最后,选取k个最相似数据中出现最多次的分类,作为新数据的分类。

算法分析 优点:精度高,对异常值不敏感,无输入假定 缺点:空间和计算复杂度高 适用数据:数值型和标称型

Python实现:


使用Cloudera搭建Hadoop开发环境


  由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。   当然你也可以选择自己下载hadoop源码进行安装hadoop下载,最新版本已经到2.7,建议的安装环境是Ubuntu和CentOS,安装过程可以在网上找到很多参考,这里就不介绍了。   这里我使用Cloudera公司提供的虚拟机(VMware和VirtualBox版本都有),可以很便捷地搭建hadoop开发环境,毕竟我们的主要目的是学习hadoop,不应该把太多时间浪费在环境的配置上。cloudera-quickstart-vm的下载地址是下载链接。选择你需要的版本下载,我用的是VMware,压缩包大小有4G左右,解压后用VMware打开,将CPU改为4个,内存调为8G(你的本机内存不应该小于8G).运行后是一台配置好的CentOS虚拟机,可以很轻松地在上面开发运行Hadoop.


如何安装cuDNN


  cuDNN是英伟达针对CNN(卷积神经网络)推出的一个库,据说可以对CNN过程进行加速,既然这么好,不妨试用一下。下载地址是链接,需要先注册,然后按步骤选择平台下载,现在有v3和v4版本,可以根据你的CUDA版本选择。我选择的是cuDNN v4 Library for Windows。当然也有一些Sample可以下载。   下载后解压得到一个cuda文件夹,可以先将它放到任意位置,比如我放在D盘根目录。   1.然后设置环境变量,将D:\cuda\bin(取决于你的文件位置)添加到系统变量的Path中。   2.用VS新建一个cuda项目(前提是你的CUDA配置完成)。   3.设置项目属性:


为什么我们需要读《黑客与画家》


  《黑客与画家》其实就是硅谷创业之父paul graham的文集,初看书名你可能会疑惑:黑客与画家究竟为什么能够并列。但是当你细细翻阅这本书后你可能会有自己的结论。   首先说说作者保罗·格雷厄姆,从青年开始接触编程,经历了从哲学到计算机然后创业的丰富人生,无疑他是成功者的代表,但不仅限于此,他将成功分享,以自身经验帮助更多人,成为了如今的互联网创业教父级人物,这也奠定了他文章的深厚内涵。

                (一) 黑客是什么

  在书的开始就解释了为什么书呆子不受欢迎,这或许也是作者对自身经历的深刻的感悟,这里说的“书呆子“不是指思想刻板的人,而是那些沉浸在自身领域中的聪明人,社交固然能让人与集体融洽,但某些天才却因为种种原因遭到排斥,我们唯一能做的就是相互尊重,让所有人和谐共存。