当前位置: 首页 > >

机器学*实战+源代码

发布时间:


1. 内容提要

本书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的 Python 代码阐 释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学*算法,并将其运用于某些策略性任务中,如分类、预测及推荐等。本书适合机器学*相关研究人员及互联网从业人员学*参考。


本书没有从理论角度来揭示机器学*算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果”来介绍每一个算法。这本书的最大好处就是边学边用,非常适合于急需迈进机器学*领域的人员学*。实际上,即使对于那些对机器学*有所了解的人来说,通过代码实现也能进一步加深对机器学*算法的理解。本书的代码采用Python语言编写。Python代码简单优雅、易于上手,科学计算软件包众多,已经成为不少大学和研究机构进行计算机教学和科学计算的语言。相信Python编写的机器学*代码也能让读者尽快领略到这门学科的精妙之处。


2. 本书结构

本书由四大部分15章和4个附录组成。


第一部分 分类


本书并没有按照“数据挖掘十大算法”的次序来介绍机器学*算法。第一部分首先介绍了机器学*的基础知识,然后讨论如何使用机器学*算法进行分类。第2章介绍了基本的机器学*算法:k-*邻算法;第3章是本书第一次讲述决策树;第4章讨论如何使用概率分布算法进行分类以及朴素贝叶斯算法;第5章介绍的Logistic回归算法虽然不在排名前十的列表中,但是引入了算法优化的主题,也是非常重要的,这一章最后还讨论了如何处理数据集合中的缺失值;第6章讨论了强大而流行的支持向量机;第7章讨论AdaBoost集成方法,它也是本书讨论分类机器学*算法的最后一章,这一章还讨论了训练样本非均匀分布时所引发的非均衡分类问题。


第二部分 利用回归预测数值型数据


第二部分包含两章,讨论连续型数值的回归预测问题。第8章主要讨论了回归、去噪和局部加权线性回归,此外还讨论了机器学*算法必须考虑的偏差方差折中问题。第9章讨论了基于树的回归算法和分类回归树(CART)算法。


第三部分 无监督学*


前两部分讨论的监督学*需要用户知道目标值,简单地说就是知道在数据中寻找什么。而第三部分开始讨论的无监督学*则无需用户知道搜寻的目标,只需要从算法程序中得到这些数据的共同特征。第10章讨论的无监督学*算法是K-均值聚类算法;第11章研究用于关联分析的Apriori算法;第12章讨论如何使用FP?Growth算法改进关联分析。


第四部分 其他工具


本书的第四部分介绍机器学*算法使用到的附属工具。第13章和第14章引入的两个数学运算工具用于消除数据噪声,分别是主成分分析和奇异值分解。一旦机器学*算法处理的数据集扩张到无法在一台计算机上完全处理时,就必须引入分布式计算的概念,本书最后一章将介绍MapReduce架构。


示例


本书的许多示例演示了如何在现实世界中使用机器学*算法,通常我们按照下面的步骤保证算法应用的正确性:


(1)?确保算法应用可以正确处理简单的数据;


(2)?将现实世界中得到的数据格式化为算法可以处理的格式;


(3)?将步骤2得到的数据输入到步骤1的算法中,检验算法的运行结果。


此外,本书在实现算法的过程中,记录了很多注意事项,将有助于读者深入了解机器学*算法。


3. 目录


5. 代码示例

def classify0(inX, dataSet, labels, k):????dataSetSize?=?dataSet.shape[0]????diffMat?=?tile(inX,?(dataSetSize,1))?-?dataSet????sqDiffMat?=?diffMat**2????sqDistances?=?sqDiffMat.sum(axis=1)????distances?=?sqDistances**0.5?? sortedDistIndicies = distances.argsort() ????classCount={}????for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0]

扫描下方二维码,关注机器学*AI工场公众号,获取本文下载链接,请后台回复:机器学*实战



?长按识别,关注机器学*AI工场


? ?本文涉及到的资源仅供学*参考,?如有侵权请联系删除!



友情链接: