《机器学习体系规划》是一本不错的机器学习实战入门的书本。第一章介绍了用于机器学习的Python相关东西,接下来分别用实战型比方讲解聚类、分类、回归、模式识别、降维等机器学习的首要的几种办法。
机器学习便是教机器自己来完成使命,机器学习的方针便是经过若干示例让机器学会完成使命。
像其他工程相同,规划一个机器学习体系作业一般花在一些极端一般的使命上:
(1)读取和清洗数据;
(2)探究和了解输入数据;
(3)剖析怎么最好地将数据呈现给学习算法;
(4)挑选正确的学习算法和模型;
(5)正确地评价功用。
分类是一种监督性学习(需求样本进行练习),书中第二章从最简略的肉眼调查办法,讲到K附近算法和分类树办法。
聚类是一种无监督学习,书中第三章一种比较典型的聚类办法——K均值(质心移动法)。
主题模型不同于聚类,而是把方针放入几个组(叫做主题)中。
分类、聚类和主题模型是干流的机器学习模型,是机器学习的基础知识,只要融会贯通这些基础知识才能在遇到更有应战性地问题时能见招拆招。
规划机器学习体系免不了要对体系进行进步,我本根本有如下挑选:
(1)添加更多数据:或许咱们没有为学习算法供给满足数据,因而添加更多的练习数据即可。
(2)考虑模型杂乱度:或许模型还不行杂乱,或许现已太杂乱了。例如在K附近算法中 ,咱们能够下降K值,使得较少的近邻被考虑进去,然后更好地猜测不滑润数据。咱们也能够进步K值,来得到相反的成果。
(3)修正特征空间:或许咱们的特征调集并不好。例如,咱们能够改动当时特征的规模,或许规划新的特征。又或许,假如一些特征和别的一些特征是别号联系,能够删去一些特征。
(4)改动模型:或许XX算法并不合适咱们的问题,不管咱们让模型变得有多杂乱,不管特征空间会边得多负杂,它永久也得不到杰出的猜测成果。
逻辑回归是一种分类办法,当他处理根据文本的分类使命时,功用十分强壮。
朴素贝叶斯是一种分类办法,或许是最优美的有实践功效的机器学习算法之一了,虽然姓名叫做朴素,可是当你看到其分类的实践效果时,你会发现并不是那么朴素。他对无关特征的处理才能十分强悍,无关特征会被自然地过滤掉。用它进行机器学习和猜测的时分,速度都十分快,并且并不需求很大的存储空间。(之所以称作朴素,是由于有一个能让贝叶斯办法最优作业的假定:一切特征需求彼此独立。而实践使用中,这种状况很少呈现。虽然如此,在实践中,即便在独立假定并不建立的状况下,他依然能到达很高的正确率。
关回归猜测模型中首要介绍a kind old method——一般最小二乘法回归(Ordinary Least Squares,OLS)。有时分为了防止过拟合用到了岭回归、Lasson法和弹性网(他们是最前沿的回归办法)。
Apriori算法在形式上会将一些调集当作输入,并回来这些调集中呈现频率十分高的子集。Apriori的方针便是寻觅一个高支撑度的项集。其处理的经典问题是购物篮问题(发掘购买A的人或许还会购买什么)。当然,购物篮问题也能够尝试用根据概率的相关规矩发掘办法。
涉及到语音、音乐等样本的机器学习体系则略显不同,由于他们的描绘值并不是那么显着(比方花朵分类问题中,对特征的描绘花瓣数量、花朵色彩等都比较清晰),而关于一段长3分钟的MP3歌曲,明显咱们不能用MP3数据的每一bit来表明。书中介绍了一种根据音乐频率的分类办法(FFT)——一种能够从音频中提取频率强度的办法(快速傅里叶变换)。可是FFT仅仅是一个方向,却正确率不高!其实关于音乐分类现已有人遇到相同的问题,并成功处理了,乃至有一个每年举行的会议专门用来处理音乐分类问题。这个安排是由音乐信息检索世界协会(ISMIR)安排的。很显着主动音乐体裁分类是音乐信息检索的一个子范畴。在AMGC中一个使用比较多的音乐体裁分类办法便是梅尔倒频谱系数(MFCC)技能。梅尔倒频谱(MFC)会对声响的功率谱进行编码,它是经过对信号谱的对数进行傅里叶变换得到的。
而涉及到图画、视频的机器学习体系则又和之前不同,这方面乃至直接独立出来独自研讨。