一、多元回归
1、概述:
在研讨变量之间的相互影响联系模型时分,用到这类办法,具体地说:其可以定量地描绘某一现象和某些要素之间的函数联系,将各变量的已知值带入回归方程可以求出因变量的估计值,然后可以进行猜测等相关研讨。
2、分类
分为两类:多元线性回归和非线性线性回归;
其间非线性回归可以经过必定的改变转化为线性回归,比方:y=lnx 可以转化为y=u u=lnx来处理;
3、 留意事项
在做回归的时分,必定要留意两件事:
(1) 回归方程的显著性查验
(2) 回归系数的显著性查验
查验是许多学生在建模中不留意的当地,好的查验成果可以体现出你模型的好坏,这点必定要留意。
二、聚类剖析
1、概述:
聚类剖析指将物理或笼统目标的调集分组为由相似的目标组成的多个类的剖析进程。
2、分类
聚类主要有三种:
(1) K均值聚类
(2) 体系聚类
(3)二阶聚类
类的间隔计算办法:
(1) 最短间隔法
(2) 最长间隔法
(3) 中心间隔法
(4) 重心法
(5) 类均匀法
(6) 可变类均匀法
(7) 可变法
(8) 利差均匀和法
3、留意事项
在样本量比较大时,要得到聚类成果就显得不是很简单,这时需求依据布景常识和相关的其他办法辅佐处理。
还需求留意的是:假如整体样本的显著性差异不是特别大的时分,运用的时分也要留意!
三、分类
1、概述
分类是一种典型的有监督的机器学习办法,其意图是从一组已知类别的数据中发现分类模型,以猜测新数据的不知道类别。
这儿需求阐明的是:猜测和分类是有差异的,猜测是对数据的猜测,而分类是类别的猜测。
2、常用分类模型:
(1)神经网络
(2)决策树
3、留意事项
A. 神经网络适用于下列状况的分类:
(1) 数据量比较小,短少满足的样本树立数学模型
(2) 数据的结构难以用传统的计算办法来描绘
(3) 分类模型难以表明为传统的计算模型
B. 神经网络的长处:
分类准确度高,并行散布处理才能强, 对噪声数据有较强的鲁棒性和容错才能,可以充沛迫临杂乱的非线性联系,具有联想回忆的功用等。
C. 神经网络缺陷:
需求很多的参数,不能调查中心学习进程,输出成果较难解说,会影响到成果的可信度,需求较长的学习时刻,当数据量较大的时分,学习速度会限制其使用。