回归算法 _神经

参考：
第一部分：机器学习回归算法 1. 机器学习概述
数据挖掘：大规模机器学习算法去计算用户情况
计算机视觉：无人驾驶汽车
推荐算法
……
预测样本->特征抽取（转换成计算机能够理解的数据，重要！提取特征）->学习函数->预测
实用工具：Numpy科学计算数据分析数据可视化 -learn机器学习
2. 回归算法
监督学习（有标签）、无监督学习（无标签）
回归：要预测出一个具体的值！就是回归问题，比如银行根据你的具体情况判断能借你多少额度
分类：结果是类别，比如银行能借钱不能借钱
学习就是学权重参数，来判断每个数据的权重大小，就是每个数据对结果的影响程度
每个x前面乘以一个θ作为权重，让x对结果的影响处于一个正确的位置，
令x0=1，θ0x0+θ1x1+θ2x2 =θ0+θ1x1+θ2x2，那么就可以把他们写成矩阵相乘形式了
就是[θ0,θ1,θ2]*[x0,x1,x2]相当于wx（这里的w和x都是矩阵向量的形式）
这里额度是标签，工资年龄都是样本数据
3/4. 线性回归误差
就是说，本来是y=θx，但是呢，有时候，真实值不可能刚刚好是θx算出来的值，可能偏大偏小，所以我们要加一项偏置bias，这样预测才会准一点
那么偏置具体要是多少才ok呢？首先，bias是独立同分布的，因为每次的预测样本不会互相影响所以是独立的。然后一般离散的样本数据够大就是服从高斯分布（就是正态分布）
那么怎样的高斯分布好呢？我们就要调整这个bias，让所有值的偏离基本服从均值为0方差为θ平方的高斯分布。
那么，怎么求bias呢？
我们通过已知条件“偏离基本服从均值为0方差为θ平方的高斯分布”，可以得出以下式子，开始化简！
第一个式子：p() 就是高斯分布，均值μ等于0所以不写。
第二个式子：用左边的式子化出（e = y-θx）带入第一个式子，得到第二个式子，就化掉了所有，然后就变成了p与y/x/θ的关系了，即什么样的θ和x组合完之后，越接近y的概率
概率越大越好了（因为带进去的是y-θx，这个表示的就是y和θx的距离，y和θx的距离越小，越接近，y-θx就越小，前面加了个负号，就是相当于整个括号值越大，也就相当于整体越大，这样就说明，整体越大概率越大，距离越小，误差越小）
第三个式子：似然函数：
在数学中，符号“∑”和“Π”分别用来表示求和与求积。把每一个x累乘起来
似然函数L(θ)越大，说明整体概率越大，越大越好
（不是看的很懂似然函数为什么要累乘）
累乘不好算，用对数把乘法变成加法--->对数似然函数
如何求J(θ)最小值？
θ已经知道了，我们最早有这个式子
那么式子里现在只剩下我们想要的和已知的数据X和标签Y了！可以求出来bias了！
5. 逻辑回归回归
函数：可以把一个值映射成0-1之间的概率
把连续值变离散型？一个值比如说24，映射到函数是0.3，那么我们假设50%以下就是概率太低不可能的意思，那么我们就知道这个值是false；比如映射后概率是0.6，那么就是true 。
------------>逻辑回归其实是一个分类的算法，二分类问题
细节可看：【机器学习】逻辑回归（非常详细） - 知乎 ()
6/7. 梯度下降
这个J(θ)就是损失函数啦！
我们需要求损失最低，那么遍历所有值找到最低点那太麻烦啦！所以我们使用梯度下降
损失最低就是损失函数最小了（θ不确定的时候，其实是有很多个损失函数的，我们要找到那个最小的损失函数，xy都是固定的变量，我们只要确定θ，得到一个让整体都变得最小的那个损失函数，因为这个已经有四个变量了x,y,θ0,θ1所以不好解释这个找到最小的损失函数这一说。。。总之不能从xy那边找最小，因为那是样本数据，我们就要确定θ，机器学习里就是在求权重参数的过程，xy其实是已知值，就是全部x向量和y向量自己和自己加一起）