二 机器学习之加州房价预测( 二 )


另一种查看相关性的办法就是画图更加直观,采用的 。如果我们有11中特征,那么我们就会有11*11=121个图 。
让我们来看一下房子的价值和平均收入之间的关系:
从图中我们可以看出这么几点:1.二者的相关性确实很强,房价随着收入的升高而增加;2.在$50000的地方,有很明显的断层;
除了我们已知的在美元处的直线,我们还发现其他位置也存在类似的现象 。因此在使用数据时,应该考虑把这些位置的数据去掉 。
添加新特征
通过检查 和相关系数,我们发现一些属性确实和房价密切相关 。我们还可以尝试一些数据组合,看看是否能发现一些新的特征 。
我们把rooms per ,per room,per 加入数据特征中,再次查看一下数据的相关矩阵:
很好,通过观察加入新特征之后的相关性表现,我们发现:
与房间或卧室的总数相比,新的“卧室/房间”属性与房屋中值的相关性更大 。显然,卧室/房间比率较低的房子往往更贵 。每户家庭的房间数也比一个地区的房间总数更具信息量显然,房子越大,价格就越高 。