接“西安房价在下个月内什么地方最值得买?——上篇” 。上回我们说到选择对价格影响最大的特征 。只说了房源的数据 , 这回我们接着说楼盘的数据 。
第三步:选择对价格影响最大的特征 3.2 楼盘的处理
我们像上节一样先分析数据 , 然后用一些特殊的方法去选择特征 。
3.2.1 均价的总体情况
sns.set(color_codes=True)sns.distplot(loupan['average'], fit=stats.t);fig = plt.figure()res = stats.probplot(loupan['average'], sparams=(10,0),dist=stats.t,plot=plt);
文章插图
我们还是观察和生成的图像:
文章插图
我们可以看出这个均价几乎完美符合t分布 。但是很显然它线性拟合地不好:
文章插图
这里算出的偏度是:2. 。说明数据右偏 , 且不是很符合正态分布了(绝对值超过2 , 就不是正态分布了) 。这也侧面证明了我们上面调参调出来的t分布的正确性 。
峰度是:9. 。说明我们的分布比正态分布要陡峭 。这一点从图中也能看出来 。9.5左右不是很大 , 所以我们的数据相对集中 , 取得极端值的概率小 。
【西安房价在下个月内什么地方最值得买?——中篇】在实际的问题中 , 数据一般都不会是线性的 , 非线性的居多 , 所以在后面我们建立模型来预测房价时 , 要建立非线性的模型 。3.3 特征的选择
3.1节我们把影响房源总价的特征选出来了 。现在我们不用画图 , 用一些特征选择的方法来选择影响楼盘均价的特征 。因为一共有10几个特征 , 画图虽然直观但是速度不快 。
一般提取特征有三种方法:
这里 有一个基于鸢尾花数据集的特征选择的实例 , 感兴趣的小伙伴可以去看看 。
- 我国陆地面积最大的自治区,特别适合自驾,现已成为网红旅游地 新疆在我国多少年历史之最
- 潮汕土楼围寨群:藏在“潮闺”数百载,“遗落之境”焕光彩 饶平县三饶历史文化之最
- 书林文学*,书林文学为什么不弄*小说,有人知道吗
- 帕卡台风
- three.js初学之简单地月旋转
- 土耳其的首都在哪里
- 庞统在三国谋士中有一点是其他人都比不了的!
- 七公江湖烧烤加盟
- 吃在上海
- 世界上最孤独的岛屿,船员们烧毁船只,世代居住在岛上,风景原始 世界之最孤独