快来一起挖掘幸福感--新人实战--阿里云天池

学习内容概括:
本赛题尝试了幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系 。跟着赛事论坛中的完成比赛 。
学习内容:
特征工程
模型训练
模型融合
特征工程:
数据来源:数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目 。感谢此机构及其人员提供数据协助 。中国综合社会调查为多阶分层抽样的截面面访调查 。
考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类 。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息 。文件为变量完整版数据,abbr文件为变量精简版数据 。
本次特征工程采用的是完整版数据 。
对如下的变量,数据清洗和处理,如果值小于0的,进行填充0处理 。
对如下变量,根据含义,如果值小于0的进行填充1处理 。
对如下变量,根据含义,如果值小于0的进行填充2处理 。
对如下变量,根据含义,如果值小于0的统一进行填充nan处理 。
新增特征处理这里需要注意的是,调查问卷是2015年出的,计算出年龄,并且根据年龄分组计算个人、家庭等的平均收入作为新特征 。
【快来一起挖掘幸福感--新人实战--阿里云天池】#调查年龄data['survey_age'] = 2015-data['birth']
根据年龄分组如下:
data['age_income_mean'] = data.groupby(['survey_age'])['income'].transform('mean').valuesdata['age_family_income_mean'] = data.groupby(['survey_age'])['family_income'].transform('mean').valuesdata['age_equity_mean'] = data.groupby(['survey_age'])['equity'].transform('mean').valuesdata['age_depression_mean'] = data.groupby(['survey_age'])['depression'].transform('mean').valuesdata['age_floor_area_mean'] = data.groupby(['survey_age'])['floor_area'].transform('mean').valuesdata['age_edu_mean'] = data.groupby(['survey_age'])['edu'].transform('mean').valuesdata['age_health_mean'] = data.groupby(['survey_age'])['health'].transform('mean').values
根据年龄和性别同时分组取平均的个人、家庭等收入新增的特征如下:
data['age_gender_income_mean'] = data.groupby(['survey_age','gender'])['income'].transform('mean').valuesdata['age_gender_family_income_mean'] = data.groupby(['survey_age','gender'])['family_income'].transform('mean').valuesdata['age_gender_equity_mean'] = data.groupby(['survey_age','gender'])['equity'].transform('mean').valuesdata['age_gender_depression_mean'] = data.groupby(['survey_age','gender'])['depression'].transform('mean').valuesdata['age_gender_floor_area_mean'] = data.groupby(['survey_age','gender'])['floor_area'].transform('mean').valuesdata['age_gender_health_mean'] = data.groupby(['survey_age','gender'])['health'].transform('mean').valuesdata['age_gender_edu_mean'] = data.groupby(['survey_age','gender'])['edu'].transform('mean').values
模型训练:
本竞赛是连续性变量的预测,评测指标如下,测试值与真实值的偏差大小作为衡量标准 。