宋 骁 简 历

English Version
PDF

联系方式

编程/软件技能

  • Python, R, SQL (包括但不限于MySQL、SQL Sever、SQLite)
  • SPSS, Stata, Git, MS Office, \(\rm{\LaTeX}\)

教育背景

培训经历

  • 狗熊会 在线实习项目  2019年5月 
    课程:信用卡申请评分模型
    使用Python的pandas库进行数据清理、探索性数据分析和可视化。使用IV和WOE方法分析各个特征对于因变量的预测能力。使用Logistic回归、CART决策树、随机森林、KNN、GBDT、Xgboost等方法建立信用卡评分模型。使用sklearn库的交叉验证(Cross-Validation)的方法训练模型并调参,预测信用卡申请者拖欠账单的概率。最终形成完整的数据分析报告

  • 北京大学-密歇根大学学院 暑期课程  2018年8月
    课程:因果推论方法的研究设计和敏感性分析 (总成绩:94/100)

  • 上海大学 第6届·应用社会科学研究方法研修班  2017年7月
    课程:Stata与应用回归分析基础,类别数据分析

项目经历

  • 垃圾信息判别网页应用
    2020年
    本程序使用5567条英文短信数据作为训练集,训练了Logistic回归、朴素贝叶斯、决策树、随机森林、支持向量机等算法。训练好的模型被编写成基于R 语言的Shiny App。用户输入一段短信内容文本,并选择一个分类器,就能得到该文本的分类结果。考虑到用户的语言习惯,特别设置了中英双语界面的切换功能。 在线app 源代码

科研经历

  • 机器学习在社会科学实证研究中的应用:以中国教育追踪调查数据为例 2020年
    学士学位论文 (PDF)

  • 土地流转的福利效应与社会不平等:基于中国家庭追踪调查面板数据的分析 2018年-2019年
    国家大学生创新训练项目 独立作者
    使用中国家庭追踪调查(CFPS)数据,通过Stata和R进行数据清理和计量经济分析。使用无条件分位数回归和固定效应模型估计土地流转行为的福利效应和对社会不平等的影响。使用ggplot2软件包进行地理信息可视化。(PDF)
    导师:卿石松

获奖情况

  • 2019年 华东师范大学优秀学生三等奖学金
  • 2019年 华东师范大学第二十七届 大夏杯 大学生课外学术科技作品竞赛 三等奖
  • 2019年 第二届全国高校数据驱动创新研究大赛 优秀奖
  • 2018年 上海市 第十二届本科生社会科学论坛 特等奖
  • 2018年 华东师范大学第二十六届 大夏杯 大学生课外学术科技作品竞赛 二等奖
  • 2018年 华东师范大学优秀学生二等奖学金
  • 2017年 华东师范大学优秀学生二等奖学金
  • 2017年 华东师范大学 智慧杯 哲学写作比赛 一等奖

会议报告

实习经历

  • 中南财经政法大学 数据分析顾问 2020年2月-4月 远程实习。使用Xgboost,RandomForest,LightGBM等算法对法律文本数据进行分类(multiclass)。使用词频法构建特征矩阵,并利用交叉验证训练模型(Sklearn),最终得到0.75的交叉验证准确率。最后,编写程序封装训练好的算法。对新数据进行预测,使得预测结果能够运用到任何一个新数据中。

  • 艾瑞咨询 数据分析 2019年7月-9月

    • 使用R、SPSS软件对汽车用户进行用户画像分析工作。使用主成分分析、聚类分析法对线下数据进行无监督学习,研究不同车系用户态度区分。对汽车生产商决策提供重要参考意见,最终使用Python将结果进行数据可视化描述。
    • 使用MySQL数据库协助数据分析、清理。
    • 使用Hive SQL访问数据库集群。

 

标准化成绩

Verbal Quantity Writing
154 167 3.5
Reading Listening Speaking Writing
29 27 21 26

其他经历

  • 2019 华东师范大学 助教 回归分析与Stata应用(教师:卿石松副教授)