我们一生中有许多重大的选择。
今年的九月份,许许多多的高考生将踏入大学校园,开始人生新的征程。短短四年之后,踏出校园,又会面临新的选择:就业还是继续深造?他们其中的一部分,会选择出国求学,去看看更大的世界。其实,最近几年,出国留学已经列入越来越多的人的“未来规划清单”。这点已经从影视剧的套路上得到展现:以前电视剧的套路是一哭二闹三上吊,现在是一言不合就留学。我们来看一组统计数据:2017年我国出国留学人员总数达60.84万,同比增长11.74%。其中约有49%的人员选择美国求学。出国的热潮使得竞争日益激化,日益激增的留学人数随之而来的是逐年下降的名校录取率。
这些年来,身边的朋友选择留学的也越来越多,但留学申请本身并不是一件容易的事儿。不仅需要准备文书、英文考试;还要从上百个学校列表中选出合适自己的高校List,一不留神,就要与dream school擦肩而过。留学申请好比找对象:太美的,追不上;一般的,又看不上;选择合适的,才是最好的。尽管留学申请充满偶然性,但是,能否从“过来人”的教训中吸取经验,定制属于自己的“留学申请攻略”呢?
为此,我们收集了一份来自某留学申请论坛的offer结果,包含了15908条申请者的申请学校及录取与否信息。其中,该论坛上约97.8%的同学申请美国留学。美国地区又以风景优美的东西岸为热门目的地,占美国申请约为75.9%的比例。毕竟,选择去中部留学的同学可能就要忍受与玉米地为伴的寂寞了。
留学现场调查:
热门学校及专业
首先,我们先来看看Top10申请人数10所大学。其中,热门申请学校多位于美国东北岸,卡内基梅隆大学收到的申请最多,该学校的计算机方向的专业可以说是王牌专业。Top10中录取率最高的为南加州大学、东北大学、哥伦比亚大学,申请者较易获得录取。再来看看申请学位统计,在所有申请者中,大部分会选择申请硕士学位(占83.5%)。除此之外,也有一些朋友向着“科研狗”努力(申请博士学位的占15.0%)。还有一些摇摆不定的朋友选择了“混合申请法”,这些同学可能深谙不能把鸡蛋放在一个篮子里的道理。
接下来,我们来看看申请的专业分布。高考的小盆友们注意了,如果你计划未来出国留学,就要注意不同专业在申请出国留学时的“难度系数”了。这里我们看到,申请者的原始专业以及申请专业都以理工科为主。计算机科学、电子工程、统计颇受申请者青睐;除此之外,机械工程、材料专业的同学的读博热情更高。
除此之外,我想很多朋友已经从上图注意到一些有意思的细节:Top 10申请专业要比原本专业的同学高不少。这没啥好惊讶的,原因是一些同学趁着留学申请的机会,“叛变”了自己原有专业,希望实现重定向。我们来看看下面这个“叛逃图”(行是原始专业,列是申请专业)。明显可以可出计算机科学、电子工程(第1、2列)一片红,属于“红杏出墙”的重地。统计专业也是一个有趣的专业,该专业“叛逃”的同学不多,但是也相对少有其他专业的同学申请。
留学申请第1步:你从哪里来?
都说高考是人生的第一道坎,你选择的学校,所读的专业,可能是未来职业规划的第一块敲门砖。那么这个敲门砖究竟有多重要?我们从出国留学的角度来看看。下图是原始高校v.s.申请高校的录取率,可以看出,世界排名前100的大学(此处是QS排名,前100名大学有清华,北大,港大,港科大,复旦,上交等)在申请上有明显的优势,这种优势尤其体现在申请世界Top50的高校(按照QS排名划分)的成功率上。同时,100名 之后的高校在申请上差异并不明显。
再说说专业。这里,原始专业来自光电、信息系统管理专业的录取率最高,分别占到80.2%和78.9%;来自软件工程和电子工程的同学在申请时录取比例稍低,约为63.1%和67.3%。不过,来自光电、信息系统的总申请者并不多,申请时竞争压力较小。申请专业录取率进一步印证了“热门专业竞争大”的道理,其中计算机科学、统计/生统竞争激烈,录取率只有 66.4% 、67.8%。
留学申请第2步:那些年,刷过的考试
在每个假期都能看到图书馆里抱着红宝书埋头苦读的童鞋们。所有计划留学的同学都必须跨过一道坎:英文考试。
出国留学的同学一般要跨过两道坎:一个叫GRE,一个叫托福。真是托这两个考试的福,许多同学都要连刷几场,才能获得比较满意的分数,刷出来都是真金白银和逝去的青春。我们先来看看GRE,从GRE v.s. 录取率上来看,似乎有双峰分布的趋势:<315的低分段和>330的高分段录取率似乎都不低。这是咋回事儿?我们看的更细一点:如果对申请高校按照是否是Top 50划分,那么可以看到Top 50高校对于GRE要求还是更加严苛,而其他高校也会录取一些GRE成绩不理想的同学。托福成绩对应的录取结果呈现了类似的规律:Top 50的高校对于英文考试成绩相对挑剔。另外,从专业上,金融专业的申请生的英文考试成绩明显高于其他专业,金融专业对英文自如运用要求更高。
除了英文考试,还有一个衡量学生平时成绩的指标:GPA。GPA是平时成绩的一个加权,大部分高校满分为4分(在分析时,我们将其他分制进行了转换)。GPA虽然只是一个小小的数字,但是是学业几年的简单量化总结。为了刷到高GPA,很多同学都得了“沉迷学习”的症状……可以看出,沉迷学习的同学在申请Top 50的高校时还是比较有优势,而申请其他高校则差异不明显。
留学申请第3步:论文实习,各个都要硬
好了,英文考试考完了,GPA刷上去了,你以为就可以坐等offer了?没有!请问你是否跟着老师做科研了?发了几篇论文?有没有交换经历?有没有牛推?有没有实习?有没有……这年头,申请出国不容易啊,硬是把人逼成十项全能的节奏。
首先先来看看硕士申请。可以看出大部分出国留学的同学都会准备实习、科研等经历。比较起来可以发现,尽管硕士是应用导向的,但是有论文和交换经历的同学录取概率更高,而有论文和牛推的同学,进入优秀学校的概率更高。博士申请的结论类似,相比于硕士同学,申请博士更加看重论文是否是一作。
建模分析:定制化你的出国申请,
构建留学申请推荐系统
以上说了这么多,下面我们来聊聊如何预测申请结果。这个问题描述起来非常简单:给定学生A,申请学校B,能否预测申请结果?但是,说起来容易做起来难:学生背景各异,高校数目上百,想要预测学生×高校的申请结果组合并不是一件简单的事儿。
我们先来构建变量,比较容易想到的是两类变量,一类是学生变量,比如学生考试成绩、经历信息、论文信息等;一类是申请学校信息,比如学校的排名信息、地理信息等。
这是我们常见的变量构建方式,但是如果实验一下,它的预测效果并不好。我们再回顾一下这个问题,学校背景各异,而这种差异性带来的偏好并没有被充分考虑进来。你可以把申请的高校想象成非诚勿扰台上的女嘉宾,事实上,每个女嘉宾都性格各异,偏好不同:有的喜欢个高的,有的喜欢事业有成的,有的喜欢大眼睛,有的钟爱小眼睛……不同学校在评估申请者信息时考量的因素可能各异:有的看中英文成绩,有的看中论文发表……如何度量学校的“偏好”?一个高校可以被许多申请者申请,那么它对不同背景的申请者的反馈(录取率)就是最好的衡量偏好的方式。简单来说,这里的偏好变量就是学校B对学生A某个背景信息(例如毕业院校)的偏好,这种偏好用该高校的录取率表示。
将学生的背景信息划分“格子”:
离散变量:计算每个专业的频数,将比例<2% 合并为水平“其他”;
连续变量离散化:例如对于GPA,划分为 (0, 3.4],(3.4, 3.55],(3.55, 3.7],和 (3.7, 4.0] 四类。
生成学校对某个背景信息(例如本科院校)的偏好:
根据数据,计算学校B在学生A所在的本科院校的“录取率”,作为学校B对学生A所在的本科院校的“偏好”;
其他变量同理处理。
通过对偏好变量的构建,一方面刻画了学校的偏好信息,一方面降低了变量维度,减少了估计复杂度。构建好变量之后,进行逻辑回归,得到的回归结果如下所示:
从回归结果中,可以看出大部分与直觉是比较一致的,尤其是提高GPA,发表论文、增加实习、交换出国经历,对申请成功影响较大。经过5折交叉验证,模型的测试集AUC为71.2%。
根据模型,我们可以构建出国申请的“推荐系统”。我们来看看以下两种典型情形:
情形1:科研学霸能否顺利进入美国名校
根据模型结果,学霸在名校申请上申请约翰霍普金斯,哥伦比亚大学,卡内基梅隆大学概率录取概率较大;藤校申请难度较大,但是也不要放弃治疗。
情形2:标准化成绩不足能否逆袭
如果成绩比较一般,短时间内又无法突破获得质的突变,希望申请热门专业,可能就要在选校上多花心思了。比如上面这位同学,在模型下预测申请名校录取概率最高的是:西北大学,纽约大学,约翰霍普金斯大学。在藤校的申请上就不尽乐观了。