2019年10月25日下昼,,,,安博电竞2019级商业剖析硕士班和慕名前来的校内外同砚们齐聚安博电竞1号楼216课堂,,,,配合加入由BA班学术沙龙委员会举行的“机械学习与实证研究要领”主题沙龙活动,,,,本次约请到的嘉宾是安博电竞金融学系主任、金融硕士项目执行主任刘晓蕾教授。。。

活动现场
一、相关性与因果性
请同砚们先思索这样一个问题:
『现在有一个关注开会次数与公司绩效关系的研究,,,,假设我们模子建设准确,,,,没有遗漏主要变量,,,,通过回归剖析我们也简直发明了开会次数越多的企业,,,,绩效越差,,,,那我们可以获得开会降低了公司绩效的结论吗???』
谜底是不可,,,,这个例子着实涉及的是自选择问题,,,,由于只有绩效差的公司才需要频仍开会讨论去解决绩效问题,,,,而绩效好的公司是不需要开会的。。。
刘晓蕾教授用这一个问题引入了实证研究中关于相关性与因果性的讨论。。。
*实证研究是经济、金融领域常用的一种研究要领,,,,在实证研究中时;;;崾褂玫绞萜饰龅乃夹。。。

刘晓蕾教授讲述回归剖析的思绪
只管许多的经济征象可以通过回归的方式来诠释,,,,但哪怕是加入更多的诠释变量,,,,这样的模子也保存一些潜在的缺陷:
①遗漏变量(omitted variable),,,,保存与Y相关但被遗漏的变量。。。
②反向因果(reverse causality),,,,Y和X间保存反向因果关系。。。
在这里爆发了一个很是主要很是值得探讨的问题,,,,统计模子偏向诠释相关关系,,,,而经济学更想要获得征象背后的因果关系(Causality)。。。毫无疑问,,,,在实证研究中若上述缺陷不获得解决,,,,将难以获得可信度高的结论。。。因此怎样筛选合适的样本,,,,运用怎样的模子设计方案变得尤为主要。。。
二、解决方案
刘晓蕾教授介绍了六个解决上述问题的可行方案:
1.双胞胎(Twins)。。。双胞胎的心理条件、生长情形基本一致,,,,可只管镌汰无法视察到变量间的差别,,,,但弱点在于很难网络足够的样本。。。
2.随机实验要领(Randomized Controlled Trial)。。。只管个体间总有差别,,,,但在随机抽样,,,,样本量足够大的情形下,,,,凭证“大数定律”可消除这种差别所带来的影响。。。
3.自然实验(Natural Experiment)。。。在无法举行随机抽样时,,,,可以通过“自然”的手段,,,,替我们做出选择。。。但一般研究工具是某项详细的政策,,,,研究对差别地区之间造成的影响。。。
4.工具变量(IV)。。。寻找一个与X高度相关却与Y不相关的工具变量,,,,解决反向因果关系带来的问题。。。
5.断点回归设计(RDD)。。。例如,,,,想要研究北大的教育是否对一个学生的生长带来显著提升,,,,但能考上北大的学生个人素质本就很高,,,,无法诠释北大对学生的生长的孝顺为几多。。。无妨设北大的分数线为650分,,,,可以为651分与649分学生个人素质相差无几,,,,在此基础上模子具有更强的诠释性。。。
6.结构预计(Structural Estimation)。。。先构建一个模子,,,,用模子模拟天生一些数据,,,,再用真实数据与之连系,,,,调解模子的参数。。。但弱点在于体现高度依赖于模子自己。。。
三、机械学习
随后,,,,刘晓蕾教授机械学习在实证研究中的主要应用场景。。。首先是自然语言处理NLP的运用,,,,例如在大宗的财务报表中,,,,可挖掘财报中的要害词,,,,判断公司是否保存潜在的风险。。。其次是非线性预计的引入,,,,古板回归模子中,,,,若是引入变量过多,,,,容易导致共线性,,,,而非线性要领可以通过降维要领,,,,处理高维数据,,,,增强模子诠释效果。。。别的,,,,Topic分类要领可以用于文章分类上,,,,便于学者进一步的解读。。。
虽然,,,,机械学习要领也有自身的局限性,,,,在构建机械学习模子的历程中会掺入许多主观调参的历程,,,,因此可以人为地操控实验效果。。。

刘晓蕾教授讲述机械学习在实证研究中的应用场景
四、总结
在沙龙的最后,,,,刘晓蕾教授总结道,,,,机械学习、实证研究都只是研究蹊径上的一个详细要领,,,,但比实证更主要的是所研究的问题。。。我们更应该关注研究的问题是否主要。。。中国刷新开放取得了举世瞩目的经济事业,,,,但尚有许多亟待解决的问题,,,,需要我们一直研究新的看法和理论去诠释这些经济征象。。。

师生互动Q&A环节