王靖一,中央财经大学金融学院助理教授,北京大学数字金融研究中心特约研究员,曾任阿里巴巴研究院经济学家。北京大学金融学博士、理学学士,杜克大学访问学者。研究方向为金融科技、机器学习及因果推断等。承担本科生《大数据与金融》《深度学习与自然语言处理》、研究生《机器学习与智能金融》。在《》、《经济学(季刊)》、《金融研究》、Journal of Financial Stability、China Economic Review、等国内外知名期刊发表论文。主持国家自然科学基金一项。
不好意思,又标题党了,宛如五年前那般。2019年10月,在B站发布《金融科技工具箱——面向经管金融同学的Python、爬虫、机器学习课》,迄今已经有近20万的播放;2021年4月,发布《金融科技工具箱3:因果推断》,虽然播放量不高,但几乎每个月总有朋友来催我更新、提供代码;2023年11月,发布《金融科技工具箱2:机器学习原理与经济金融研究应用》,至今有将近400人来邮件索要课件与代码;24年4月,将第一季内容做重制,一方面完成了Python入门部分的音画修复、精简、匹配字幕,另一方面,将别的部分进行重新设计、录制,全面引入了大语言模型的辅助——面对这个技术,回避或者禁止都不过是螳臂当车,妥善引导才是正道。24年5月,发布《金融科技工具箱4:深度学习与大语言模型》,于是当年画的大饼,以一种曲折但更为圆满的方式,完整。遵循知识理应共享的信条,全部四季课程,都是免费公开,合计45小时,从零基础到大语言模型的最前沿。
这篇文章便是四季课程的一个导读,一方面算是王婆卖瓜,另一方面也是尽可能帮助有兴趣的朋友更高效的使用本课程。后续行文,首先会介绍一下课程架构,其次会讲一讲设置的初衷,最后会解释四部课程设置的逻辑框架。若不想看文字,拉到最后的“阅读原文”点进去会是一个视频导读,视频会用十二分钟回答上述三个问题,又用40分钟根据下面这张思维导图,逐一介绍了课程的主要章节。
第一季《大模型辅助的入门课》,103小节,合计11.5小时,主要讲解的是零基础不忽悠的大语言模型原理解释(第一章)、Python从安装开始的入门与科学计算基础(二、三章)。之后便是爬虫、文本分析、数据可视化三个专题。如果对Python已经比较熟悉,那么不妨从爬虫开始看起,因为那一章最彻底地展示了“大模型辅助的编程”,原来最痛苦的代码,现在轻松许多。文本分析部分,主题模型可能不少人都跑过代码、写过论文,但是LDA的原理,还是比较抽象,我自觉讲得还算清晰,不妨来看看。
第一季内容的最鲜明特色是“项目化编程”,越是对于萌新,越要给一些立竿见影的东西,且代码数据配齐,扶上马、送一程。比如为了贯彻爬虫写得好,牢饭吃到饱,我们直接去抓法院的网站;再比如词频分析的对象是刘慈欣全集,而主题模型则给配了13万篇真实存在的媒体文章。有难度,但也有趣,做完之后,自然也是有成就感的。
第二季《机器学习原理与经济金融应用》,86小节,合计9.75小时。第一章介绍了人工智能的极简史与机器学习的核心任务,并展开讲了机器学习在经济金融领域研究的四个主要方向;第二章以大家较为熟悉的线性回归为起点,辨析机器学习与计量经济学的联系与区别;三至六章则是介绍了常用的几种机器学习算法,以及其在经济金融中的应用实例;七八九三章则是在算法之外,进行编程实践时必须要格外注意的重要工程模块。
第二季的最鲜明特色是“去数学化”。传统机器学习或者说统计学习,长期以数学推导的复杂著称,固然数学推导重要且唯美,但是在入门阶段便一头扎到公式堆里,总会让人失去信心,我尽力将算法思想与原理用非公式的方法讲解清楚。当然,根基还是扎实的,上限还是不加盖的,这门课设置时最重要的参考资料便是台大林轩田教授的线上课与Element of statistic learning这本经典之作。这门课的局限性一种原因是课程涵盖上没有涉及贝叶斯相关算法与无监督算法,另一方面则是编程代码相较于第一季简化许多,但我自信的一点是,如果经过第一季的捶打,谙熟何谓“大语言模型辅助编程”,样例简化并不会带来许多困扰。
第三季《因果推断》共计六章8.5小时,当前的视频版本是21年录制,或许在2027年,会有一个更新。需要非常注意的是,这里的因果推断并非计量经济学中那些的延续或者拓展,而是Pearl那套以因果图为基础的理论。第一章辨析因果与相关、识别与估计两组重要的概念;第二章介绍因果图中的基础构件;第三章介绍因果识别策略;第四章介绍较为常见、可控的随机试验;第五章讲估计策略;第六章则为断点回归与bunching。
第三季的关键词是别学。它不仅不是绕不开的,更是建议先放到一边的。我曾经考虑整体隐去这部分,但又舍不得对标四年前画的大饼,只能说大家尽量都学124而先不要去理会3。因为Pearl这套理论,与计量经济学的现行主流有颇多相左的地方,学了之后怕是不陷自己于痛苦,便是自绝于同行。当然,有一个例外,如果恰好在网络公司的策略部门,可以方便地搞随机试验,那么便可以丝滑使用。
第四季《深度学习与大语言模型》123小节,合计14.6小时。深度学习的课雨后春笋,层出不穷。这门课的努力方向是尽力开辟出一个精简明确的路径从神经元抵达大语言模型,但不失学术性的严谨与对算法思想的拆解。第一章介绍神经元与训练相关的基础概念;二三章介绍卷积神经网络(CNN)、循环神经网络(RNN)两个“老熟人”,第四章则引出划时代的Transformer,CNN、RNN的丰富程度其实都可以独自撑起一门课程,但我们更关注的是原理上的思想与发展突破,三章内容加起来回答那个经典的问题:(why) Attention is all you need。后续三章BERT、GPT、其他LLM则来到了大语言模型的核心章节,课程中使用的许多论文结果,都是三四个月前才挂到arixv上面的。
虽然近15个小时的长度是四季《工具箱》之冠,但这可能还只是半门课,或者说这门课只是提供了一个“预训练”的过程,一个更通俗的比喻是,如果我们最终想培育一株美丽的花,这门课当前的部分是培育一个健壮的砧木,至于上面各色绚丽的花朵,则是通过你自己的需求有的放矢了。后续部分可能会开给金融科技专硕与量化投资专硕,咱们提供配套的资源与机会,避免这一些成为“屠龙之技”。
故事追溯到开头,便是19年毕业时黄老师嘱我“留下些东西给师弟师妹”,于是仓促匆忙但却赤诚满满,对Python那几节做修复时常常感慨,大概很难再讲得如此卖力了;后来阴差阳错,陆陆续续有了后面三部分,但如果说要花大力气把已经过气很久的第一部重制,且把第四季也加上字幕、小心剪辑,直接原因来自于一个周末里发生的两件事儿。
那个周六,和最后一个室友吃饭,他说英特尔内部现在七八成的设计工作是在一个高度定制化的GPT辅助下完成,而这个GPT基于英特尔长年积淀的数据,不仅其他同行很难仿制,在学校也绝对没什么学习的可能,于是个人发展的技能组合中,入职后的比例又上了一个大台阶,杞人忧天如我,觉得这不只是行业间、中美间的差距,更严重一点,教育的意义受到了又一次的巨大挑战:固然犹可自持通识教育的风花雪月,但对于更多更实际的人来说,现实的危机就是温水煮青蛙般的骇人听闻。
周一上课时,本来我是要去给学生讲最最入门的文本分析,从独热编码开始,但是我上讲台前的环节是学生自主汇报,他们在自己的研究中直接用了BERT,惊诧之余我只是单纯地好奇地问了句“你是用的768维还是1024维?”“老师,我不知道,我只是调了个包……”(这就好像你本打算教学生套军体拳,结果学生直接抱出根火箭筒,但却弹头向后准备发射)。另一个无声的真相是,那个班里确确实实有相当数量的同学,真的还是对文本分析一无所知,宝爸宝妈们要不要让孩子提前学拼音算数的焦虑,到了大学,依旧存在。但好在,老师的天职便是将知识的不平等尽力抹平,这门课,便是这番使命的个中之一。
如今这个内卷的时代,人人都从睁眼焦虑到闭眼,学生们更是有着史无前例的焦急:迫不及待地去提前学习,这种心态其实我自己再熟悉不过,十一年前我也是捧着一本陈强的stata似懂非懂地去跑面板回归,彼时并不知道reg monkey这个词,但即便知道也并不觉得这会比夏令营论文更重要。焦急的时代最根本的一个矛盾,便是学生已经过了河,但老师还在假装摸石头。摸石头自然是重要的,因没有一个老师会希望自己的学生只能去过有桥的河而毫无突破创新的可能,但学生过河的焦虑也是现实的,自己身前的河早不似老师们熟悉的彼时彼刻般乖巧。
于是,这门课最大的一个野望,便是既把摸石头讲清楚,也把走桥坐船的姿势讲明白,有落地的项目化实践,也有足够滋养远方的原理拆解。我知道你很急,但你先别急,因为我比你还急:一方面时长我已经尽力压缩,跟着走,从一无所知到大语言模型前线个小时,也做了足够清晰化的小节拆分与导读,随你跳来跳去;另一方面,第一季、第四季已经配好了字幕,不仅便于抓注意力,更方便倍速播放。将心比心的态度为的是让学生放心,博一份信任,这门课的目的不是为了赚钱或者填表,跟着学下来,自然会有收获。
这门课之所以分成四季,是因为其所执行的功能是明确独立的。我们的课程不包含,但实际上离不开、也始终围绕的,是已经在专业课程设置中的计量经济学、时序分析等经典方法论。第一季的内容侧重于数据搜集与预处理、非结构化数据处理与结果呈现的优化,是在不改变分析核心的前提下对结果的优化;第二季的统计学习则是与计量方法的一体两面,有机结合后会使得1+12,但如果辨析不清,反倒适得其反;第三季的因果推断相当于将计量“因果推断”的核心换了一套故事来讲述,目前仍不是主流,故而再次劝慎重学习;第四季则是“战未来”,或许是先人一步占尽天时,也或许是in the long run, we all die.工具箱这一个名字我很喜欢,一直用到现在没有去追那些fancy的题目,就是想谨记一句话,拿着锤子的人,看啥都像钉子。
用一个改装车的比喻来说明这四季课程的逻辑,假设现在提到一辆还不错的车,假设我们不考虑合法上路的问题而对其进行改装,第一季做的事情相当于去更换轮胎轮毂车衣:不改变根本,但是让它可以应付更多的路况,也看起来更炫酷;第二季则是去刷程序、改涡轮、扩缸、换刹车、上启动套件……改动颇多,没脱离传统油车那套,但改不好可能还不如原厂;第三季则是直接把动力系统换成电动,新旧能源之争孰是孰非尚未尘埃落定,这便是因果图那套一个现实的窘境;第四季则更为天马行空,我们谋划的是一辆背着火箭在太空驰骋的跑车,但,现在唯一一辆在太空中遨游的车,不过是一辆山寨的老款莲花。
未来总会来,但何时来、怎样来,又有着太多的不可思议与惊喜惊吓,就像五年前我画个大饼,不曾想到今天以这种方式经历这般过程才圆上。