< 张晨樱:AI在国内量化的应用有独特优势前沿算法与另类数据助力挖掘“数据新关系”_新闻中心_华体育app官网登录|华体会手机版
2024-05-13 新闻中心

  近日,以“回归本源 服务实体”为主题的“全球大资管与量化投资论坛”通过线上成功举办,多位来自学界和业界的权威专家围绕主题进行深入交流探讨。同时,在论坛上“中国基金风云榜”和“全球证券投资基金行业年度回顾”正式对外发布。本次论坛在清华五道口云课堂、《清华金融评论》金融微课堂、学说、凤凰网财经、和讯网、金融界、全景网、搜狐财经、同花顺、万得3C、新浪财经、中证金牛座等平台同步播出。

  白鹭资管投资总监张晨樱在主题演讲中分享了AI技术在国内量化界的应用以及未来的发展趋势。她表示,国内的量化市场有独特的优势,一是A股成交量非常大,同时机构投资的人占比较少,给了程序化交易很大的空间;二是国内量化市场有先进的理论知识和经验可以借鉴;三是与突破性的大数据挖掘算法、硬件的发展联合在一起,能轻松实现很多突破。

  她认为,机器学习和深度学习普遍的应用的今天,一个重要的研发方向进一步挖掘数据之间的新关系,比如借助分布式集群、推动深度学习领域中的创新算法在研究中的应用,以及发挥机器学习在另类数据的挖掘和使用上的优势。她还提出,在这方面的应用上也要注意避开一些陷阱,如数据长度不足导致的过拟合、暴力挖掘下有效性不足的问题等。

  各位新年好,我是白鹭资管投资总监张晨樱,今天很高兴获得邀请来参加2022全球大资管与量化投资论坛。本环节的主题是科技赋能资管数字化转型。我想借这个机会和大家伙儿一起来分享一下AI技术或者说是机器学习、深度学习技术目前在国内量化界的应用以及它未来的发展方向。

  虽然量化在发达国家和发达市场起步更早,但其实国内A股的量化市场是有自己的优势的,主要有三个方面,第一,整个A股市场成交量和市场深度都非常大,同时机构投资的人占比相对又比较少,这是一个很适合发挥算法交易的场景。第二,因为我们起步比较晚,反而可以有浩如烟海的知识供我们吸取。美国的长期资金市场的发展与它的金融学术界的发展是相辅相成的,甚至可以说市场是领先学术界的,比如Fama-French的奠定资产定价理论的论文是在1992年发表的,而在那之前其实大家用市场异象去赚钱已经很多年了,所以对我们来说起步晚其实未必是坏事。第三,我们国内量化起步正好和硬件以及突破性的一些大数据挖掘算法起步联合在一起,为我们去达成一些以前没办法想象和计算的事情创造了条件。

  记得在我读博士时,大家都还在商量说怎么样去争取更多的计算资源,但现在几乎所有的头部量化私募公司都在搭建自己的超算和集群,这个变化真的是非常快。

  可以说A股在不到十年的时间里走了别人可能是要用二三十年走的路。我们也看到了整个长期资金市场变化是非常快的,可以用日新月异来形容。

  举例来说,2012年可能是我们所谓的量化元年,那时,沪深300的股指期货处在一个长期升水的状态,大部分的量化策略都和期现套利相关,同时小盘股也是长期跑赢大盘。直到2014年年底,我们经历了大盘股的风格反转,很多中国的量化投资者可能才第一次意识到,其实大小盘可能是一个风格,或是说风险,而不是我们传统意义上的pure alpha。在那之后,大家策略的迭代都越来越迅速,技术也慢慢变得先进,从最开始的在金融文献里找灵感去精修单因子,进行传统的多因子的线年大家开始广泛使用非线性模型,时至今日,AI在量化投资的应用已经是非常普遍了。

  在这一点上,我们还有一个额外的优势,就是我们的基金经理都非常乐于使用最新的前沿技术。当我们和美国的基金经理交流的时候,很多基金经理提到他们盼望使用更多的AI技术但是市场上其他人并不相信,这个是他们面临的一个很大的阻碍,是和传统投资理念的碰撞。但是在国内,这个阻碍就小很多,大家都是在机器学习迅猛发展的时代里成长起来的,对于应用前沿技术的态度也更积极。

  目前在量化资管领域里面,机器学习、深度学习的使用最其实是集中在监督学习的使用上,最主要的方向是应用较为高频的数据去预测一个相对来说还是比较短的时间区间里的收益。当然所谓比较短的时间区间是一个较为广泛的光谱,从1分钟到5天都会有所覆盖。

  传统的金融可能会用daily或monthly的数据去挖掘一个十年、甚至是二三十年内的数据规律。但在资管的业界,一方面,因为市场变化较快,大家相对来说还是比较习惯着重于眼前,或者近一两年的市场规律。另一方面,资管模型里也常用tick级别或者一些order book类的日内数据去进行预测,这样海量的数据也允许我们去运用相对更复杂的模型。

  在模型的运用上,大家有时会“妖魔化”或“神化”非线性或者说AI这个概念,一个极端会觉得它能够达成人脑所无法达成的复杂认知,另一个极端可能会觉得它就是一个样本内给它设定的data mining的极限,这两种极端的认知都是有失偏颇的。它实际上的意思就是一种用过去数据挖掘统计学规律的不同做法,和传统认知上的线性多因子没有本质的区别。

  当然,当我们谈论AI的时候,可能大家更多想到的还是AlphaGo,但据我所知,目前在资管领域,强化学习的应用相对较少,主要的应用集中在相对来说还是比较熟悉、非常容易掌控的机器学习和深度学习上。

  在模型的运用上,最开始可能大家会对非线性的模型比较抗拒,觉得它的可解释性比较差。的确,和传统线性多因子相比,可能我们很难去解释我选到这个股票是因为它哪些因子、各自什么样的权重,但是可解释性的差和好都是相对的。

  首先我们这个方法论是非常科学的,都是利用股票的各种特征加入一些市场特征去尝试预测它未来一段时间内的收益,去寻找统计学规律。同时我们也有很多方法对黑箱进行拆解,让我们更好认知到是哪些特征、哪些因子的作用更大,以及当我们把一些或者某一类因子去掉时会产生什么样的结果,这些都可以用统计学的方法去探知。此外,其实我们所熟悉的主观投资也具有一定的不可解释性,当一个交易员或者一个投资经理说他对市场有盘感的时候,其实就是人脑综合了各种统计信息之后进行的判断,从这个方面来讲,这和深度学习做的事情有一些类似。

  到了机器学习和深度学习广泛发展的今天,现阶段一个重要的持续研发方向,就是在可获得的数据基础上,进一步用不同的角度去寻找数据之间的新关系,它可以是因子之间的关系,也可以是股票之间的关系。在这一方面,它的突破性的应用大多分布在在两方面,一是借助分布式集群去实现前沿算法的落地,二是机器学习愈来愈普遍地应用到另类数据的挖掘和使用上。

  对于第一个方向,可能目前大家最主要的想法是用深度学习领域的一些创新算法,通过刚才提到的一些硬件支持,去挖掘因子或者股票之间的潜在联系,同时通过深度学习将不同的数据和模型集成为一个更强有力的信号。比如同一地域的公司可能会受到同一经济因素以及宏观因素的影响,他们的股价会相互关联。像这样的公司之间的联系,在债券上应用已经很广泛了。举例来说,在同一个地区的民企之间,因为会存在一个互相担保的关系,所以当某一个企业的企业债出现一些明显的异常问题时,可能在同一区域内的所有企业债的评级都会被降低,这实际上的意思就是利用地域信息去挖掘股票之间或者债券之间关系的一个例子。

  我们能想象一下,当我们允许股票或因子之间有所关联的时候,能够影响一个股票的因子维度将是指数级别的上升,可能这只股票会面临同时被其他5000只股票的5000维的数据所影响。在这种情况下,就有必要去借助一些非传统的模型和硬件的进步来处理,同时避免过度拟合。

  此外,另类数据因为它的非结构化、实时性强、数据量大、比较原始等特点,成为机器学习有天然优势的一个领域。哪怕是传统数据,比如财报数据,我们也能够最终靠文本分析去挖掘它能更加进一步提高的部分。

  再具体来说,现在将图神经网络(GNN)运用在构建知识图谱体系等结构类的数据上也很普遍。未来也可以深度去学习个股之间的关系,比如说在同一个领域内享有同等IP的机构,或者是上下游公司,它未必处在同一个细分行业中,但是它们的收益率是有关联的,可以互相预测。

  当然,这些应用也有一些必须要格外注意的地方,比如对专家的经验和人才的储备的要求,下面就简单聊一下在AI应用里的一些新手陷阱。

  第一点,也是最重要的一点,非线性算法上需要有足够的能力储备来防止过度拟合。尤其是国内的数据,历史时间通常比较短,同时考虑到我们主要会挖掘近期的数据规律,所以相对来说,通过扩展时间段增加历史数据,来增加数据的有效性,这一点来说对于业内它的重要性并没那么高。

  为什么说这其实非常考验人的专业能力?举例来说,当我们用图神经网络(GNN)去做一个知识图谱分析时,首先在大多数情况下要用自然语言处理去提取像研报、财报、新闻中股票上下游的关系去构建知识图谱。同时GNN又是一个很复杂的模型、需要有很多人工经验、有很多超参数做调整,这就要求使用者在数据的认知和对技术的认知两方面上都有足够的储备。

  此外我们要意识到,像金融问题,特别是中低频收益预测相关的,它不单单是一个数据受限的统计问题。金融数据有很强的特征,在时序上并不稳定,而且信噪比非常低。在有限的数据长度下,完全依靠机器学习暴力挖掘的效率和可靠性往往不如专家经验的。同时,在有限的数据区间内,它也不可以有效的进行足够迅速和准确的自反馈和修正。因此在机器学习应用中,专家经验是至关重要、不可或缺的,通过人工经验寻找的切入点最重要,这也是所有机构都很看重人才招聘的原因之一。

  最后我想说,我们处在一个非常幸运的时代,技术和硬件的快速的提升都能够让我们去做以前不可能做到的事情、去使用以前不可能想象的复杂模型。我第一次尝试使用一个简单的非线性模型的时候,达到的效果令我惊叹。在这之后的好几年内,我也时常为复杂模型产生的效果所震惊。我们正真看到AI的应用把整个量化推到了一个新的竞争高度,我们正真看到以前有效的alpha的挖掘方式可能也消失的慢慢的变快,阿尔法的存活周期可能慢慢的变短,不管是在方法论、数据,还是在因子的寻找上,大家都要一直地推陈出新。同时我们也看到整个行业目前正在追求和而不同的状态,希望在保有自己特色的基础上,去和大家一起竞争新的技术前沿。

  虽然这些模型很复杂,需要的算力可能是几年前不可想象的,但是真正令人惊叹、令人赞美的永远不是模型或硬件本身,而是永不停止进步、永不放弃使用这一些技术的人们,是这些人让我们大家一起见证了资管的量化策略的迭代,见证着每天新的市场和新的挑战。

  今天我和大家伙儿一起来分享的内容就到这里,也非常期待和大家一起在新的一年里去见证量化投资方法论的进一步进化。

  本次论坛由清华大学五道口金融学院《清华金融评论》编辑部、北京清控金媒文化科技有限公司主办。清华大学国家金融研究院资产管理研究中心、清华大学金融科技研究院鑫苑房地产金融科技研究中心、清华大学五道口金融学院全球母基金研究中心、香港中文大学(深圳)高等金融研究院长期资金市场和资产管理研究中心联合主办。

  “全球大资管与量化投资论坛”旨在聚焦长期资金市场政策与创新动态,展示中国基金与量化行业的优秀机构及优秀产品,分享其先进的投资理念,打造全球基金与量化投资界高端互动交流平台,助力行业健康有序发展。自2015年首届论坛推出以来,已连续成功举办8届共15场论坛活动,出席嘉宾300余位、现场观众8000余位,远程在线余万人次,参与媒体350余家。

  广西民大文学院院长叶君校内被撞身亡月余,家属:事故认定书已出,善后处置尚未达成一致

  最新!西城一名校新增集团直升!首次纳入提前批录取!释放出哪些教育信号?

  一加Ace 3 Pro再曝,双电芯6100mAh电池+100W有线充电

  vivo X100系列三机齐发:Ultra搭载2亿像素镜头 6499元起售

CONTACT US
欢迎随时与我们联系