基于CFTC的COT持仓报告构建特征,应用随机森林模型预测未来一周的趋势。
基于CFTC的COT持仓报告构建特征,应用随机森林模型预测未来一周的趋势。
国内交易所每日收盘后也会提供各品种的持仓数据,相比CFTC来的更及时,可以借鉴数据标注及特征构建的方法,测试该方法在国内市场的效果。
在美国市场,依据商品期货交易委员会(Commodity Futures Trading Commission)于1962年设立的要求,各大期货交易者必须定时(在美国时间每周五下午3:30)向商品期货交易委员报告当周周二的持仓数据(Commitments of Traders,COT),若遇上当周美国有公假,CFTC持仓报告发布时间通常会推迟一个工作日发布,数据来自芝加哥、纽约、堪萨斯城和明尼安纳波利斯的期货或期权交易所。CFTC报告是全球投资者很关注的报告,虽然数据本身与中国市场的期货公司每日持仓排名相比,存在一些时间滞后,但根据CFTC公布出来的当周的持仓报告数据,投资的人能根据报告中的持仓数量、增减变化、各类持仓所占比例变化、交易商数量变化等,作为投资判断一些维持的时间较长的趋势性行情的重要参考标准。
对于量化交易而言,其中最重要的是分类报告(Disaggregated Report),披露的详细格式及数据如下图所示,其中会按不同的交易者类型披露其当周的持仓数据。注意是周五披露截至到当周周二的数据。其中交易者按一下分类:
生产商/贸易商/加工商/用户(Producer/Merchant/Processor/User (PMPU) ): “生产商/贸易商/加工商/用户”是主要是做实物商品的生产、加工、包装或处理并使用期货市场来管理或对冲与这些活动相关的风险的实体。
掉期交易商(Swap dealers): “掉期交易商”是主要处理商品掉期交易的实体,并使用期货市场来管理或对冲与这些掉期交易相关的风险。掉期交易商的交易对手可能是投机交易者,如对冲基金或管理其实物商品交易所产生风险的传统商业客户。
资金管理者(Money managers (MMs)) “资金管理者”是注册商品交易顾问(CTAs)、实物基金(CPOs)或由CFTC确定的未注册基金。这些交易商代表客户从事管理和进行有组织的期货交易。
其他可报告类别(Other reportables) 未列入其他三个类别之一的所有其他可报告交易者将被置于“其他可报告”类别中。
这些持仓报告的数据中,特别是MMs组的数据,是不是真的存在可以预测未来趋势的信息,由于报告是在周五才披露周二的数据,这个延迟披露是否会影响数据的有效性。在本篇报告中,作者就以上问题做了探讨。
如果周初与周末的净持仓方向不一致,那么本周的数据就不会用在后面的实证分析中。但需要记录每个商品期货中,发生这种情况的数据占所有数据的比例(以周为单位)
对于各组,如果净持仓方向与期货的收益率一致,则该组的TGR指标加上这周的收益率,如果净持仓方向与期货的收益率相反,则该组的TGR指标减去这周的收益率。以Money managers(MMs)组为例,如果本周MMs组的净持仓为Long,且期货上涨了1%,则在本周MMS的TGR指标等于上周MMs的TGR指标加上1%;相反,如果本周MMs组的净持仓为Short,且期货上涨了1%,则在本周MMS的TGR指标等于上周MMs的TGR指标减去1%。
除了每组每周的TGR指标,作者还计算了TGR与该期货Long-Only策略的收益差,及TGR的变化及滚动总和,如图2为MMs组TGR的5日滚动之和。
这类指标主要是基于持仓情况和交易者的数量来构建超买超卖指标,该类特征由以下几个指标计算而来:
基于López de Prado (2020),作者采用趋势扫描标注法(Trend Scanning Labeling),用以标注当天的行情是处于一段上涨的趋势(+1)、下降趋势(-1)还是无趋势(0)中。代码参考如下:
数据范围为CFTC披露的2014年至2020年5月的COT分类持仓报告,作者选择的机器学习模型为随机森林(Random Forest)。
平均准确度下降法(MDA,Mean Decrease Accuracy):OOS样本外计算,适用于任何模型,最重要的是,它直接比较了将某特征进行无序打乱前后,训练结果的评价指标准确度的下降情况。
原理:打乱每个特征的特征值顺序,并且度量顺序变动对模型精确率的影响。对于不重要的变量来说,打乱顺序对模型的精确率影响不大,但对于重要的变量来说,打乱顺序就会降低模型的准确率。
实证过程中,作者测试了两种情况,第一种是按照CFTC正常的披露时间(周五)测试模型表现;第二种是假设周二就能够得到COT的持仓报告。然后比较这两种情况下,模型的表现有没有区别。
从下表6(周五公布)及下表7(假设周二公布)的模型结果来看,其中Naive为随机猜测的模型。能够准确的看出,正常时间(周五)公布数据的模型效果还比不上随机猜测的模型,说明这些特征并没有预测的效果。相反,如果周二就能拿到持仓数据,效果明显要优于随机猜测的结果。
接下来,作者分别给出了对于SRW Wheat、Corn及Soy Bean三个期货品种,分别给出了筛选后较为重要的特征(见表8,10及12),能够准确的看出MMs组的第二类指标(如cftc_mm_performance)均出现在较重要的指标列表中。