AI通过学习精明散户的投资策略，从模仿到提升，最终在股票交易中超越人类的表现

发布时间：2025-01-10 17:29

投资入门：许多软件提供模拟交易，学习股票、基金等投资策略。 #生活技巧# #个人理财技巧# #理财软件使用#

“CURRICULUM LEARNING FROM SMART RETAIL INVESTORS: TOWARDS FINANCIAL OPEN-ENDEDNESS”

论文地址：https://openreview.net/pdf?id=09wy0Rtacu

摘要

在股票交易领域，将数据驱动的监督学习与强化学习相结合展现出了巨大潜力。通过逐步引入训练样本（即课程学习），可以加快模型收敛速度并优化交易策略。本文介绍了一种金融课程学习方法，该方法在自动化股票交易中实现了超越常规的表现。首先，使用精选的高质量金融数据集进行模仿学习，以建立初步的交易模型。接着，运用强化学习技术开发新的课程学习策略，使交易算法能够进一步提升，最终超越市场平均水平。

简介

金融市场的复杂性和不可预测性，特别是黑天鹅事件的出现，为代理学习带来了显著挑战。Robo-advising作为资产管理与金融顾问功能的融合，在金融强化学习（FinRL）中日益受到欢迎，然而它也面临着一些关键难题：

1.市场环境中存在大量噪音，导致有效信号难以识别。

2.深度强化学习算法往往难以解释，并容易遭受前瞻性偏差和模型过拟合的问题。

3.未能充分利用市场中不同交易者的交易行为，这限制了对市场动态的全面理解。

4.金融机构对于开源基准和数据集的应用持保守态度，加之用户隐私保护和保密协议的要求，进一步制约了相关研究的发展。

为应对上述挑战，课程学习提供了一种可能的解决方案，通过分阶段的方式逐步掌握复杂的任务，将模仿学习与强化学习结合起来，以增强智能代理的交易决策能力。本文提出的金融课程学习方法，通过模拟历史交易记录中的成功案例，并结合实时市场反馈来进行强化学习，着重于提高模型的适应性和创新能力。这种方法旨在优化智能代理在金融市场中的表现，帮助其更好地适应不断变化的市场条件。

01 相关工作

课程学习

课程学习（curriculum learning）能够增强代理在金融市场中的性能，其原理与人类教育中逐步递进的学习方式相类似。尽管现有的课程学习技术已经在语言处理和完全信息博弈领域得到了广泛应用，但在随机性强、信息不完全透明的环境，比如金融市场中，这些技术的应用和测试仍然有限。本研究的目的在于评估课程学习在复杂且嘈杂的金融环境中的适用性，该过程分为两个主要阶段：首先通过模仿学习来模拟精明的零售投资者的交易模式，然后利用深度强化学习来开发更进一步的交易策略。这样，我们希望证明课程学习方法在提升金融交易智能化方面的潜力。

模仿学习

模仿学习通过使用专家提供的示范数据集来初始化深度神经网络，使其能够达到接近人类水平的性能。它为后续的强化学习奠定了坚实的基础，而强化学习则通过试错的方式进一步提升，最终可能超越人类的表现。在金融市场环境中，代理利用模仿学习来优化其下一步的交易行动，这一过程可以被视为一种特定形式的监督学习，为代理提供了一个优秀的起点以进行更深入的学习和优化。

金融强化学习

Liu et al. (2018) 使用DRL进行交易，采用DDPG算法。Zhang et al. (2020) 应用DQN、PG和A2C算法进行训练。Liang et al. (2018) 采用DDPG、PPO和PG进行对抗训练，取得良好回测结果。Hambly et al. (2023) 调查DRL在股市交易、投资组合管理等领域的应用。FinRL Liu et al. (2020) 提供金融强化学习的完整流程。FinRL-Meta Liu et al. (2022) 提供动态数据集和基准。现有研究未解决DRL的不稳定收敛问题，表现不及智能零售投资者。

02 股票市场的高频零售交易活动和信息

研究零售投资者的行为对于为机器人顾问提供有效的投资建议至关重要。结合高频金融数据与深度强化学习（DRL），可以更有效地分析这些行为模式。根据Boehmer等人在2021年的研究，我们现在能够获取高频的零售交易数据。通过使用高频的价格和交易数据来构建指标，可以实现实时监控股市动态。高质量的零售交易数据为FinRL提供了开放式的解决方案基础，支持更精准的投资策略开发。

数据集概述

通过对美国股市交易数据的分析，我们发现当零售投资者表现出正向订单不平衡（即净买入）时，在接下来的5天内市场表现往往优于负向订单情况。该研究的数据样本包括了2010年至2021年间超过6700只股票的超过1100万条日交易记录，这一结果验证了Boehmer等人（2021）的主要结论。特别是在小盘股以及特定行业如消费品、能源、科技和医疗行业中，零售市场的订单不平衡显示出较强的预测能力。通过整合不同规模和行业的投资策略，可以实现年化收益率达到20.5%，夏普比率高达2.54，显著超越主要市场指数的表现。这些数据不仅为研究人员和分析师提供了宝贵的资源，也为智能零售投资者和机器人顾问带来了极具价值的替代数据来源。

交易活动及表现

零售投资者的可交易订单与机构订单可以有效地区分开来，因为机构通常不会享有分数美分的价格改善。Boehmer等人（2021）通过分析历史交易数据，识别出了具有市场影响力的零售价格改善订单。他们设定了一个阈值，将极端信号分为三类：买入（位于第95百分位以上）、卖出（位于第5百分位以下）和持有（介于两者之间）。为了捕捉交易异常，还应用了一个简单的检测过滤器。

研究显示，在12年的样本期内，买入组合的回报大约是初始投资的10倍，而卖出组合的回报约为3倍，这体现了零售投资者显著的交易能力。结合买入和卖出组合的长短策略，预期回报率接近170%。使用5天几何平均回报作为日回报率指标，买入组合的表现明显优于卖出组合。这种区分方法揭示了零售投资者在市场中的强大交易行为。

交易指标

人类交易者通常依据基本面分析来做出决策，而零售投资者则对技术分析和股票图表表现出浓厚的兴趣。我们收集了每个交易日关于每只股票的40多个交易指标，旨在研究这些指标如何影响零售投资者的交易决策过程。

03 问题表示

可以将股票交易建模为一个马尔可夫决策过程（MDP），并将其表述为一个优化问题。通过使用2021年的数据进行详细分析，我们深入研究了智能交易投资者的行为和策略。

假设

假设条件：

仅执行多头策略，不允许卖空操作；

交易过程中不产生任何手续费；

忽略股票分红的影响；

并且假设市场具有充足的流动性，确保所有订单能够按照每日收盘价顺利完成。

交易策略：

模仿零售投资者，基于一系列技术指标来进行交易决策。

首次结合了深度强化学习技术，利用来自TAQ数据库的43个高频交易指标来指导交易活动。

MDP建模与市场环境

市场动态与挑战：

二级市场的高噪声水平使得生成alpha（超额收益）和预测价格变得尤为困难。为应对这一挑战，我们将股票交易任务形式化为一个马尔可夫决策过程（MDP）。

状态空间：

b_t：账户剩余现金，默认100,000美元。

h_t：当前持股数量向量。

p_t：每日收盘价向量。

F_t：43个技术指标向量，用于挖掘alpha信号。

动作空间：

对于每只股票，代理可以选择三种动作之一：持有（0）、买入（1）或卖出（-1）。

奖励机制：

奖励基于投资组合价值的相对变化，具体计算方法是投资组合回报率，即投资组合价值的变化百分比。

策略：根据当前状态s，定义了一种交易策略，该策略决定了代理对每只股票采取买入、卖出还是持有的倾向。

学习环境：在这个环境中，代理通过接收市场信息和评估当前投资组合来不断调整其策略，并从市场获得反馈，包括奖励信号。

专家代理：引入了一个专家代理作为指导，结合人类提供的反馈，形成一种课程学习的解决方案，以帮助代理更快地学习并优化其交易策略。

04 金融课程学习

股票交易是一个高维组合优化问题，单独依赖监督学习或强化学习都存在一定的局限性。为此，我们提出了一种两阶段的金融课程学习方案，旨在结合这两种学习方法的优点。在第一阶段，采用模仿学习的方式，迅速达到接近零售交易者的水平；在第二阶段，则通过深度强化学习进一步提升性能，实现超越常规的表现。这种分阶段的学习策略有助于更有效地应对股票交易中的复杂挑战。

模仿学习

股票价格表现为非平稳的时间序列，容易受到市场情绪的影响。数据集中包含了专家的交易示范，非常适合通过模仿学习来复制这些交易策略。

目标函数

考虑到监督学习存在性能上限，而强化学习在金融数据中可能表现出不稳定性，我们采用了课程学习来结合两者的优点。目标函数定义为：

L 表示交叉熵损失，用于衡量模仿学习中的预测与实际标签之间的差异。

r 代表每日收益率，作为强化学习部分的奖励信号。

λ（lambda）是一个随时间逐步增加的权重参数，初期优先学习人类专家的知识。

通过这种课程学习方法，代理能够充分利用人类交易者的领域知识，帮助其避免过早陷入局部最优解，从而实现更优的长期表现。

正则化奖励

目标函数中引入了奖励塑形，但在多反馈类型的强化学习环境中，动态变化非常显著。由于市场和人类反馈的快速多变性，以及不同来源反馈信号的规模差异，环境的动态特性对学习过程提出了挑战。神经网络对极端梯度值特别敏感，容易导致梯度爆炸或消失的问题。因此，需要对反馈信号进行重新平衡，以确保训练的稳定性并加速收敛。

为了解决这些问题，我们引入了一种动态标准化方案，该方案通过历史访问自适应地更新代理的分布参数。这种方法能够根据过去的经验调整奖励的均值、标准差和平方和差异，从而实现动态更新。通过这种方式，可以有效地提升训练的稳定性和速度，使模型更好地适应不断变化的市场条件和反馈类型。

深度强化学习（DRL）

近端策略优化（PPO）

PPO是一种基于策略的演员-评论家算法，它结合了离线训练和在线探索。在训练过程中，代理通过与环境的互动来收集经验，并在积累了足够的数据后进行学习和策略优化。

策略网络

股票交易的复杂性给行动模拟带来了挑战，尤其是在选择哪些股票进行交易以及何时进入或退出市场方面。为了简化这一过程，我们专注于100只最受零售投资者欢迎的股票，将行动空间限制为三种基本操作：买入、卖出和持有，每次操作的最小单位为1股。通过引入多元概率分布P和神经网络，我们将行动空间显著压缩至M 100 × 3。尽管每次的选择看似有限，但考虑到100只股票的组合可能性，其复杂度仍然很高，类似于围棋游戏中的决策复杂性。利用演员-评论家框架，演员网络能够更有效地逼近最优的下一步动作，从而更好地应对这种高维决策问题。

05 表现评估

提出的课程学习方法有助于新手交易代理平稳过渡和入门。通过这种学习方式，学生代理不仅能够迅速掌握基础技能，还展现出超越其导师的潜力，取得优异的表现。

实验设计

实验使用三种训练方法：监督学习（SL）、强化学习（RL）和课程学习（CL）。所有方法均用离线训练和在线搜索。

结果

模型训练

纯强化学习（RL）代理从随机探索开始，逐渐学会股票交易的技巧。监督学习（SL）代理的性能受限于专家提供的知识，因此其表现存在明显的上限。相比之下，课程学习（CL）代理在训练过程中表现出更高的稳定性，收敛速度更快，并且在早期阶段有效利用了专家知识。尽管RL和CL代理在大约1 × 10^-5时间步后收敛速度都会减缓，但CL代理的表现波动更小。CL代理能够迅速找到高质量的解决方案，在大约40,000时间步内就能达到与RL代理相似的奖励水平。

投资组合表现

在管理包含100只股票的投资组合时，课程学习（CL）代理显著超越了均等加权和均值方差优化方法，展现出更高的夏普比率和更低的最大回撤。CL代理的表现与S&P 500 ETF（SPY）相近，但略胜一筹，超出约2%。我们采用了传统的训练-测试评估方法，其中前200个交易日用于训练环境，随后的52个交易日作为测试环境。在样本外的回测中，CL代理的表现优于强化学习（RL）代理，其奖励分布也证实了这一点。