高频数据下载和分析笔记,逐笔tick和分钟行情拆分记录分享
量化程序最适合高频数据分析,从deepseek衍生的模型是为了推理服务,当遇到大模型+大数据时,真正的价值才能被挖掘出来。比如采用deepseek+level2数据训练的模型能精确找到主力动向,这也是很多量化爱好者研究的方向。
先说最“重”的,逐笔成交(Tick)。这玩意儿记录的是市场里每一笔真实的成交,一笔都不落。你看到的每分钟K线,可能就是由几十上百笔Tick数据汇总出来的。它的核心就是记录“谁”在“什么时间”以“什么价格”成交了“多少量”。字段看着简单,但信息量不小。
# 示例:获取股票逐笔成交数据# 这里以CMES金融数据库的行情接口为例,注意入参正确,调用频率正常。importcmes_dataascmes# 初始化客户端,需要你的API Key和Secretclient=cmes.DataClient(api_key='your_key',api_secret='your_secret')# 获取某只股票某一天的逐笔成交数据tick_data=client.get_tick_data(symbol='000001.SZ',# 股票代码trade_date='2023-10-27',# 交易日fields=['time','price','volume','amount','bs_flag','order_kind']# 指定返回字段)print(tick_data.head())上面代码里的bs_flag(买卖方向)和order_kind(订单类型,比如是主动买还是主动卖)是分析资金流向的关键。以前我只看价格涨跌,后来发现主动买入的密集成交和被动卖出的密集成交,后续走势可能完全不一样。
然后就是Level 2行情数据,这应该是大家最常接触的深度行情了。它和普通行情最大的区别,就是提供了买卖双方前五档甚至前十档的报价和挂单量。普通行情只给个买一卖一,就像只看到战场最前线的一排士兵;Level 2能让你看到后面几排的兵力部署,感觉完全不一样。
它的核心字段分两大块:
- 五档/十档报价:
bid_price1`bid_price5/10`(买一到买五/十的价格),`bid_volume1`bid_volume5/10(对应的委托量)。卖盘同理,是ask_price1和ask_volume1。 - 快照信息:
last_price(最新价),total_volume(当日总成交量),total_amount(总成交额),high/low(当日最高/低价)。
光看字段可能有点干,我举个例子。有时候你会发现买一价挂着一个天文数字的买单,但股价就是涨不上去,甚至还在慢慢跌。以前会觉得是主力护盘,后来用Level 2数据结合逐笔一看,发现那可能是个“钓鱼单”,不断有小单在主动卖出,消耗那个大买单,等快被吃光时又撤单挂到更低价位。这种细节,没有深度行情数据根本看不出来。
为了验证一些订单薄上的微观模式,我调取了CMES金融数据库中过去三年的部分股票Level 2数据进行回测,光是数据清洗和匹配就花了不少时间,但结论比只用日线数据要扎实一些。
说到这,可能有人会迷糊,Tick数据和Level 2快照数据到底啥关系?可以这么理解:
| 数据维度 | 逐笔成交 (Tick) | Level 2 快照 (Snapshot) |
|---|---|---|
| 它是什么 | 流水账,记录每一笔成交的明细。 | 定时拍照,每隔几秒拍一张市场订单簿的“照片”。 |
| 核心内容 | 成交时间、价格、成交量、买卖方向、订单类型。 | 多档买卖报价、报价对应的挂单量、市场快照统计信息。 |
| 数据频率 | 不稳定,市场活跃就多,冷清就少。 | 稳定,通常是3秒或6秒一张快照。 |
| 个人使用感受 | 数据颗粒度最细,分析资金行为必备,但数据量巨大,处理起来很头疼。 | 数据规整,分析市场深度和短期供需平衡的主力工具。 |
最后提一嘴订单簿数据,这个可以理解为Level 2的“超级加量版”。它不仅包含快照,还可能包含快照之间详细的订单变化(比如新增委托、撤单等),数据维度更丰富,当然体积也更庞大。一般做高频交易或者非常精细的订单流分析才会用到,新手建议先玩转前两种。
说实话,整理这些数据字段写得我手都酸了。最后给点实在的建议吧:如果你是刚开始做量化的朋友,别一上来就死磕Tick数据,真的容易劝退。先从处理日线数据开始,然后过渡到Level 2的快照数据,等对数据清洗、对齐、存储这些脏活累活有概念了,再考虑把逐笔数据加进来,会顺很多。
对了,这些数据包通常都很大,动辄几十G,下载和存储都是问题。我之前用过一个变通的办法,就是只提取自己策略需要的少数几只股票或特定时间段的数据,没必要全下。如果有人有更好的数据管理方案,求分享啊,评论区交流!
好了,关于数据本身的内容就聊这么多,我得去重启我的服务器了。
