当前位置：首页 > news >正文

知医邦公开中医查体大模型：184956个Token与核心算法详解

news 2026/7/28 5:28:23

中医AI先驱知医邦开源其ChatiSS查体大模型，涵盖舌诊、脉诊、五运六气、智能问诊、辨证论治及遣药组方全流程

背景

知医邦近日宣布，将其研发的查体智能辅助系统（ChatiSS）核心数据与算法公开。该系统基于184,956个词元（Token）、约2亿个拓扑集合计算元素构建的病证方药数据库，并利用5年约2800万健康数据进行训练。知医邦表示，此举旨在推动中医AI的行业发展，效仿特斯拉开放专利的策略，践行“人民至上、生命至上”的理念。

一、词元数据（Token分布）

ChatiSS的词元覆盖中医诊断、治疗、方药等各个维度，具体统计如下：

	行话	舌症	脉症	运气	症状	病侯
Token	2144	757	516	69	2802	2668
	舌象	脉象	证素	证型	疾病	病证	治法
Token	56	70	400	3718	5876	8226	2732
	药对	食材	本草	饮片
Token	1538	2722	9496	616
	中药	西药	保健	药禁	禁忌	食忌
Token	6981	6209	226	7072	10440	2074
	穴位	头针	耳穴	手穴	足穴
Token	484	32	155	90	79
	推拿	针灸	艾灸	拔罐	刮痧	导引
Token	270	5164	586	216	110	264
	经方	药膳	厨医	外治	美容	偏方	效方	时方
Token	484	9363	20987	3322	4058	8038	33394	20452

其中“厨医”“效方”“时方”是Token量最大的三个类别，体现了知医邦对食疗与经验方的重视。

二、核心算法模型

A. 舌诊模型

基于寒热、虚实、燥湿、亏滞四个维度，结合肝、心、脾、肺、肾五行系统分析舌色与舌态。四项核心发明专利均以“数学模型”为底层逻辑：

《一种基于气血津液数学模型的看舌头的系统》
《一种舌诊寒热虚实数学模型的构建方法》
《一种用于识别舌头苔形、苔质数学模型的构建方法》
《一种基于舌诊用舌面轮廓环区域划分数学模型的识别方法》

示例公式（寒热指数）：

寒热指数 = AVERAGE(SIN((1/2*S - 1/2)*π) + SIN(H*π*2) + SIN((V-1/2)*π/3))

B. 脉诊模型

核心专利：《一种基于穿戴式脉象仪的标准化脉诊方法及脉诊平台》

将中医28脉（加上大脉、平脉共30种）的文本描述转化为计算机语言，从四个维度量化：

脉位：深度、长度
脉数：频率、节律
脉形：宽度、紧张度、饱满度
脉势：流利度、力度、坡度

通过自研脉象仪采集脉图特征，与数据库匹配，并利用人机双盲校验持续优化算法。

C. 五运六气模型

公历转换规则：

若月份 = 1月，阳历年数 = 公历年数 - 1
否则，阳历年数 = 公历年数

推算逻辑（简化版）：

根据天干定五运
根据地决定司天之气 → 推出在泉之气
分析气候与健康影响

选择规则：

五运“有余”：取总和最大且>4者，并列则取对应六气最大者
五运“不及”：取总和最小且<2者，并列则取对应六气最小者
六气：取气数总和最大者，并列则取对应五运最大者

注：完整模型还包含主客、郁发、胜复等概念，此处仅给出权重计算框架。

D. 智能问诊模型

1.1 根据用户填写内容拆组词，加上舌诊脉诊五运六气等记录导入词，拆组词需要在词元表“病症”页里面运算一次，完成俗话到行话的转换，得到匹配词元集合[A]

1.2 词元表“病症”页中H列[病侯]外显在身体状态的586条词元集合[G]

1.3 令集合[F]=[恶寒、发热、无汗、多汗......]，m=1~20个词元分数都=1+(21-m)/1000

1.4 将集合{[F]+[A]}∩[G]=[E]=[E1、E2......、En]各词{分数[F]+[A]相加}按得分大小列出前20个，供用户选取，得集合[C]

2. 望闻问切1080条词元集合[B]，取[C]∩[B]=[D]=[D1、D2......、Dn]，如果集合[D]为空集(n=0)，则立即结束询问

3. 在词元表“病症”页，将含有集合[D]=[D1+ D2......+ Dn]中所有词元的行，标红

4. 予以全部标红行，统计集合[B]中各词元出现的次数，排除[D1、D2......、Dn]，取次数最多的词元的外显选项进行询问

4.1. 如果询问结果为“否”，按4.0.中次数下一位的词元进行询问，如果没有次数下一位的词元，则立即结束询问

4.2. 如果询问结果为“是”，就产生了新的词元[Dn+1]，将此词元增加到集合[D]'=[D1、D2......、Dn、Dn+1]，用增加后的集合[D]'重复3.--4.2.

4.3. 如果询问结果为“结束回答”，则立即结束询问

E. 辨证论治模型

1.1 用户填写：21字。

1.2 拆组词法：先按符号、空格进行拆词,对所得字段按右侧规则再进行一次拆组词，产生一批新词，加入匹配词元。

2 导入词：硬性定义，不参与拆组。

3 匹配计数：没有约定计数=Φ^2；否定症，阳性计数=0，阴性计数=1；其他、阳性计数=1，阴性计数=0；

4 计算词：

4.1 症候、行话计算症候(症状/病候)、行话=∑俗话计数，

4.2 ≥1，症候(症状/病候)、行话计数=1，加入匹配词元。

4.3 计算症候(症状/病候)、行话=算法B。

4.4 ≥1，症候(症状/病候)、行话计数=1，加入匹配词元。

4.5 证素计算证素=算法A。

4.6 ≥1，证素计数=1，加入匹配词元。

4.7 证型计算证型=算法A。

4.8 ≥1，证型计数=1，加入匹配词元。

5 算法：

分数=(A)^{{e^[-LOG10(|n-4|+10)+LOG10(14)]}^4×e^(V/8)/4}，if A≤0.01，计为A=0.01；

A=(∝必有+Φ^2)×(∝否定+Φ^2)×{[∑特征/|2×m-1|^(Φ^4)]×Φ^-1+[∑常见/|2×m-1|^(Φ^4)]×Φ^0+[∑一般/|2×m-1|^(Φ^4)]×Φ^1+Φ^4}/(2×Φ^-1)。

F. 遣药组方模型

1.1 排除词元表“组方”页BI列(处方剂量)里面为N/A的行，选取查体得分≥1，分数最高的100个方子，作为选出的方子。

1.2 计算选出的方子，每个方子中的药材占比=1/方子的药材数^0.5，统计100个方子里面各药材的药材占比之和=E，取E最大的12个药材，如果出现相同的E，取药材本身查体得分高的，作为为集合[A]=[A1、A2......A12]。

1.3 从集合[A]=[A1、A2......A12]中取药材本身查体得分高的6个药材为集合[B]=[B1、B2......B6]。

2.1. 从选出的方子中挑选出任意两个，假设为α和β，其药材组成集合[C]α和[C]β。

2.2. 将满足条件的两个方子α和β合并为一个新的方子。

2.3. 将这些合方与查体得分最高的100个方子一样，都是目标方子。

3.1. 排除词元表“配药”页BI列里面为N/A的行，选取查体得分≥1，分数最高的10组药对。

3.2. 将目标方子内含有上面10组药对的药对找出来，方子内含药对本身查体得分的平均数=各药对的自身查体得分之和/药对组数^(1/2)。

4.1. 排除词元表“配药”页BI列里面为N/A的行，挑选出药对本身查体得分≥1且其组合药材至少含有集合[B]中的6位药材任意一味且的，再取查体得分最高的1组药对，里面的药材为集合[D]=[D1、D2]or[D1、D2、D3]，可能是2味药材或3味药材；

4.2. 找出治法里面带“加X”的查体得分≥1最高的2个治法，其对应药材为集合[X]=[X1、X2]；

5. 用[B]去匹配目标方子，F=完全匹配[B]的药材数/(6+方子的药材数-完全匹配[B]的药材数)×方子本身查体得分^2×方子中药材本身查体得分的平均数×方子内含药对本身查体得分的平均数×2^{-[(方子的药材数-6)^2]/12}，取F最大的一个方子为基础方，该基础方自身的药材组成集合[C]。

6.1. 将属于集合[D]∪[X]但不属于集合[C]的药材,取2个药材本身查体得分高的，作为加某某。

6.2. 将属于集合[C]但不属于集合[A]∪[D]∪[X]的药材,取1个药材本身查体得分低的，作为减某某；

6.3. 将集合[C]里面的药材符合十八反十九畏的就是触犯了配伍禁忌，将药材本身查体得分低的直接剔除；

6.4. 将集合[C]里面的药材与集合[D]∪[X]里面的药材逐一匹配，符合十八反十九畏的就是触犯了配伍禁忌，将集合[D]∪[X]里面的药材直接剔除：

7.AI处方用药匹配词元表“配药”页BI列里面的剂量就是AI处方，匹配不到剂量的药材自动剔除。