2026年4月26日论文再次规划
文章目录
- 1. 新论文定位:从 “Unified Benchmark” 改成 “Evaluation Framework”
- 2. 关键科学问题:建议凝练成 4 个 RQ
- RQ1:单数据集随机划分的高分,能不能支持临床泛化结论?
- RQ2:把 27 个数据集直接合并成 68 类,是不是在测“疾病识别”,还是在测“数据集识别”?
- Dataset Shortcut Audit
- RQ3:医学筛查里 accuracy/F1 不够,假阳性约束下模型还能不能用?
- RQ4:未来统一语音疾病大模型应该被测哪些能力?
- 3. 数据集取舍:必须分 Tier,不要硬说 27 个都能统一 release
- Tier A:正式 benchmark 主体
- Tier B:受控公开数据
- Tier C:license 不清楚或无法复现的数据
- 4. 新实验方案:下周就按这个跑
- 必须完成实验 A:Split Protocol Audit
- 必须完成实验 B:Hierarchical Unified Evaluation
- 必须完成实验 C:Clinical False-Positive Evaluation
- 必须完成实验 D:Dataset Shortcut Audit
- 1. Dataset-only oracle
- 2. Audio-to-dataset classifier
- 可选实验 E:Robustness Stress Test
- 5. Benchmark artifact:这是投稿成败关键
- SpeechDx-Eval Suite
- 6. 文章结构:按 NeurIPS ED Track 写,不按 ICASSP 模型论文写
- Abstract
- Introduction
- Contributions
- Methods / Benchmark Design
- Experiments
- Discussion
- 7. 今晚组会可以直接展示的 10 页 PPT
- Slide 1:旧稿问题诊断
- Slide 2:NeurIPS ED Track 机会
- Slide 3:新版 thesis
- Slide 4:Benchmark artifact
- Slide 5:Disease/audio taxonomy
- Slide 6:Evaluation protocols
- Slide 7:Core experiment 1
- Slide 8:Core experiment 2
- Slide 9:Core experiment 3
- Slide 10:8 天执行计划
- 8. 从今天到截止的执行计划
- 4 月 26 日今晚
- 4 月 27 日
- 4 月 28 日
- 4 月 29 日
- 4 月 30 日
- 5 月 1 日
- 5 月 2 日
- 5 月 3 日
- 5 月 4 日
- 5 月 5–6 日
- 9. 旧稿中必须改掉的点
- 1. 不要再把 “27 datasets + 4 baselines” 当核心贡献
- 2. 不要主打 accuracy
- 3. 不要用 flat 68 类作为主实验
- 4. 不要把 oversampling/downsampling 当默认无害处理
- 5. 不要说 “unified database” 除非真的能 release raw data
- 10. 最后给你一个今晚可以直接念的版本
- 11. 你这盘菜该怎么炒
你现在不要再把论文包装成“我跑了很多模型”。新版必须改成:
我们不是提出一个更强的疾病检测模型,而是提出一套面向“未来统一语音疾病监测大模型”的评测科学框架:什么数据能测什么能力,什么划分能支持什么结论,什么指标能反映临床风险,现有模型在哪些评测假设下会失效。
这正好贴 NeurIPS 2026 Evaluations & Datasets Track。官方说这个 track 关注的是 evaluation 本身作为科学对象:测什么、在什么假设下测、结果能支持什么结论,而不是必须提出新模型或打败 SOTA;negative results、evaluation redesign、stress-testing、benchmark methodology 都在范围内。(NeurIPS 博客) 另外,官网明确要求数据和代码在投稿时可访问、文档清晰;如果是数据集论文,还要提供 Croissant metadata。(NeurIPS) 你的旧稿已经有 27 个公开数据集、8 类疾病、425,075 条样本、769.4 小时语音,以及 MLP/CNN/Mantis/Wav2Vec2 的基线结果,但旧稿主要还是“跑表格”。 审稿人最关键的质疑也正是:数据在哪里、license 是什么、benchmark 到底是数据+测量,还是只是 bakeoff。
下面是我建议你今晚组会直接拍板的方案。
1. 新论文定位:从 “Unified Benchmark” 改成 “Evaluation Framework”
我建议题目改成:
SpeechDx-Eval: A Clinically Grounded Evaluation Framework for Generalist Speech-Based Disease Diagnosis
或者更有问题意识一点:
Measuring What Matters in Speech-Based Disease Diagnosis: A Unified Evaluation Framework under Dataset Shift and False-Positive Constraints
核心 thesis:
Existing speech disease diagnosis studies report high performance on isolated datasets, but such scores do not specify what clinical or generalization claim they support. We introduce SpeechDx-Eval, a unified evaluation framework that decomposes speech disease diagnosis into reproducible evaluation claims: in-distribution detection, cross-dataset generalization, unified disease-family triage, open-set/unknown-disease behavior, calibration, false-positive constrained safety, and robustness to recording shifts. Across 27 public datasets, we show that common evaluation choices such as random sample splits, flat label merging, aggressive resampling, and accuracy-only reporting can reverse model rankings and overstate clinical readiness.
中文讲法:
我们的贡献不是“某个模型更准”,而是告诉这个领域:一个语音疾病大模型到底应该怎么被评测,哪些分数能说明它能泛化,哪些分数只是数据集记忆,哪些分数在医学筛查中会因为假阳性失控而不可用。
这比旧稿强很多,因为它把 reviewers 的质疑反过来变成文章贡献。
2. 关键科学问题:建议凝练成 4 个 RQ
RQ1:单数据集随机划分的高分,能不能支持临床泛化结论?
你旧稿使用 70/15/15 split、统一训练、统一 baseline。这个在 ICASSP 5 页里能说清楚不容易,但在 NeurIPS ED Track 里必须变成一个被研究的问题:不同 split protocol 会不会导致完全不同的结论?
具体要测:
| Protocol | 支持的结论 | 风险 |
|---|---|---|
| Sample-level random split | 同一数据集、同一采集条件下的近似 IID 识别 | 可能有 speaker/session leakage |
| Subject-level split | 新受试者泛化 | 比 sample split 更接近医学使用 |
| Leave-one-dataset-out, LODO | 跨医院/跨设备/跨语言/跨任务泛化 | 最接近真实部署 |
| Leave-one-disease-family-out | 未知疾病或新疾病泛化 | 面向未来 generalist model |
你要做一个核心实验:
同一个模型,同一批数据,比较 random split、subject split、LODO split 下的性能变化。
这张表会非常有杀伤力:
| Model | Random Split F1 | Subject Split F1 | LODO F1 | Random-to-LODO Drop |
|---|---|---|---|---|
| MLP-MFCC | ||||
| CNN-Mel | ||||
| Wav2Vec2 probe | ||||
| Mantis probe |
如果结果显示随机划分高、LODO 掉很多,这就是 evaluation paper 的核心发现:旧领域的常规评测夸大了模型能力。
RQ2:把 27 个数据集直接合并成 68 类,是不是在测“疾病识别”,还是在测“数据集识别”?
你旧稿 Table 2 把 27 个数据集合成 68 类,MLP 反而最高。这很容易被 reviewer 认为是“bakeoff”或“数据集 shortcut”。新版必须主动审计这个问题。
你要加入一个非常关键的 control experiment:
Dataset Shortcut Audit
做三个 baseline:
| Baseline | 输入 | 目的 |
|---|---|---|
| Dataset-only oracle | 只知道 dataset ID,不看音频 | 测 label 和 dataset 的混淆程度 |
| Dataset-ID classifier | 音频特征 → 预测来自哪个 dataset | 测录音条件、麦克风、语言、任务能否被模型识别 |
| Disease classifier | 音频特征 → 疾病标签 | 正常模型 |
如果 “dataset-only oracle” 或 “dataset-ID classifier” 已经很高,而 disease classifier 在 random split 高、LODO 低,那么你可以得出一个很重要的结论:
Flatly merging heterogeneous disease datasets can reward dataset recognition rather than disease understanding.
这是非常适合 NeurIPS ED Track 的 evaluation science。官方明确欢迎分析 benchmark failure modes、比较不同 evaluation design 如何导致不同结论、stress-test 现有评测。(NeurIPS)
所以新版不要再把 “68 类统一分类” 当成主贡献,而是改成:
我们发现 naïve 68-class merging 是有风险的,因此提出 hierarchical taxonomy 和 anti-shortcut evaluation。
RQ3:医学筛查里 accuracy/F1 不够,假阳性约束下模型还能不能用?
你提到“医学特性:假阳性占比优化情况”,这个方向非常对,而且应该成为新版的核心亮点之一。
医疗筛查中最危险的问题是:疾病低患病率时,哪怕 FPR 很低,也会产生大量假阳性。例如如果真实患病率只有 1%,模型 sensitivity=90%、FPR=5%,那么:
[
PPV = \frac{0.01 \times 0.90}{0.01 \times 0.90 + 0.99 \times 0.05} \approx 15.4%
]
也就是说,阳性预测里只有约 15% 真的是阳性。这个例子可以放进 introduction 或 metric section,说明为什么 accuracy 不够。
你要新增一个Clinical Safety Scorecard:
| Metric | 含义 | 为什么重要 |
|---|---|---|
| AUROC | 阈值无关区分能力 | 常规能力 |
| Sensitivity @ 95% Specificity | 假阳性受控时还能找出多少病人 | 适合筛查 |
| FPR @ 90% Sensitivity | 想少漏诊时需要付出多少假阳性 | 反映报警负担 |
| PPV at prevalence 1%, 5%, 10% | 不同真实患病率下阳性预测可信度 | 临床可解释 |
| ECE / Brier Score | 置信度是否可信 | 医疗决策需要校准 |
| Threshold Transfer Gap | validation 上选的阈值到新 dataset 是否失效 | 真实部署关键 |
核心实验:
用 validation set 选择一个满足 95% specificity 的阈值,然后固定阈值,在 test dataset 或 held-out dataset 上评估 sensitivity、FPR、PPV。
这会把文章从“AI 分类表格”变成“医学评测框架”。
RQ4:未来统一语音疾病大模型应该被测哪些能力?
你现在的判断“为未来统一的语音疾病监测大模型设计打分标尺”是准确的,但要具体化。这个打分标尺不能是一个平均 accuracy,而应该是一个多维 scorecard。
我建议 SpeechDx-Eval 包含 5 个能力维度:
| 维度 | 测什么 | 对应实验 |
|---|---|---|
| IID Discrimination | 单数据集内能不能识别 | subject-level split |
| Cross-Dataset Generalization | 换医院、换设备、换语言还能不能用 | LODO |
| Unified Triage | 能不能做 healthy/abnormal 和 disease-family triage | hierarchical classification |
| Clinical Safety | 假阳性约束、PPV、校准 | Sens@Spec、PPV、ECE |
| Robustness | 噪声、采样率、时长变化是否崩溃 | perturbation stress test |
你可以给一个SpeechDx-Eval Scorecard,不要只给 overall score。NeurIPS ED Track 要你说明每个评测支持什么 claim、在什么假设下有效、有什么 limitation。(NeurIPS 博客)
3. 数据集取舍:必须分 Tier,不要硬说 27 个都能统一 release
你现在最大风险不是模型,而是数据合规和 benchmark artifact。Reviewer 已经明确问:data 在哪里、license 是什么、benchmark 是不是完整提供。
今晚组会要定一个原则:
Tier A:正式 benchmark 主体
只放满足以下条件的数据集:
- public 可获取;
- license/terms 清楚;
- 允许研究使用,至少可以提供 download instructions;
- 有清楚 label;
- 最好有 subject/session ID;
- 能支持 reproducible split。
这些数据集进入主表、主实验、主 score。
Tier B:受控公开数据
需要申请、注册、DUA 或不能直接下载的数据集。可以保留为 optional extension。
文章里说:
We provide loaders, metadata schema, split-generation scripts, and evaluation files; users place raw data according to original licenses.
Tier C:license 不清楚或无法复现的数据
不要放进主 benchmark。可以在 appendix 写 “coverage analysis only”,不要用它支撑主结论。
这一步非常重要。否则 NeurIPS ED Track 会因为 artifact 不可访问直接吃亏。官网要求 datasets/code 在 submission 时 properly hosted, accessible, clearly documented;大于 4GB 的数据还应提供 sample 以便 reviewer inspect data quality。(NeurIPS)
另外,我建议你重新处理 HLS。旧稿里有 Heart and Lung Sounds,但它严格来说不是 speech,而是 auscultation audio。 如果继续叫 speech-based disease diagnosis,HLS 很容易被质疑。两个选择:
- 保守方案:主 benchmark 删除 HLS,放 appendix “non-speech physiological audio extension”。
- 激进方案:标题改成 “human health audio”,把 speech、cough、breathing、heart/lung 都纳入。
我建议保守:主线聚焦 speech/vocal/respiratory self-recorded audio,HLS 不做主实验。
4. 新实验方案:下周就按这个跑
你时间很紧,所以不要发散。实验分成必须完成和可选完成。
必须完成实验 A:Split Protocol Audit
目的:证明旧式随机划分不够,评测方案本身会改变结论。
数据:每个 disease family 选 2–4 个可复现数据集。优先选择:
| Disease family | 条件 |
|---|---|
| Alzheimer | ≥2 数据集,二分类 AD/MCI/HC 可统一 |
| Parkinson | ≥2 数据集,PD vs HC |
| Depression/Psychological | DAIC/E-DAIC/EATD 类 |
| Dysarthria | TORGO/UASpeech/EasyCall 类 |
| Respiratory | COVID/cough/asthma/respiratory abnormal,能统一则用 |
| Speech disorders | 有 typical vs impaired 则用 |
实验:
| Split | 说明 |
|---|---|
| Random sample split | 对照旧论文 |
| Subject-level split | 主标准 |
| Leave-one-dataset-out | 主 OOD 标准 |
模型只需要 3–4 个:
| Model | 定位 |
|---|---|
| MFCC + Logistic Regression / MLP | 强传统基线,速度快 |
| CNN-Mel | 常规深度基线 |
| Wav2Vec2 frozen probe | speech foundation model |
| Mantis frozen probe | time-series foundation model |
输出:
| Disease | Model | Random F1 | Subject F1 | LODO F1 | Drop |
|---|
这是主结果表之一。
必须完成实验 B:Hierarchical Unified Evaluation
不要再直接说 68 类 disease classification。改成三层:
| Level | Task | Label |
|---|---|---|
| Level 0 | Screening | healthy vs abnormal |
| Level 1 | Triage | disease family,例如 dysarthria / AD / PD / respiratory / depression |
| Level 2 | Dataset-specific diagnosis | 原始数据集 label,放 appendix 或 secondary |
这样更有临床逻辑:未来统一模型首先应该知道“是否异常”,其次知道“大概哪类问题”,最后才是具体疾病标签。
实验:
| Task | Metric |
|---|---|
| Healthy vs abnormal | AUROC, macro-F1, Sens@95Spec |
| Disease-family triage | macro-F1, balanced accuracy |
| Fine-grained labels | optional, not main |
输出:
| Model | L0 AUROC | L0 Sens@95Spec | L1 Macro-F1 | L2 Macro-F1 |
|---|
这张表替代旧稿 Table 2。
必须完成实验 C:Clinical False-Positive Evaluation
每个二分类任务都做:
- validation set 上找阈值,使 specificity ≥ 95%;
- test set 上固定这个阈值;
- 报告 sensitivity、FPR、PPV at prevalence 1%, 5%, 10%;
- 做 calibration:ECE、Brier score;
- 如果来得及,加 temperature scaling 前后对比。
输出表:
| Model | AUROC | F1 | Sens@95Spec | FPR@90Sens | PPV@1% | ECE |
|---|
你要强调:
Accuracy/F1 高的模型,不一定在 false-positive constrained setting 下可用。
这就是医学评测价值。
必须完成实验 D:Dataset Shortcut Audit
这个实验非常重要,因为它能解释旧稿为什么被说“只是结果展示”。
做两个 baseline:
1. Dataset-only oracle
不看音频,只根据 dataset ID 预测最常见 label。
如果这个 baseline 在 unified 任务上很高,说明 flatten 68 labels 存在 dataset-label shortcut。
2. Audio-to-dataset classifier
输入 MFCC / Wav2Vec2 embedding,预测 dataset ID。
如果 dataset-ID accuracy 很高,说明模型很容易学到采集环境、语言、设备、任务类型,而不是疾病本身。
输出:
| Setting | Disease F1 | Dataset-only F1 | Dataset-ID Acc | Interpretation |
|---|---|---|---|---|
| Random split | shortcut risk | |||
| Subject split | moderate | |||
| LODO | N/A | N/A | real generalization |
这会把 reviewer 的 “Table 2 is just a bakeoff” 变成你的发现:
Naïve unified classification can conflate disease recognition with source recognition; therefore, SpeechDx-Eval reports anti-shortcut LODO and hierarchical metrics as primary evaluation.
可选实验 E:Robustness Stress Test
时间不够就做小一点。只对 2 个模型、3 个任务做。
扰动:
| Perturbation | 目的 |
|---|---|
| 8kHz downsample then upsample | 电话/低采样设备 |
| additive noise, SNR 20/10 dB | 家庭环境 |
| random crop to 5s/10s | 移动端短语音 |
| MP3/AAC compression | 真实上传压缩 |
指标:
[
\text{Robustness Drop} = \frac{Score_{clean} - Score_{perturbed}}{Score_{clean}}
]
输出:
| Model | Clean | Noise | 8kHz | Crop | Avg Drop |
|---|
5. Benchmark artifact:这是投稿成败关键
你要在论文里明确说你 release 的不是“一个神秘大数据集”,而是:
SpeechDx-Eval Suite
包含:
speechdx_eval/ README.md data_cards/ alzheimer_pitt.md adress_m.md ... dataset_configs/ pitt.yaml daic_woz.yaml coughvid.yaml ... manifests/ pitt_manifest.csv daic_manifest.csv ... splits/ iid_subject/ leave_one_dataset_out/ hierarchical_unified/ speechdx_eval/ evaluator.py metrics.py taxonomy.py calibration.py examples/ model_output_format.csv croissant.json LICENSES.md每个 manifest 至少包含:
sample_id dataset audio_path subject_id session_id duration sampling_rate audio_type language disease_family label_raw label_binary label_level1 label_level2 split license source_url用户接入新模型只需要输出:
sample_id, prediction, score_or_prob然后运行:
python-mspeechdx_eval.evaluate\--predictionpredictions.csv\--taskclinical_screening\--splitleave_one_dataset_out输出:
macro_f1 balanced_accuracy auroc sensitivity_at_95_specificity ppv_at_1_prevalence ece robustness_drop这就是 reviewer 想要的“benchmark = data + measures + protocol”。
你可以参考 WARC-Bench 的写法:它不是只报模型成绩,而是定义 missing capability、任务组成、可执行 evaluator、train/dev/test split 和自动评估方式。(ar5iv) 你的 analog 是:
| WARC-Bench | 你的 SpeechDx-Eval |
|---|---|
| web environment | speech dataset manifests + preprocessing |
| goal | disease detection / triage / safety evaluation |
| evaluator | fixed metrics + threshold protocol |
| deterministic reward | fixed split + fixed scoring script |
| subtask capability | generalist clinical speech diagnosis capability |
6. 文章结构:按 NeurIPS ED Track 写,不按 ICASSP 模型论文写
Abstract
不要写 “we benchmark MLP/CNN/Wav2Vec2”。要写:
Speech-based disease diagnosis is typically evaluated on isolated datasets with inconsistent splits, metrics, and preprocessing, making it unclear what claims reported scores support. We introduce SpeechDx-Eval, a clinically grounded evaluation framework and dataset suite for assessing generalist speech disease diagnosis models. SpeechDx-Eval organizes public datasets into a hierarchical disease taxonomy and provides reproducible manifests, licensing documentation, standardized splits, and an executable evaluator. Unlike conventional benchmarks that emphasize in-distribution accuracy, SpeechDx-Eval evaluates five claims: in-distribution discrimination, cross-dataset generalization, unified disease-family triage, false-positive constrained clinical safety, and robustness to recording shifts. Across 27 public datasets, we show that common evaluation choices—sample-level random splitting, flat label merging, aggressive resampling, and accuracy-only reporting—can substantially overstate performance and even reverse model rankings. Our results suggest that current speech and time-series foundation models are not yet reliable generalist speech disease monitors under dataset shift and clinical false-positive constraints. SpeechDx-Eval provides a reusable scorecard for future speech health foundation models.
Introduction
逻辑:
- speech disease diagnosis 很有潜力;
- 但现在每个疾病一个小数据集、每篇论文一个 split、一个 metric;
- 这导致 reported progress 不可比;
- 更严重的是,未来 generalist speech health model 需要跨疾病、跨数据集、低假阳性、可校准;
- 现有 benchmark 没有测这些;
- 我们提出 SpeechDx-Eval。
Contributions
写成这样:
- Evaluation framework:定义 speech disease diagnosis 中不同 evaluative claims:IID detection、cross-dataset generalization、hierarchical triage、clinical safety、robustness。
- Dataset suite and documentation:整理 27 public datasets,提供 taxonomy、manifests、license table、data cards、splits、Croissant metadata。
- Executable evaluator:提供标准 scoring API,支持新模型接入。
- Empirical audit:证明 random split、flat merging、resampling、accuracy-only reporting 会造成误导性结论。
- Baseline scorecard:给出 MLP/CNN/Wav2Vec2/Mantis 的多维结果,但强调 baseline 不是核心贡献。
Methods / Benchmark Design
不要先介绍 MLP。先介绍:
- Taxonomy;
- Dataset tiers;
- Evaluation protocols;
- Metrics;
- Clinical false-positive evaluation;
- Shortcut audit;
- Baselines。
Experiments
按 RQ 写:
- RQ1: How much do split protocols change conclusions?
- RQ2: Does flat unified classification measure disease or dataset identity?
- RQ3: How do models behave under false-positive constrained clinical evaluation?
- RQ4: Are current pretrained speech/time-series models ready for generalist SDD?
Discussion
要诚实写 limitations:
- 公开数据集 demographic metadata 不完整;
- 不同疾病 label 粒度不一致;
- 部分数据不能直接 redistribute;
- speech/audio tasks 异质性强;
- benchmark 是 research evaluation,不是临床诊断工具。
这反而符合 ED Track 对 scope、assumptions、limitations 的要求。(NeurIPS)
7. 今晚组会可以直接展示的 10 页 PPT
Slide 1:旧稿问题诊断
标题:Why the previous submission looked like a bakeoff
三点:
- 我们有大规模数据集合,但没有清楚说明“测评支持什么结论”;
- baseline 结果占据中心,导致 novelty 被认为不足;
- data access / license / evaluator 缺失,reviewer 不知道 benchmark 怎么复现。
引用 review 里的核心句子:Benchmark usually means data and measures; Table 2 is just a bakeoff.
Slide 2:NeurIPS ED Track 机会
标题:The track now rewards evaluation science
讲:
- evaluation itself is scientific object;
- 不需要新模型或打败 baseline;
- negative results、stress-testing、evaluation redesign 都欢迎;
- 但必须说明数据支持什么 claim、假设是什么、限制是什么。(NeurIPS 博客)
Slide 3:新版 thesis
标题:From “many baselines” to “what should be measured”
一句话:
SpeechDx-Eval is a scorecard for future generalist speech disease models, not a leaderboard of old classifiers.
Slide 4:Benchmark artifact
展示 repo 结构:
- manifests;
- data cards;
- license table;
- splits;
- evaluator;
- Croissant;
- model-output format。
Slide 5:Disease/audio taxonomy
展示三层:
- L0: healthy vs abnormal;
- L1: disease family;
- L2: dataset-specific labels。
说明为什么比 68 类 flat label 更合理。
Slide 6:Evaluation protocols
表格:
| Protocol | Claim |
|---|---|
| Subject split | new patient |
| LODO | new dataset/site |
| Hierarchical triage | generalist model |
| False-positive constrained | clinical screening |
| Robustness | real-world recording |
Slide 7:Core experiment 1
Split protocol audit:
Random vs Subject vs LODO。
目标:证明旧评测夸大泛化能力。
Slide 8:Core experiment 2
Dataset shortcut audit:
Dataset-only oracle、dataset-ID classifier、disease classifier。
目标:证明 naïve merging 可能测的是 dataset recognition。
Slide 9:Core experiment 3
Clinical safety:
Sensitivity@95Specificity、PPV@1/5/10 prevalence、ECE、threshold transfer。
目标:把医学特性放进 benchmark。
Slide 10:8 天执行计划
明确谁做什么。
8. 从今天到截止的执行计划
官网时间是abstract deadline: May 4 AoE,full paper deadline: May 6 AoE,所以你 5 月 4 日要先保证 abstract 和主线成型,5 月 6 日才是全文和 supplement 截止。(NeurIPS)
4 月 26 日今晚
组会拍板 5 件事:
- 题目改为 SpeechDx-Eval;
- 投稿 NeurIPS Evaluations & Datasets Track;
- 主贡献从 baseline 改为 evaluation framework;
- 数据集按 Tier A/B/C 取舍;
- 实验只做 4 个核心:split audit、shortcut audit、clinical safety、hierarchical triage。
4 月 27 日
任务:
- 完成 27 个数据集 license/access 表;
- 确定 Tier A 主 benchmark;
- 生成 manifest schema;
- 生成 subject-level split 和 LODO split;
- 写 dataset cards 模板;
- 建 GitHub/HF repo 雏形。
当天必须产出:
| Artifact | 状态 |
|---|---|
| LICENSES.md | 初版 |
| DATASETS.md | 初版 |
| manifest.csv | 至少核心数据集完成 |
| splits/ | 至少 subject split + LODO |
| evaluator.py | 能读 prediction CSV |
4 月 28 日
跑实验 A:Split Protocol Audit。
模型先用最快的:
- MFCC + Logistic/MLP;
- Wav2Vec2 frozen embedding + linear probe。
不要等 CNN/Mantis 全跑完。先有主发现。
4 月 29 日
跑实验 B 和 D:
- Hierarchical unified evaluation;
- Dataset-only oracle;
- Dataset-ID classifier;
- flat 68-class vs hierarchical taxonomy 对比。
当天要出图:
- random vs LODO gap;
- dataset shortcut bar chart;
- disease-family confusion matrix。
4 月 30 日
跑实验 C:
- Sensitivity@95Specificity;
- FPR@90Sensitivity;
- PPV at 1%, 5%, 10%;
- ECE/Brier;
- threshold transfer。
这天决定医学亮点是否成立。
5 月 1 日
补跑:
- CNN/Mantis;
- 三个 seeds;
- bootstrap 95% CI;
- robustness 小实验。
写 results 初稿。
5 月 2 日
写论文主线:
- Introduction;
- Benchmark Design;
- Evaluation Protocols;
- Dataset Documentation;
- Main Results。
不要陷入模型细节。
5 月 3 日
补 supplement:
- 每个数据集 card;
- license/access;
- preprocessing;
- split generation;
- hyperparameters;
- ethics statement;
- limitations。
5 月 4 日
提交 abstract。
同时全文必须已有 80% 完成。
5 月 5–6 日
查漏补缺:
- artifact anonymous;
- Croissant;
- README;
- reproducibility;
- ethics;
- checklist;
- PDF polish。
9. 旧稿中必须改掉的点
1. 不要再把 “27 datasets + 4 baselines” 当核心贡献
旧稿里 baselines 占据了 method 和 result 的主位置。 新版 baseline 放到 “evaluated systems” 小节即可。
2. 不要主打 accuracy
Accuracy 在类别不平衡和医学筛查里不够。主指标换成:
- macro-F1;
- balanced accuracy;
- AUROC;
- Sens@95Spec;
- PPV under prevalence;
- ECE;
- robustness drop。
3. 不要用 flat 68 类作为主实验
flat 68 类容易测 dataset shortcut。新版主实验是 hierarchical taxonomy。
4. 不要把 oversampling/downsampling 当默认无害处理
Reviewer 已经问 resampling 负面影响。 新版要专门做 resampling ablation:
| Training strategy | Macro-F1 | AUROC | Sens@95Spec | Calibration |
|---|---|---|---|---|
| full data + class weight | ||||
| oversampling | ||||
| downsampling to fixed cap |
结论可以是:
Resampling improves macro-F1 but can distort calibration and false-positive behavior.
这很有价值。
5. 不要说 “unified database” 除非真的能 release raw data
更稳妥的说法:
We release a reproducible benchmark suite consisting of dataset manifests, licensing documentation, preprocessing scripts, fixed splits, and an executable evaluator. Raw audio is accessed according to original dataset licenses.
10. 最后给你一个今晚可以直接念的版本
你可以在组会上这么说:
上一版的问题不是数据量不够,而是论文被写成了“我把 27 个数据集拿来跑了几个 baseline”。NeurIPS 2026 ED Track 的定位反而给了我们机会:它明确鼓励把 evaluation 本身作为科学对象。新版我建议改成 SpeechDx-Eval,不再主打模型,而是主打未来统一语音疾病大模型的评测框架。
我们定义五个评测能力:单数据集识别、跨数据集泛化、统一疾病家族分诊、假阳性约束下的临床安全性、录音条件扰动下的鲁棒性。实验上,我们不再只给平均 accuracy,而是做四个核心研究:第一,random split、subject split、leave-one-dataset-out 会不会改变结论;第二,flat 68 类合并是否学到 dataset shortcut;第三,在 95% specificity 约束下模型还能不能检测疾病;第四,现有 Wav2Vec2/Mantis/MLP/CNN 是否真的具备 generalist speech disease monitoring 能力。
数据方面,我们把 27 个数据集按 license 和可复现性分成 Tier A/B/C,只把可复现、license 清楚的数据放进主 benchmark;同时 release manifests、data cards、splits、evaluator、Croissant metadata 和 model-output format,让别人可以接入新模型测评。这样回应 reviewer 说的 benchmark 必须有 data and measures,而不是一个 bakeoff。
这篇文章的结论即使是 negative 也有价值:如果我们发现当前 foundation models 在 random split 高分,但 LODO、false-positive constrained、calibration 下表现不稳定,这正好说明领域需要一个新的评测框架,而不是又一个单疾病模型。
11. 你这盘菜该怎么炒
你手里的原料是 27 个数据集。旧做法是“大杂烩炒饭”:都倒进去,跑几个模型。新版要做成“评测体系”:
- 先分层:哪些数据能支持哪些 claim;
- 再定规则:什么 split、什么 label taxonomy、什么 metric;
- 再设陷阱:random split inflation、dataset shortcut、false-positive burden、calibration failure;
- 最后跑模型:模型只是被测对象,不是主角。
最终文章最有价值的结论应该是:
A clinically meaningful benchmark for speech disease diagnosis should not ask only “which model has the highest accuracy?”, but “under what evaluation assumptions does this score remain valid, and what clinical risk does it imply?” SpeechDx-Eval provides this missing measurement framework.
