当前位置：首页 > news >正文

Scikit-learn七大人工数据生成工具实战指南

news 2026/7/12 0:23:16

1. 项目概述：为什么你需要人工数据，以及这7个工具如何真正解决你的实际问题

在真实世界做机器学习项目时，我几乎每周都会遇到同一个困境：手头的数据要么太少，要么太脏，要么根本拿不到。比如上周帮一家社区诊所建一个糖尿病风险预测模型，他们只提供了37份完整病历——连训练一个基础逻辑回归都勉强，更别说调参和验证了。这时候，“生成人工数据”不是学术玩具，而是救命稻草。Scikit-learn 里那几个藏在sklearn.datasets模块下的函数，就是我过去五年反复打磨、实测、踩坑后筛选出的最可靠“数据生成器”。它们不依赖外部库，不引入额外依赖，不黑箱输出，每一步参数都有明确的数学含义，生成结果可复现、可解释、可控制。标题里说的“7个实用工具”，不是随便凑数——make_classification、make_regression、make_blobs、make_moons、make_circles、make_spiral（需自定义但高频使用）、make_multilabel_classification，这七个覆盖了分类、回归、聚类、多标签、非线性边界、高维稀疏等全部主流建模场景。它们不是用来“糊弄模型”的，而是用来诊断模型行为、测试pipeline鲁棒性、教学演示原理、填补冷启动数据缺口的工程级工具。如果你正在调试过拟合、想验证特征工程效果、需要给实习生准备一份结构清晰的练习数据集，或者正卡在“没有数据就无法推进”的死循环里——这篇文章里的每一个函数，我都附上了真实参数组合、生成逻辑推演、典型误用陷阱，以及我在客户现场亲手调过的配置值。它不讲抽象理论，只讲你打开Jupyter后第一行该写什么，第二行为什么这么写，第三行不这么写会出什么问题。

2. 核心设计思路拆解：为什么是这7个？而不是更多，也不是更少？

2.1 选型逻辑：从“能用”到“必须用”的三层过滤

很多人第一次接触make_*函数时，会觉得“不就是造点假数据吗？Python随机数不就能搞定？”——这是我2018年刚转ML工程时的真实想法。直到我用np.random.normal()手搓了一个“模拟房价数据”，结果发现：训练出来的模型在测试集上R²=0.92，一上线预测新楼盘价格，误差直接突破±40%。复盘才发现，我生成的“噪声”是纯高斯白噪声，而真实房价误差存在明显的异方差性（老城区误差小，新区误差大）、空间自相关性（相邻楼盘价格趋同）、还有政策突变导致的结构性断点。Scikit-learn 这7个函数的价值，正在于它们把领域知识封装进了参数接口。我们来拆解这个选型过程：

第一层过滤：是否解决真实瓶颈？
make_classification能控制类别不平衡比例（weights）、特征冗余度（redundant_features）、噪声水平（flip_y），这直接对应金融风控中“坏账率<1%”、医疗诊断中“罕见病样本稀缺”等硬约束；而make_regression的noise参数支持指定标准差，bias参数允许加入系统性偏差，这比np.random.randn()多出的不是代码行数，而是对现实误差结构的建模能力。

第二层过滤：是否具备可解释的生成机制？
make_blobs基于高斯混合模型（GMM）生成簇，每个cluster_std参数直接对应真实业务中“用户分群的离散程度”——比如电商用户RFM分群，高价值用户群的消费金额标准差必然小于价格敏感用户群；make_moons和make_circles则强制构造非线性可分结构，这是检验SVM核函数、神经网络激活函数是否真起作用的黄金标尺。它们不是“画个圈”，而是用确定性数学公式（如x = cos(t) + noise,y = sin(t) + noise）生成可追溯边界的样本。

第三层过滤：是否与scikit-learn生态无缝咬合？
所有make_*函数返回的都是(X, y)元组，X是numpy.ndarray，y是numpy.ndarray或scipy.sparse矩阵，与train_test_split、StandardScaler、Pipeline完全兼容。你不需要写任何类型转换或维度适配代码——这点在快速迭代中省下的时间，累计起来够你多跑5轮交叉验证。

提示：不要用make_spd_matrix或make_sparse_spd_matrix替代make_blobs。前者只生成协方差矩阵，后者不生成样本点，它们属于底层工具，不属于“数据生成器”范畴。真正的工程实践里，你要的是(X, y)，不是中间矩阵。

2.2 为什么没有`make_time_series`？——主动舍弃的合理性

你可能注意到列表里没有时间序列生成器。这不是遗漏，而是刻意排除。Scikit-learn 的设计哲学是“专注监督学习核心流程”，时间序列涉及滞后项、平稳性检验、季节性分解等强领域依赖操作，强行塞进make_*会导致接口爆炸（想想make_time_series(n_samples, freq='D', seasonality=12, trend_slope=0.05, ...)）。实践中，我推荐用statsmodels.tsa.arima_process.ArmaProcess或sktime专用库——它们的参数语义更精准，错误提示更友好。把时间序列塞进make_*名下，就像给螺丝刀装上锯齿去切木头：能动，但不是最优解。

2.3 参数设计的隐藏智慧：从数学公式到业务语言的翻译

以make_classification为例，它的n_informative、n_redundant、n_clusters_per_class这三个参数，表面是技术指标，实则是业务问题的映射：

n_informative=5→ “我们确认有5个核心指标影响决策，比如信贷审批中的收入、负债、工作年限、房产情况、征信查询次数”；
n_redundant=2→ “另外2个指标是前5个的线性组合，比如‘月还款额/月收入’其实是‘负债’和‘收入’的衍生，不提供新信息”；
n_clusters_per_class=2→ “同一类客户（如‘优质客户’）内部其实存在子群体，比如‘高收入高消费’和‘稳定中产’两类，决策边界不是单一线性面”。

这种参数命名，把统计学概念（informative features）直接锚定到业务术语（核心指标），让数据科学家和业务方能用同一套语言对齐需求。这才是工业级工具该有的样子——不是炫技，而是降本增效。

3. 7大工具逐个击破：参数详解、生成逻辑、实操配置与避坑指南

3.1`make_classification`: 分类任务的全能基座（覆盖80%的二分类/多分类场景）

这是我在客户现场调用频率最高的函数。它的强大在于用12个参数穷尽了分类数据的所有关键变异维度。先看一个生产环境真实配置：

from sklearn.datasets import make_classification import numpy as np # 模拟银行信用卡欺诈检测数据（真实项目脱敏参数） X, y = make_classification( n_samples=10000, # 总样本量：匹配线上日均交易量 n_features=20, # 特征数：包含原始字段+衍生特征 n_informative=8, # 真实有效特征：对应风控规则引擎的8条核心规则 n_redundant=4, # 冗余特征：如'近7天交易笔数'与'近30天笔数'高度相关 n_clusters_per_class=2, # 每类2簇：正常用户含'高频小额'和'低频大额'两类行为模式 weights=[0.995, 0.005], # 类别权重：欺诈率0.5%，严格匹配业务分布 flip_y=0.01, # 标签噪声：1%的标注错误，模拟人工审核误差 class_sep=1.2, # 类间分离度：值越大越易分，1.2对应当前模型AUC≈0.85 random_state=42 # 固定随机种子：确保AB测试baseline一致 )

关键参数深度解析：

class_sep不是“距离”，而是Fisher判别准则中的类间散度与类内散度之比的缩放因子。当class_sep=0时，所有样本混在一起无法区分；class_sep=2.0时，线性SVM几乎100%准确。我通常设为0.8~1.5，因为真实业务数据极少出现完美分离。
flip_y的数值要谨慎：设为0.05意味着5%的标签被随机翻转，这会显著降低线性模型性能，但对树模型影响较小——这正是我们用它来压力测试模型鲁棒性的原理。
n_clusters_per_class的妙用：设为3可模拟“正常用户”包含“白领”、“学生”、“退休人员”三类不同消费习惯的子群体，此时线性模型必然失效，必须上集成学习或深度学习。

注意：n_features必须 ≥n_informative+n_redundant+n_repeated。如果设n_features=10,n_informative=8,n_redundant=3，函数会直接报错ValueError: n_informative + n_redundant + n_repeated must be less than or equal to n_features。这是硬性约束，不是bug。

实操心得：在调试不平衡学习算法（如SMOTE、ADASYN）时，我固定weights=[0.9, 0.1]，然后逐步增大flip_y从0.001到0.05，观察算法在标签噪声下的泛化能力衰减曲线。这条曲线比单纯看AUC更能反映算法在真实场景的稳定性。

3.2`make_regression`: 回归任务的精度控制器（告别“随机数+斜率”的粗糙模拟）

很多新手用y = X @ coef + noise手写回归数据，结果发现模型在训练集R²=0.99，测试集崩到0.3。问题出在噪声结构失真。make_regression的noise参数默认是高斯噪声，但你可以用effective_rank和tail_strength控制噪声的谱特性：

from sklearn.datasets import make_regression # 模拟电商GMV预测（存在长尾效应和测量误差） X, y = make_regression( n_samples=5000, n_features=15, n_informative=10, # 10个核心驱动因素 noise=15.0, # 绝对噪声水平：对应GMV预测中±15万元误差 effective_rank=5, # 有效秩=5：表示只有5个主成分承载主要信号，其余是噪声 tail_strength=0.3, # 尾部强度0.3：模拟GMV的长尾分布（少数大单主导） bias=100.0, # 截距项：基础GMV保底值100万元/月 random_state=123 )

参数背后的物理意义：

effective_rank控制信号的稀疏性。设为5意味着15个特征中，只有前5个的系数绝对值显著大于0，后10个接近0——这对应真实业务中“少数关键指标决定80%结果”的帕累托现象。
tail_strength影响残差分布的峰度。值越接近1，残差越接近正态；越接近0，残差越呈现尖峰厚尾（leptokurtic），这正是电商、金融等领域的典型误差分布。

避坑指南：noise参数单位与y的量纲一致。如果你生成的是“用户月均消费金额（元）”，noise=50表示平均预测误差±50元；若生成“转化率（%）”，noise=0.5表示±0.5个百分点误差。千万别混淆量纲，否则生成的数据会严重失真。

3.3`make_blobs`: 聚类与无监督学习的基石（理解K-Means失效的根本原因）

make_blobs看似简单，却是理解聚类算法局限性的最佳教具。它的生成逻辑是：为每个中心点生成服从高斯分布的样本。关键参数cluster_std直接决定K-Means能否成功：

from sklearn.datasets import make_blobs import matplotlib.pyplot as plt # 生成3个明显分离的簇（K-Means表现优秀） X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=0.5, random_state=42) # 生成3个重叠严重的簇（K-Means开始失效） X_overlap, y_true_overlap = make_blobs(n_samples=300, centers=3, cluster_std=1.2, random_state=42) # 对比可视化 fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5)) ax1.scatter(X[:, 0], X[:, 1], c=y_true, cmap='viridis') ax1.set_title('cluster_std=0.5：分离良好') ax2.scatter(X_overlap[:, 0], X_overlap[:, 1], c=y_true_overlap, cmap='viridis') ax2.set_title('cluster_std=1.2：严重重叠') plt.show()

深度原理：K-Means假设每个簇是球形且各向同性的（isotropic）。当cluster_std过大，簇间重叠增加，K-Means的欧氏距离度量就会失效——它会把重叠区域的点强行分配给最近中心，导致错误聚类。此时你该换DBSCAN或高斯混合模型（GMM）。

实操技巧：用make_blobs测试聚类评估指标。比如计算silhouette_score，当cluster_std=0.3时分数接近0.8，cluster_std=1.0时跌至0.3——这告诉你：你的业务数据如果轮廓系数低于0.4，大概率不适合K-Means。

3.4`make_moons`和`make_circles`: 非线性边界的终极考场（检验你的模型是不是真懂“弯”的）

这两个函数是检验非线性模型的“照妖镜”。make_moons生成两个互锁的新月形，make_circles生成同心圆环。它们的数学本质是将线性不可分问题嵌入到高维空间的低维投影：

from sklearn.datasets import make_moons, make_circles # 新月形：经典非线性可分案例 X_moon, y_moon = make_moons(n_samples=200, noise=0.1, random_state=42) # 同心圆：更极端的非线性 X_circle, y_circle = make_circles(n_samples=200, noise=0.05, factor=0.5, random_state=42) # 关键洞察：factor=0.5 表示内圆半径是外圆的一半 # 如果设 factor=0.9，两圆几乎重合，线性模型也能勉强分割

为什么factor参数如此重要？
factor是内圆与外圆的半径比。factor=0.5时，内外圆间距大，SVM用RBF核轻松解决；factor=0.8时，间距变小，需要更小的gamma参数；factor=0.95时，两圆几乎粘连，此时即使RBF核也容易过拟合。我在面试算法工程师时，必问：“如果make_circles的factor=0.99，你该如何调整SVM参数？”——答不出的人，基本没真正调过参。

避坑指南：make_moons的noise参数不能设为0。设为0时，数据点严格落在两条光滑曲线上，任何模型都能100%准确，失去测试价值。真实噪声应设为0.05~0.15，模拟传感器误差或人为标注抖动。

3.5`make_multilabel_classification`: 多标签世界的复杂性入口（告别“单标签思维”）

电商商品打标、医疗报告诊断、新闻内容分类——这些全是多标签场景。make_multilabel_classification是唯一能模拟标签相关性的工具：

from sklearn.datasets import make_multilabel_classification # 模拟新闻文章多标签分类（政治、经济、科技、体育） X, y = make_multilabel_classification( n_samples=1000, n_features=20, n_classes=4, # 4个标签 n_labels=2, # 平均每篇文章2个标签 length=50, # 文本长度（模拟词袋向量维度） allow_unlabeled=False, # 禁止无标签样本（真实新闻必有主题） random_state=42 ) # 查看标签相关性矩阵 import numpy as np corr_matrix = np.corrcoef(y.T) print("标签相关性矩阵：") print(np.round(corr_matrix, 2)) # 输出类似：[[1. 0.32 0.15 0.08] # [0.32 1. 0.41 0.12] # [0.15 0.41 1. 0.05] # [0.08 0.12 0.05 1. ]]

参数精要：

n_labels=2不是“最多2个”，而是期望值。实际生成中，有些样本有1个标签，有些有3个，均值为2。
allow_unlabeled=False是关键开关。设为True会生成无标签样本，这在真实场景中极少见（除非是垃圾邮件），开启它会误导模型学习“拒绝预测”。

实操警告：多标签评估不能用Accuracy！必须用jaccard_score或f1_score(average='samples')。我见过太多人用accuracy_score得到0.95，结果上线后召回率惨不忍睹——因为Accuracy在多标签下完全失效。

3.6`make_spiral`: 高阶非线性挑战（自定义但高频使用的第八个“隐性工具”）

Scikit-learn 官方没有make_spiral，但它是我和团队内部使用率最高的自定义生成器。螺旋数据是检验深度学习模型表达能力的“圣杯”：

import numpy as np def make_spiral(n_samples=100, n_class=2, noise=0.1, random_state=None): """ 生成阿基米德螺旋数据（用于测试深度神经网络） n_class=2: 生成双螺旋；n_class=3: 生成三螺旋 """ if random_state is not None: np.random.seed(random_state) X = [] y = [] for i in range(n_class): # 每个类别的起始角度偏移 t = np.linspace(i * 4 * np.pi / n_class, 4 * np.pi + i * 4 * np.pi / n_class, n_samples // n_class) r = t # 阿基米德螺旋：r = a + b*t，这里a=0,b=1 x = r * np.cos(t) + np.random.normal(0, noise, len(t)) y_coord = r * np.sin(t) + np.random.normal(0, noise, len(t)) X.append(np.column_stack([x, y_coord])) y.extend([i] * len(t)) X = np.vstack(X) y = np.array(y) return X, y # 生成双螺旋数据 X_spiral, y_spiral = make_spiral(n_samples=400, n_class=2, noise=0.1, random_state=42)

为什么螺旋比月亮更难？
新月形可以用RBF核映射到高维空间实现线性可分；而螺旋数据在任意有限维空间都无法被单个超平面完美分割——它需要模型具备层次化特征提取能力。全连接网络至少需要2个隐藏层，CNN需要足够深的卷积核堆叠。这就是为什么我把螺旋作为深度学习模型的“准入测试”。

3.7`make_hastie_10_2`: 经典基准数据集的本地化复刻（复现论文结果的钥匙）

make_hastie_10_2是为复现Hastie等人2001年《The Elements of Statistical Learning》中图10.2而生。它生成10维特征、2类数据，其决策边界由特定函数定义：

from sklearn.datasets import make_hastie_10_2 # 生成Hastie基准数据（n_samples=12000是原书实验规模） X_hastie, y_hastie = make_hastie_10_2(n_samples=12000, random_state=42) # 这个数据集的魔力在于：它的最优贝叶斯错误率是固定的 # 你可以用它公平比较不同算法的渐近性能 from sklearn.ensemble import RandomForestClassifier from sklearn.svm import SVC rf = RandomForestClassifier(n_estimators=100, random_state=42) svc = SVC(kernel='rbf', gamma='scale', random_state=42) # 在相同数据上训练，结果可比性强 rf.fit(X_hastie[:10000], y_hastie[:10000]) svc.fit(X_hastie[:10000], y_hastie[:10000]) print(f"RandomForest test error: {1 - rf.score(X_hastie[10000:], y_hastie[10000:]):.4f}") print(f"SVC test error: {1 - svc.score(X_hastie[10000:], y_hastie[10000:]):.4f}")

不可替代性：这是少数几个理论最优错误率已知的数据集。Hastie原文证明其贝叶斯错误率为0.075。当你看到自己模型的测试错误率是0.082，你就知道它已经非常接近理论极限——这种确定性，在真实数据上永远无法获得。

4. 实战工作流：如何把这7个工具嵌入你的日常开发闭环

4.1 数据探索阶段：用人工数据快速验证EDA Pipeline

真实数据探索（EDA）常被低估。我见过太多团队花两周清洗数据，却没发现特征分布存在严重右偏。解决方案：用make_regression生成带已知偏态的模拟数据，测试你的EDA脚本。

# 步骤1：生成已知偏态的模拟数据 from sklearn.datasets import make_regression import pandas as pd X, y = make_regression( n_samples=5000, n_features=5, noise=10.0, effective_rank=3, tail_strength=0.1, # 强长尾 random_state=42 ) # 构造DataFrame，添加已知偏态列 df_sim = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(5)]) df_sim['target'] = y df_sim['feature_skewed'] = np.abs(np.random.normal(0, 1, 5000)) ** 3 # 明显右偏 # 步骤2：运行你的EDA pipeline # 假设你有一个函数 analyze_data(df) # analyze_data(df_sim) 应该自动检测到 feature_skewed 的偏度 > 2，并建议Box-Cox变换 # 步骤3：对比真实数据 # 如果真实数据中某列偏度也是3.5，而你的pipeline没报警——说明它漏检了

经验法则：在真实项目启动前，用人工数据跑通整个EDA→特征工程→建模→评估流水线。这能提前暴露80%的代码逻辑错误，避免在真实数据上浪费时间。

4.2 模型调试阶段：定位过拟合/欠拟合的精确位置

过拟合不是玄学。用make_classification控制变量，你能像调试电路一样定位问题：

实验编号	`n_informative`	`n_redundant`	`noise`	`class_sep`	观察现象	根本原因
1	5	0	0.01	2.0	训练集AUC=0.99，测试集=0.98	数据过于理想，模型未受考验
2	5	0	0.01	0.5	训练集AUC=0.75，测试集=0.74	信号太弱，模型欠拟合
3	5	5	0.01	1.0	训练集AUC=0.95，测试集=0.65	冗余特征引发过拟合
4	5	0	0.3	1.0	训练集AUC=0.85，测试集=0.84	噪声鲁棒，模型健康

操作手册：

固定n_informative=5,class_sep=1.0,random_state=42；
先调noise：从0.01逐步增至0.5，记录训练/测试AUC差值；
差值 > 0.15 时，说明模型对噪声敏感，需加正则化或剪枝；
再调n_redundant：从0增至10，观察差值变化斜率——斜率越陡，模型越容易被冗余特征带偏。

4.3 团队协作阶段：用可复现数据统一技术对齐

跨团队协作最大的成本是“数据不一致”。A组用pandas.read_csv('data.csv')，B组用pd.read_parquet('data.parq')，C组用自己采样的API——结果三方模型指标无法对比。解决方案：在项目根目录放一个generate_data.py，用make_*生成标准测试集。

# generate_data.py —— 项目事实标准 from sklearn.datasets import make_classification, make_regression def get_test_classification(): """返回标准化二分类测试集（用于算法对比）""" return make_classification( n_samples=2000, n_features=10, n_informative=6, n_redundant=2, weights=[0.8, 0.2], flip_y=0.02, random_state=2023 ) def get_test_regression(): """返回标准化回归测试集（用于特征工程验证）""" return make_regression( n_samples=2000, n_features=8, n_informative=5, noise=8.0, effective_rank=4, random_state=2023 ) # 所有团队成员导入此模块 # from generate_data import get_test_classification # X, y = get_test_classification()

团队收益：

新成员第一天就能跑通全流程，无需申请数据权限；
A/B测试时，baseline和variant在完全相同的数据上评估；
模型回滚时，能精确复现旧版本在相同数据上的表现。

5. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

5.1 问题速查表：从报错到修复的完整路径

报错信息	根本原因	修复方案	我的实测案例
`ValueError: n_informative + n_redundant + n_repeated must be less than or equal to n_features`	特征数分配超限	检查`n_features >= n_informative + n_redundant + n_repeated`，通常`n_repeated=0`	2022年某银行项目，误设`n_features=10`,`n_informative=7`,`n_redundant=4`，报错后改为`n_features=12`
`UserWarning: The number of classes is greater than the number of samples`	`n_samples`过小，无法满足`n_classes`	增加`n_samples`或减少`n_classes`	医疗项目初始设`n_samples=50`,`n_classes=5`，每个类仅10样本，KNN直接崩溃
`ConvergenceWarning: Liblinear failed to converge`	`make_classification`生成的数据线性不可分，但用了线性模型	改用`SVC(kernel='rbf')`或检查`class_sep`是否过小	`class_sep=0.3`时，逻辑回归收敛失败，调至`0.8`解决
`MemoryError`when`n_samples > 1e6`	内存不足（尤其`make_blobs`生成高维稠密矩阵）	改用`make_blobs`的`center_box`参数缩小坐标范围，或用`sparse=True`（部分函数支持）	生成100万样本时，内存从16GB飙到32GB，加`center_box=(-1,1)`降为20GB

5.2 隐性陷阱：那些让你调试三天却找不到原因的细节

陷阱1：random_state的“伪随机”幻觉
你以为设了random_state=42就万事大吉？错。make_classification的随机性分三层：

第一层：中心点位置（centers参数未指定时）；
第二层：每个中心的样本生成；
第三层：标签翻转（flip_y）。
如果n_clusters_per_class=2，那么中心点数量是n_classes * n_clusters_per_class，这个数量会影响第一层随机性。结论：永远显式指定centers参数，例如centers=[[0,0], [2,2], [-2,2]]，才能100%复现。

陷阱2：make_regression的bias单位陷阱
bias=100在y = X@coef + bias + noise中，bias的单位与y一致。但如果X是标准化后的（mean=0, std=1），而coef是原始尺度，bias就必须按原始尺度设置。我曾在一个房价项目中，因X标准化后忘了调整bias，导致生成的y全是负数——房价不可能是负的！修复：先生成X，再计算X.mean(axis=0)，用bias = target_mean - X.mean() @ coef反推。

陷阱3：make_moons的noise与class_sep耦合
make_moons没有class_sep参数，它的分离度由noise控制。但noise=0.1在n_samples=100时分离明显，在n_samples=1000时可能完全混叠——因为密度变了。正确做法：先固定n_samples，再调noise；或用make_moons(..., noise=0.1, random_state=42)生成后，计算pairwise_distances(X).min()，确保最小距离 > 0.3。

5.3 性能优化：当生成百万级数据时的内存与速度实战

生成100万样本时，make_blobs默认会吃掉8GB内存。优化方案：

from sklearn.datasets import make_blobs import numpy as np # 方案1：分块生成（推荐） def make_blobs_chunked(n_samples, n_features, centers, cluster_std, random_state): chunk_size = 50000 X_list, y_list = [], [] for i in range(0, n_samples, chunk_size): n_chunk = min(chunk_size, n_samples - i) X_chunk, y_chunk = make_blobs( n_samples=n_chunk, n_features=n_features, centers=centers, cluster_std=cluster_std, random_state=random_state + i # 每块不同种子 ) X_list.append(X_chunk) y_list.append(y_chunk) return np.vstack(X_list), np.hstack(y_list) # 方案2：用稀疏矩阵（仅适用于高维文本场景） # make_classification(n_samples=10000, n_features=10000, sparse=True) # 方案3：预分配内存（最快，但需计算） X = np.empty((n_samples, n_features)) y = np.empty(n_samples, dtype=int) for i, center in enumerate(centers): start_idx = i * (n_samples // len(centers)) end_idx = start_idx + (n_samples // len(centers)) X[start_idx:end_idx] = np.random.normal(center, cluster_std, (end_idx-start_idx, n_features)) y[start_idx:end_idx] = i

实测数据（MacBook Pro M1 Max, 64GB RAM）：