当前位置：首页 > news >正文

PySpark MLlib分类实战：从数据清洗到Pipeline部署

news 2026/6/7 5:59:17

1. 项目概述：用 PySpark MLlib 做分类，不是调个 API 就完事

你手头有一份上亿行的用户行为日志，或者几十TB的IoT设备时序数据，现在要预测某个关键指标——比如用户是否会流失、设备是否即将故障、交易是否存在欺诈风险。这时候，你打开Jupyter Notebook，import pyspark，敲下from pyspark.ml.classification import LogisticRegression，心里却开始打鼓：这和Scikit-learn里那个LogisticRegression()真的一样吗？为什么训练完模型后model.coefficients返回的是一个DenseVector而不是普通数组？为什么transform()之后DataFrame里多了一列prediction，但probability列里却是一堆嵌套的Vector对象，根本没法直接用SQL查“预测概率大于0.8的样本”？别急，这不是你代码写错了，而是你还没真正跨过PySpark MLlib那道隐性的门槛——它不是分布式版的Sklearn，而是一套为大规模数据流设计的、有自己数据契约和执行范式的机器学习流水线系统。PySpark MLlib、分类任务、特征工程、Pipeline、评估指标、模型保存与加载，这几个关键词背后，是数据规模倒逼出的架构重构：本地内存扛不住的数据，必须拆成Partition在集群上并行处理；单机算法的迭代逻辑，必须重写为RDD或DataFrame的宽依赖操作；连“一行样本”这个基本单位，在Spark里都得被封装成Row对象，再通过VectorAssembler拼成Vector类型字段。我带过三个用PySpark做风控建模的团队，最常听到的抱怨不是“跑不起来”，而是“跑起来了，但结果和本地验证对不上”。问题往往出在特征缩放没做全局统一度量、类别标签没强制转成DoubleType、测试集划分用了randomSplit却没设seed导致每次结果漂移——这些细节，在单机环境里可能只是影响精度几个百分点，在Spark里却可能导致整个Pipeline产出不可复现。这篇文章不讲概念定义，只讲我在生产环境里踩过坑、改过源码、压测过三轮的真实路径：从原始数据进来的第一行spark.read.parquet()开始，到模型最终部署成UDF供实时SQL调用为止，每一步为什么这么设计、参数怎么选、哪里最容易掉链子。如果你正准备把一个已有的Sklearn分类模型迁移到Spark平台，或者第一次用MLlib处理超过10亿样本的分类任务，这篇就是为你写的实操手册。

2. 整体设计思路与方案选型逻辑

2.1 为什么必须用 MLlib 而不是自己手写 RDD 分布式算法？

很多人初学时会想：“既然Spark能算，那我直接用mapPartitions把每个分区的数据拉到本地，用Sklearn训练，再把模型参数collect回来汇总不就行了？”我试过，而且是在一个真实电商推荐场景里落地过。当时数据量是8亿用户点击日志，目标是二分类预测“用户是否会加购”。我们先用rdd.mapPartitions把每个分区的样本喂给sklearn.ensemble.RandomForestClassifier，训练完用sc.broadcast分发模型，再用map做预测。结果上线第一天就崩了：Driver内存OOM，因为每个Executor训练出的模型（含树结构）平均20MB，200个Executor的模型对象全序列化回Driver，光传输就卡了3分钟，更别说后续的模型融合逻辑。后来我们改用MLlib的RandomForestClassifier，同样参数配置，训练时间从47分钟降到11分钟，内存峰值下降63%。根本原因在于MLlib的算法实现深度绑定Spark执行引擎：它的随机森林不是在每个分区独立训练一棵树再投票，而是采用逐层分裂的分布式决策树构建协议——每个节点分裂时，所有Executor并行计算各自分区的候选切分点，再由Driver聚合选出全局最优切分，然后广播新分裂规则，所有Executor同步更新本地树结构。这种设计让通信开销从O(树数量×分区数)降到了O(树深度×分区数)，这才是真正的“为分布式而生”。所以，当你看到ml.classification包下的算法列表时，请记住：它们不是Sklearn的API翻译，而是针对Spark DAG调度器、Shuffle机制、内存管理模型重新设计的原生组件。选型的第一条铁律就是——只要MLlib官方支持的算法能满足业务需求，就绝不用自定义RDD实现。这不是偷懒，而是规避通信瓶颈、序列化陷阱和状态一致性风险的必然选择。

2.2 MLlib vs MLLib（RDD API）：为什么必须用 DataFrame API？

PySpark里长期存在两套API：基于RDD的pyspark.mllib（小写l）和基于DataFrame的pyspark.ml（小写l）。很多老文档还在教mllib.classification.LogisticRegressionWithLBFGS，但这是2016年就标记为Deprecated的旧接口。我去年帮一家银行迁移历史模型时，发现他们还在用mllib跑逻辑回归，结果在Spark 3.3上直接报ClassNotFoundException。根本区别在于数据抽象层：mllib要求输入是LabeledPointRDD，每个样本必须是(label, [feature1, feature2, ...])元组，而ml接受标准DataFrame，特征列可以是Vector类型，也可以是多个数值列，还能自动处理字符串索引、缺失值填充等预处理步骤。更重要的是，ml的Pipeline机制让整个流程可持久化：你定义的StringIndexer→VectorAssembler→LogisticRegression这一串转换器，可以一次性pipelineModel.write().save("hdfs://path")，下次直接PipelineModel.load()就能复用，而mllib的模型保存只能存参数矩阵，预处理逻辑得另外写脚本维护。实测对比：用ml构建一个包含5步特征工程+3种分类器对比的Pipeline，代码量比mllib少40%，调试时间减少65%。所以，除非你在维护十年以上的遗留系统，否则所有新项目必须无条件使用pyspark.ml。这是技术债的分水岭——越早切换，后期维护成本越低。

2.3 分类算法选型：不是参数调得越细越好，而是要匹配数据分布和业务约束

面对LogisticRegression、DecisionTreeClassifier、RandomForestClassifier、GBTClassifier、MultilayerPerceptronClassifier这五种主流分类器，新手常陷入“哪个最准”的误区。我在某出行平台做司机接单率预测时，曾用同一份数据跑遍所有算法，AUC结果如下：LR 0.72、DT 0.75、RF 0.79、GBT 0.81、MLP 0.77。看起来GBT最好，但上线后发现它单次预测耗时是LR的8倍，而业务方要求端到端响应<200ms。最后我们选了优化后的LR——不是因为它最准，而是因为它满足三个硬性约束：可解释性（运营团队要理解“哪些特征导致拒单”）、预测速度（编译成C++ UDF后<10ms）、模型体积（<5MB便于热更新）。具体选型逻辑如下：

逻辑回归（LR）：首选！当特征维度不高（<1000）、线性可分性较强、需要系数解释性时，它是王者。注意必须做特征标准化（StandardScaler），否则coefficients会因量纲差异失去可比性。
决策树（DT）：适合探索性分析，单棵树能可视化决策路径。但单棵树容易过拟合，生产环境必须配合maxDepth（建议≤8）和minInstancesPerNode（建议≥100）。
随机森林（RF）：通用性强，抗噪性好，但特征重要性计算在Spark里是近似算法（基于Gini不纯度增量），不如单机精确。内存占用高，Executor堆内存需≥8GB。
梯度提升树（GBT）：精度通常最高，但训练慢、调参复杂。maxIter设太大（>100）会导致Shuffle爆炸，建议从10起步逐步增加。
多层感知机（MLP）：仅当数据存在强非线性关系且特征工程已穷尽时考虑。Spark的MLP实现没有Dropout，容易过拟合，必须严格控制layers参数（如[100, 50, 2]表示输入100维、隐藏层50神经元、输出2分类）。

提示：永远先用LR建立基线（Baseline）。如果LR的AUC低于0.65，说明要么数据质量有问题（大量噪声/标签错误），要么特征工程没做到位（关键特征缺失），此时优化算法毫无意义。

3. 核心细节解析与实操要点

3.1 数据准备阶段：别让脏数据毁掉整个Pipeline

很多人以为分类任务最难的是调参，其实80%的问题出在数据读入的第一步。我见过最典型的案例：某金融公司用spark.read.csv("hdfs://data.csv")读取用户征信数据，训练完模型AUC只有0.51。排查三天才发现CSV里有一列income，部分值是"NULL"字符串而非空值，csvreader默认把它当成字符串类型，导致VectorAssembler拼接时抛出Cannot cast string to double异常，但异常被静默吞掉，程序继续运行，最终生成的特征向量里该列全为0——相当于把高收入用户强行归为零收入。正确做法必须包含三重校验：

# 第一步：显式指定schema，杜绝类型推断错误 from pyspark.sql.types import StructType, StructField, DoubleType, StringType, IntegerType schema = StructType([ StructField("user_id", StringType(), False), StructField("income", DoubleType(), True), # 显式设为可空 StructField("age", IntegerType(), True), StructField("label", DoubleType(), False) # 分类标签必须是DoubleType！ ]) df = spark.read.schema(schema).csv("hdfs://data.csv") # 第二步：强制清洗空值和非法值 from pyspark.sql.functions import col, when, isnan, isnull, lit df_clean = df \ .withColumn("income", when(isnan(col("income")) | isnull(col("income")), lit(0.0)).otherwise(col("income"))) \ .withColumn("age", when((col("age") < 0) | (col("age") > 120), lit(35)).otherwise(col("age"))) # 第三步：验证标签分布，防止类别极度不平衡 label_stats = df_clean.select("label").groupBy("label").count().collect() total = sum(row["count"] for row in label_stats) for row in label_stats: print(f"Label {row['label']}: {row['count']} ({row['count']/total*100:.2f}%)") # 如果负样本占比<5%，必须用Stratified Sampling或SMOTE，不能直接train-test split

注意：label列类型必须是DoubleType或IntegerType，StringType会直接报错。这是因为MLlib内部用Double做数值计算，字符串索引必须通过StringIndexer显式转换。

3.2 特征工程：VectorAssembler不是万能胶，用错反成性能杀手

VectorAssembler是拼接特征的常用工具，但新手常犯两个致命错误：一是把所有列（包括ID、时间戳）都塞进去，二是不分青红皂白用handleInvalid="keep"。前者导致特征向量维度爆炸（ID列可能是百万级唯一值，转成OneHot后维度超千万），后者让非法值悄悄混入训练数据。正确的特征工程流水线必须分四步走：

类别特征编码：用StringIndexer将字符串标签转为0~N整数，再用OneHotEncoderEstimator转独热向量。注意OneHotEncoderEstimator在Spark 3.0+已取代旧版OneHotEncoder，且必须配合fit()生成编码器：

from pyspark.ml.feature import StringIndexer, OneHotEncoderEstimator # 先索引再编码，两步不能合并 indexer = StringIndexer(inputCol="city", outputCol="city_index", handleInvalid="keep") encoder = OneHotEncoderEstimator(inputCols=["city_index"], outputCols=["city_vec"]) # 注意：outputCols必须是list，即使只编码一列

数值特征标准化：StandardScaler必须用fit()在训练集上拟合，再用transform()应用到训练/测试集，绝不能分别对两套数据标准化：

from pyspark.ml.feature import StandardScaler, VectorAssembler scaler = StandardScaler(inputCol="raw_features", outputCol="scaled_features", withStd=True, withMean=True) # 关键：只在训练集上fit！ scaler_model = scaler.fit(train_df) train_scaled = scaler_model.transform(train_df) test_scaled = scaler_model.transform(test_df) # 复用同一个model

向量拼接：VectorAssembler的inputCols必须是明确的列名列表，不能用通配符。拼接前用df.dtypes确认所有列都是数值类型：

# 错误示范：assembler = VectorAssembler(inputCols=df.columns, outputCol="features") # 正确做法：显式列出需要的列 feature_cols = ["income_scaled", "age_scaled", "city_vec", "job_vec"] assembler = VectorAssembler(inputCols=feature_cols, outputCol="features", handleInvalid="error") # handleInvalid="error"确保非法值立即暴露，而不是静默变成0

特征选择（可选）：当维度>1000时，用ChiSqSelector做卡方检验筛选Top-K特征：

from pyspark.ml.feature import ChiSqSelector selector = ChiSqSelector(numTopFeatures=100, featuresCol="features", outputCol="selected_features", labelCol="label") selector_model = selector.fit(train_scaled) train_selected = selector_model.transform(train_scaled)

实操心得：我在处理广告点击数据时，发现VectorAssembler在拼接超宽表（>500列）时会触发JVM栈溢出。解决方案是分批拼接：先用assembler1拼前200列，再用assembler2把结果向量和后200列拼成最终向量。Spark的Vector类型支持嵌套，不会增加额外开销。

3.3 模型训练与评估：别迷信AUC，业务指标才是命门

MLlib提供BinaryClassificationEvaluator计算AUC，但AUC高不等于线上效果好。某电商做“用户购买意向”预测，离线AUC 0.85，上线后GMV提升几乎为0。根因是评估方式错了：他们用trainTestSplit(0.8, 0.2)随机划分，但用户行为有强时间序列性，2023年12月的数据和2024年1月的数据分布差异极大。正确做法必须用时间窗口划分：

# 按时间戳排序，取前80%作为训练，后20%作为测试 df_time = df.orderBy("event_time") train_df = df_time.limit(int(df_time.count() * 0.8)) test_df = df_time.subtract(train_df) # 确保无数据泄露

评估指标必须和业务目标对齐：

风控场景：关注Recall（召回率），宁可多拦错单，也不能漏过欺诈交易。用evaluator.setMetricName("recallByLabel").setThresholds([0.3, 0.7])
推荐场景：关注Precision（准确率），避免给用户推一堆不相关商品。用evaluator.setMetricName("weightedPrecision")
通用场景：用F1Score平衡精准与召回，但必须指定beta参数（beta>1重召回，beta<1重精准）

from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator # 计算AUC（仅用于算法对比） auc_evaluator = BinaryClassificationEvaluator(labelCol="label", rawPredictionCol="rawPrediction", metricName="areaUnderROC") auc = auc_evaluator.evaluate(predictions) # 计算F1（业务核心指标） f1_evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="f1") f1 = f1_evaluator.evaluate(predictions) # 手动计算混淆矩阵（调试必备） from pyspark.sql.functions import col, when cm = predictions.groupBy("label", "prediction").count().orderBy("label", "prediction") cm.show() # 直观看到TP/TN/FP/FN

注意：rawPredictionCol是模型输出的原始logit值，predictionCol是经过阈值（默认0.5）二值化的结果。业务方常要求“预测概率>0.7才触发动作”，这时必须用rawPrediction列，不能只看prediction。

4. 实操过程与核心环节实现

4.1 完整Pipeline构建：从数据读入到模型保存的12步实录

以下是我在线上环境稳定运行两年的分类Pipeline代码，已脱敏处理，可直接复制使用。每一步都标注了参数选择依据和避坑点：

# Step 1: 初始化SparkSession（关键参数） from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("ClassificationPipeline") \ .config("spark.sql.adaptive.enabled", "true") \ # 启用自适应查询执行，自动优化Shuffle分区 .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \ .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \ # Kryo比Java序列化快3倍 .config("spark.kryoserializer.buffer.max", "512m") \ .getOrCreate() # Step 2: 读取数据（Parquet格式，避免CSV解析开销） df = spark.read.parquet("hdfs://data/2024_q1/") # Parquet列式存储，读取速度比CSV快5倍 # Step 3: 数据清洗（按3.1节逻辑） from pyspark.sql.functions import col, when, isnan, isnull, lit df_clean = df \ .withColumn("income", when(isnan(col("income")) | isnull(col("income")), lit(0.0)).otherwise(col("income"))) \ .withColumn("age", when((col("age") < 0) | (col("age") > 120), lit(35)).otherwise(col("age"))) # Step 4: 时间窗口划分（防数据泄露） df_time = df_clean.orderBy("event_time") train_count = int(df_time.count() * 0.8) train_df = df_time.limit(train_count) test_df = df_time.subtract(train_df) # Step 5: 类别特征索引（城市、职业） from pyspark.ml.feature import StringIndexer city_indexer = StringIndexer(inputCol="city", outputCol="city_index", handleInvalid="keep") job_indexer = StringIndexer(inputCol="job", outputCol="job_index", handleInvalid="keep") # Step 6: 独热编码（注意：Spark 3.0+必须用Estimator） from pyspark.ml.feature import OneHotEncoderEstimator encoder = OneHotEncoderEstimator( inputCols=["city_index", "job_index"], outputCols=["city_vec", "job_vec"] ) # Step 7: 数值特征标准化（关键：只在训练集fit） from pyspark.ml.feature import StandardScaler, VectorAssembler scaler = StandardScaler(inputCol="raw_num_features", outputCol="scaled_num_features", withStd=True, withMean=True) # 先用VectorAssembler拼数值列 num_assembler = VectorAssembler(inputCols=["income", "age"], outputCol="raw_num_features") train_num = num_assembler.transform(train_df) test_num = num_assembler.transform(test_df) scaler_model = scaler.fit(train_num) train_scaled = scaler_model.transform(train_num) test_scaled = scaler_model.transform(test_num) # Step 8: 拼接所有特征（类别+数值） feature_cols = ["city_vec", "job_vec", "scaled_num_features"] assembler = VectorAssembler(inputCols=feature_cols, outputCol="features", handleInvalid="error") train_final = assembler.transform(train_scaled).select("features", "label") test_final = assembler.transform(test_scaled).select("features", "label") # Step 9: 构建Pipeline（顺序不能错：清洗->编码->标准化->建模） from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression lr = LogisticRegression(featuresCol="features", labelCol="label", maxIter=100, regParam=0.01, elasticNetParam=0.8) # regParam=0.01是L2正则强度，elasticNetParam=0.8表示80% L2 + 20% L1 pipeline = Pipeline(stages=[ city_indexer, job_indexer, encoder, num_assembler, scaler_model, assembler, lr ]) # Step 10: 训练模型（耗时最长，监控Stage） model = pipeline.fit(train_final) # Step 11: 预测与评估 predictions = model.transform(test_final) from pyspark.ml.evaluation import BinaryClassificationEvaluator auc_evaluator = BinaryClassificationEvaluator(labelCol="label", rawPredictionCol="rawPrediction", metricName="areaUnderROC") auc = auc_evaluator.evaluate(predictions) print(f"AUC: {auc:.4f}") # Step 12: 保存完整Pipeline（含所有预处理器） model.write().overwrite().save("hdfs://models/classification_v1") # 加载只需：loaded_pipeline = PipelineModel.load("hdfs://models/classification_v1")

关键参数说明：
elasticNetParam=0.8：混合L1/L2正则，既防止过拟合又做特征选择（L1会把不重要特征系数压到0）
regParam=0.01：正则强度，值越大模型越简单。从0.001开始试，若AUC下降则减小，若过拟合则增大
maxIter=100：逻辑回归迭代次数，Spark用OWL-QN优化器，通常50~100次收敛

4.2 模型部署：如何把Pipeline变成实时SQL函数？

训练完的模型不能只躺在HDFS里，必须能被业务系统调用。Spark提供了两种部署方式：

方式一：注册为临时SQL函数（适合轻量级场景）

# 将模型转为UDF（注意：必须用pandas_udf提升性能） from pyspark.sql.functions import pandas_udf from pyspark.sql.types import DoubleType import numpy as np # 加载已保存的PipelineModel loaded_model = PipelineModel.load("hdfs://models/classification_v1") @pandas_udf(returnType=DoubleType()) def predict_udf(income: pd.Series, age: pd.Series, city: pd.Series, job: pd.Series) -> pd.Series: # 构造输入DataFrame（必须和训练时schema一致） input_df = spark.createDataFrame( zip(income, age, city, job), ["income", "age", "city", "job"] ) # 应用Pipeline预测 result = loaded_model.transform(input_df) return result.select("prediction").toPandas()["prediction"] # 注册为SQL函数 spark.udf.register("predict_class", predict_udf) # 在SQL中直接调用 spark.sql("SELECT user_id, predict_class(income, age, city, job) as pred FROM users LIMIT 10").show()

方式二：导出为PMML（适合对接外部系统）

# 使用第三方库jpmml-sparkml（需添加Maven依赖） # spark-submit --packages "org.jpmml:pmml-model:1.4.15,org.jpmml:pmml-sparkml:2.4.0" \ # --driver-class-path /path/to/pmml-jars.jar \ # export_pmml.py --model-path hdfs://models/classification_v1 --output-path hdfs://models/model.pmml

实操心得：UDF方式在小数据量（<10万行/秒）时延迟<50ms，但大数据量会触发大量序列化。我们最终采用“模型服务化”方案：用Flask封装PipelineModel，Spark作业通过HTTP请求调用，吞吐量提升3倍，且便于灰度发布。

5. 常见问题与排查技巧实录

5.1 典型问题速查表

问题现象	根本原因	解决方案	排查命令
`java.lang.IllegalArgumentException: requirement failed: Column label must be of type DoubleType but was actually StringType`	标签列未转为Double	`df = df.withColumn("label", col("label").cast("double"))`	`df.printSchema()`
`org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage X.X failed 4 times`	Executor内存不足	增加`--executor-memory 8g`，调小`spark.sql.files.maxPartitionBytes`（默认128MB）	`spark.sparkContext.getConf().getAll()`
`AUC=0.5，所有预测都是同一类`	特征向量全为0或NaN	用`df.agg({"features": "min"}).show()`检查向量最小值	`df.select("features").show(1, truncate=False)`
`Pipeline save失败：NotSerializableException`	自定义Transformer未实现Serializable	继承`pyspark.ml.Transformer`并添加`__getstate__`方法	`import pickle; pickle.dumps(model)`
`预测结果和本地Sklearn不一致`	特征标准化未用同一scaler	确保`scaler.fit(train_df)`后，`scaler.transform(train_df)`和`scaler.transform(test_df)`复用同一model	`scaler_model.stdDev`对比

5.2 我踩过的三个深坑及修复方案

坑一：StringIndexer在训练集未出现的类别，测试集直接报错
现象：StringIndexer在训练集里只见过"Beijing"、"Shanghai"，测试集来了"Guangzhou"，transform()抛出java.lang.IllegalArgumentException: Unseen label: Guangzhou。
修复：必须设置handleInvalid="keep"，但这样会把新类别映射为-1.0，导致后续OneHotEncoder报错。终极方案是用StringIndexerModel的setHandleInvalid("keep")，并在OneHotEncoderEstimator里设置dropLast=False，同时手动处理-1.0：

# 训练后获取indexerModel indexer_model = indexer.fit(train_df) indexer_model.setHandleInvalid("keep") # 关键！ # 编码器必须允许-1.0存在 encoder = OneHotEncoderEstimator( inputCols=["city_index"], outputCols=["city_vec"], dropLast=False )

坑二：VectorAssembler拼接后特征维度不对
现象：VectorAssembler输出的features列显示vector(100)，但实际维度是105，导致LR报mismatched vector length。
原因：OneHotEncoder默认dropLast=True，会删掉最后一维（避免共线性），但VectorAssembler不知道这个隐式操作。
修复：显式关闭dropLast，并在LogisticRegression里加L2正则（自动处理共线性）：

encoder = OneHotEncoderEstimator(dropLast=False) # 强制保留所有维度 lr = LogisticRegression(regParam=0.01) # L2正则解决共线性

坑三：模型保存后加载报ClassNotFoundException
现象：Spark 3.3保存的Pipeline，用Spark 3.2加载时报class not found: org.apache.spark.ml.PipelineModel。
原因：Spark不同版本的序列化协议不兼容。
修复：绝不跨版本加载！统一用spark.version检查，或改用PMML导出（版本无关）：

# 检查版本一致性 assert spark.version == "3.3.0", "Spark version mismatch!" # 或改用PMML（需额外依赖） from jpmml_sparkml import PMMLBuilder pmml_builder = PMMLBuilder(spark, train_df, model) pmml_builder.buildFile("model.pmml")

最后分享一个小技巧：在Pipeline训练前，用df.explain("extended")查看物理执行计划，重点关注Shuffle节点数量。如果Plan里出现Exchange超过5次，说明Pipeline设计太碎，应合并StringIndexer和OneHotEncoder为自定义Transformer，减少Shuffle次数。我在某运营商项目里，把7步Pipeline压缩成4步，Shuffle数据量从12TB降到3TB，训练时间缩短55%。

我在实际使用中发现，最可靠的调试方法不是看日志，而是把Pipeline每一步的输出df.show(1)打印出来，亲眼确认features列的Vector长度、label列的值域、prediction列的分布。机器学习没有银弹，但有可验证的步骤——每一步都经得起show()检验，最终结果就不会翻车。

查看全文

http://www.jsqmd.com/news/966284/