内容要点:

特征提取:TF-IDF(文本特征)、Word2Vec。

特征转换:

StringIndexer(字符串编码)、OneHotEncoder(独热编码)。

VectorAssembler(将多列特征合并为特征向量列)——最关键步骤。

标准化与归一化:StandardScaler、MinMaxScaler。

特征选择:ChiSqSelector(卡方检验)。