内容要点:
特征提取:TF-IDF(文本特征)、Word2Vec。
特征转换:
StringIndexer(字符串编码)、OneHotEncoder(独热编码)。
VectorAssembler(将多列特征合并为特征向量列)——最关键步骤。
标准化与归一化:StandardScaler、MinMaxScaler。
特征选择:ChiSqSelector(卡方检验)。
内容要点:
特征提取:TF-IDF(文本特征)、Word2Vec。
特征转换:
StringIndexer(字符串编码)、OneHotEncoder(独热编码)。
VectorAssembler(将多列特征合并为特征向量列)——最关键步骤。
标准化与归一化:StandardScaler、MinMaxScaler。
特征选择:ChiSqSelector(卡方检验)。