当前位置: 首页 > news >正文

使用embedding进行分词 - f

import jieba
import torch
from jieba import lcut
from openpyxl.styles.builtins import output
from tensorflow.keras.preprocessing.text import Tokenizer
from torch.utils.tensorboard import SummaryWriter
import torch.nn as nndef dm_embedding_show():# 1.对句子分词 word.listsentence1 = '传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能'sentence2 = '我爱自然语言处理'sentences = [sentence1, sentence2]# 2.对所有句子进行分词word_list = list()for s in sentences:word_list.append(lcut(s))print(f'word_list---》{word_list}')# 3.获取word_index,index_wordtokenize = Tokenizer()tokenize.fit_on_texts(word_list)print(f'tokenize.index_word---》{tokenize.index_word}')print(f'tokenize.word_index---》{tokenize.word_index}')# 4.将文本序列转换成数字序列seq_ids = tokenize.texts_to_sequences(word_list)print(f'seq_ids---》{seq_ids}')# 5.获取样本中的所有单词words = tokenize.word_index.keys()print(f'words---》{words}')# 6.实例化Embedding对象# 6.1 num_embeddings:代表需要进行词向量表示的单词总个数(一定是去重)# 6.2 embedding_dim:代表每个单词的词向量维度embed = nn.Embedding(len(words), 8)print(f'embed.weight.shape---》{embed.weight.shape}')print(f'embed.weight.data--》{embed.weight.data}')# 7.可视化embeddingsummary = SummaryWriter()summary.add_embedding(embed.weight.data,metadata=list(words))summary.close()# 8.获取每个单词对应的词向量for idx in range(len(tokenize.index_word)):output = embed(torch.tensor([idx]))print(f'{tokenize.index_word[idx+1]}的词向量是{output}')if __name__ == '__main__':dm_embedding_show()
http://www.jsqmd.com/news/403334/

相关文章:

  • 【开题答辩全过程】以 哈尔滨市小酒窝APP为例,包含答辩的问题和答案
  • 基于小信号建模的下垂控制稳定分析,文章完全浮现。 关键词:微电网,下垂控制,小信号模型,根轨迹...
  • flex与bison学习之字符统计程序
  • 含共享储能的园区多类型负荷需求响应经济运行研究附Matlab代码
  • 含中间直流的三相电力电子变压器PET仿真模型附Simulink仿真
  • D证科目一罚款专题
  • Java 运行时异常和编译时异常之间的区别是什么?
  • 光伏阵列常见故障仿真模型附Simulink仿真
  • 根脉与花开:AI元人文——***文化思想在智能时代的原创性理论发展
  • 什么是 Java 中的自动装箱和拆箱?
  • 光伏储能直流系统MATLAB仿真(PV光伏阵列+Boost DCDC变换器+负载+双向DCDC变换器+锂离子电池系统)附Matlab代码
  • 基于1D-GAN生成对抗网络的数据生成方法研究附Matlab代码
  • 什么是 Java 中的迭代器(Iterator)?
  • 光储直流微电网附Simulink仿真
  • 什么是 Java 的网络编程?
  • 【开题答辩全过程】以 高校学生档案管理系统为例,包含答辩的问题和答案
  • 大模型搜索引爆营销新赛道,智跑AI以GEO系统引领智能获客潮流
  • Java 中的基本数据类型有哪些?
  • 基于ARIMA-CNN-LSTM预测模型研究附Python代码
  • D证-科目一
  • 官网-劳动人事争议仲裁办案规则
  • Java 的 I/O 流是什么?
  • 航天器交会的分布式MPC模型预测控制研究附Matlab代码
  • Java 的 Optional 类是什么?它有什么用?
  • 如果一个线程在 Java 中被两次调用 start() 方法,会发生什么?
  • 图论——最短路Dijkstra算法
  • 2026年保健品推荐:品质与口碑并存,养胃颗粒/保健饮品/保健品,保健品品牌有哪些 - 品牌推荐师
  • [NOI2018] 冒泡排序
  • 通过MATLAB控制COMSOL Multiphysisc仿真进程模拟局部放电,建立有限元仿真模型
  • 【GLM-5 陪练式前端新手入门】第四篇:卡片布局 —— 让个人主页内容更有层次