【CS336】分词器:分词器原理与 BPE 实现
https://tiktokenizer.vercel.app/?model=deepseek-ai%2FDeepSeek-R1
这个网页可以实时观察不同模型的分词情况,可以看到原始文本被如何分割,以及映射为词表中的ID。
开源内容:https://github.com/datawhalechina/diy-llm
https://tiktokenizer.vercel.app/?model=deepseek-ai%2FDeepSeek-R1
这个网页可以实时观察不同模型的分词情况,可以看到原始文本被如何分割,以及映射为词表中的ID。
开源内容:https://github.com/datawhalechina/diy-llm