1、LLM分词算法总结
下表对最受欢迎的一些大模型所使用的分词算法及词表大小做了一个总结,之后将对所有的分词算法做一个梳理。
公司 | 模型名称 | 版本 | 分词工具 | 分词算法 | 词表大小 | 参考资料 |
Meta | LLaMa | LLama1 | sentencepiece | BPE | 32k | |
LLama2 | sentencepiece | BPE | 32k | |||
LLama3 | tiktoken | BPE | 128k | |||
OpenAI | GPT | GPT-4 | tiktoken | Byte Level BPE | 100k | |
GPT-3.5 | tiktoken | BBPE | 100k | |||
智谱AI | GLM | GLM-3 | sentencepiece | wordpiece | 65k | |
GLM-2/1 | sentencepiece | wordpiece | 150k | |||
Byte Level BPE: BPE的升级版,将word转化为BPE形式,再按照BPE形式进行训练。
2、分词算法的发展
pass
参考资料:
- ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎 (zhihu.com)
- 大模型中的分词器tokenizer:BPE、WordPiece、Unigram LM、SentencePiece - 知乎 (zhihu.com)