常见LLM使用的分词算法总结

article2024/5/5 21:49:17/文章来源:https://blog.csdn.net/sunny0121/article/details/138193564

1、LLM分词算法总结

下表对最受欢迎的一些大模型所使用的分词算法及词表大小做了一个总结，之后将对所有的分词算法做一个梳理。

公司	模型名称	版本	分词工具	分词算法	词表大小	参考资料
Meta	LLaMa	LLama1	sentencepiece	BPE	32k
		LLama2	sentencepiece	BPE	32k
		LLama3	tiktoken	BPE	128k
OpenAI	GPT	GPT-4	tiktoken	Byte Level BPE	100k
		GPT-3.5	tiktoken	BBPE	100k
智谱AI	GLM	GLM-3	sentencepiece	wordpiece	65k
		GLM-2/1	sentencepiece	wordpiece	150k

Byte Level BPE: BPE的升级版，将word转化为BPE形式，再按照BPE形式进行训练。

2、分词算法的发展

pass

参考资料：

ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎 (zhihu.com)
大模型中的分词器tokenizer：BPE、WordPiece、Unigram LM、SentencePiece - 知乎 (zhihu.com)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/574740.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

详解23种设计模式——工厂模式

工厂模式 | CoderMast编程桅杆工厂模式设计思想工厂模式是最常用的设计模式之一，属于创建型模式，将创建对象的权利交给了一个工厂类，从而提供了一种不使用构造方法的情况下创建对象的途径，无需指定要创建的具体类，将…

重仓比特币

作者：Arthur Hayes Co-Founder of 100x. 编译：liam ccvalue (下文中表达的任何观点均为作者的个人观点，不应作为投资决策的依据，也不应被视为参与投资交易的建议或意见）。我们中断牛市常规节目，为您播报这…

Android14之修改编译vendor.img(二百零七)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏：多媒…

HTML列表、表格、表单

1.列表列表分类：无序、有序、定义 2.无序列表（unordered list） ul嵌套li，ul是无序列表。li是列表条目。 ur标签里面只能包含li标签。 li里面可以包含任何内容。 3.有序列表（ordered list） <ol>…

OpenMesh 计算封闭网格体积

文章目录一、简介二、实现代码三、实现效果参考资料一、简介思路很是简单，就是计算一些四面体的有向体积（这些四面体均是基于网格中的三角形与原点组成的），至于体积的符号则来自于三角形是否指向原点方向来确定，即面片的法线方向（其中三角形的法线本身取决于顶点的顺序…

高频问题|如何给指定的表达式添加小括号避免优先级问题?

关注它，不迷路。本文章中所有内容仅供学习交流，不可用于任何商业用途和非法用途，否则后果自负，如有侵权，请联系作者立即删除！ 1.问题如题，如何给指定的表达式添加小括号避免优先级问题…

远程控制安卓手机：便捷、高效与安全的方法

在移动设备的领域里，远程控制安卓手机的能力也变得越来越重要。这种技术可以让我们在远程地点方便地操作手机，无论是处理紧急事务、帮助他人解决问题，还是仅仅为了享受科技带来的便利。本文将为你介绍2种便捷、高效且安全的方法，让…

MacOS通过命令行开启关闭向日葵远程控制的后台服务

categories: [Tips] tags: MacOS Tips 写在前面经常有小伙伴问我电脑相关的问题, 而解决问题的一个重要途径就是远程了. 关于免费的远程工具我试过向日葵和 todesk, 并且主要使用向日葵, 虽然 MacOS 下要设置很多权限, 但是也不影响其丝滑的控制. 虽然用着舒服, 但是向日葵…

JS设计模式-透过现象看本质

JS设计模式-透过现象看本质设计模式SOLID设计原则创建型构造器模式工厂模式 - 简单工厂工厂模式 - 抽象工厂（开发封闭原则）构造器和简单、抽象工厂的区别单例模式原型模式结构型装饰器模式适配器模式代理模式事件代理 - 事件冒泡虚拟代理 - 通过Image…

JAVA毕业设计136—基于Java+Springboot+Vue的房屋租赁管理系统(源代码+数据库)

毕设所有选题： https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootVue的房屋租赁管理系统(源代码数据库)136 一、系统介绍本项目前后端分离，分为管理员、用户、工作人员、房东四种角色 1、用户/房东： …

开源博客项目Blog .NET Core源码学习（18：App.Hosting项目结构分析-6）

本文学习并分析App.Hosting项目中后台管理页面的_AminLayout.cshtml模版页面和登录页面。 _AminLayout.cshtml模版页面后台管理页面中的大部分页面都使用_AminLayout.cshtml作为模板页面，如下图所示，后台页面的视图内容放置在表单中，使用la…

Java openrasp记录-01

例子1 https://github.com/anbai-inc/javaweb-expression 一个hook ognl、spel、MVEL表达式注入的例子用的是asm5进行字节码修改采用premain进行插桩，重写transform方法 expClassList是要hook的类，这里定义在MethodHookDesc 这里判断hook点通过类名…

Kafka 3.x.x 入门到精通（03）——对标尚硅谷Kafka教程

Kafka 3.x.x 入门到精通（03）——对标尚硅谷Kafka教程 2. Kafka基础2.1 集群部署2.2 集群启动2.3 创建主题2.4 生产消息2.4.1 生产消息的基本步骤2.4.2 生产消息的基本代码2.4.3 发送消息2.4.3.1 拦截器2.4.3.1.1 增加拦截器类2.4.3.1.2 配置拦截器 2.4.3…

参考链接 spark入门实战系列--8MLlib spark 实战_mob6454cc68310b的技术博客_51CTO博客https://blog.51cto.com/u_16099212/7454034 Spark和Hadoop的安装-CSDN博客https://blog.csdn.net/weixin_64066303/article/details/138021948?spm1001.2014.3001.5501 1. spark-shell…

JAVAEE—HTTPS和ssl证书

0[toc] 什么是HTTPS HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层. HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在传输过程中出现一些被篡改的情况而HTTPS则是新采用加密的方式进行传输为什么需要HTTPS 为什么要使用HTTPS呢？这…

【SpringCloud】LoadBalance负载均衡服务调用快速入门

【SpringCloud】LoadBalance负载均衡服务调用快速入门文章目录【SpringCloud】LoadBalance负载均衡服务调用快速入门1. 概述2. 引入依赖3. 配置、验证3.1 配置3.2 验证 1. 概述官网地址：点击跳转 Spring Cloud LoadBalancer 是由 SpringCloud 官方提供的一个开…

2024高级卫生职称考试报名时间汇总

20地报名时间汇总，其他时间安排见图上海：4.23-5.24 黑龙江：4.23-5.24 陕西：4.23-5.24 重庆：4.23-5.24 浙江：4.23-5.24 20地报名时间汇总甘肃：4.23-5.24 江西：4.28-5.10 河北&#…

五一劳动节活动策划案怎么写?

分享一个五一劳动节活动策划万能模板，直接照着写就好。一、活动主题： 五一户外露营Party 二、活动时间： 五一节当天，上午点至下午点三、活动地点： 城市郊外的公园或大型绿地四、参与人员： 公司员…

ChatGPT付费创作系统V2.8.4独立版 WEB+H5+小程序端（新增Pika视频+短信宝+DALL-E-3+Midjourney接口）

小狐狸GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序，是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。当前全民热议ChatGPT，流量超级大，引流不要太简单！一键下单即可拥有自己的GPT！无限多…

Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别

Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别目录 Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别一、简单介绍二、简单进行人脸训练与识别 1、LBPH…