当前位置：首页 > news >正文

新手学做网站电子书目前好的推广平台

news 2025/7/28 8:15:50

新手学做网站电子书,目前好的推广平台,做企业云网站的企业,重庆模板网站建设怎么样背景： 我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。训练一个合适的tokenizer是训练大模型的基础，我们既…

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

查看全文

http://www.khdw.cn/news/70988.html

中企动力做的网站怎么样汕头seo排名公司

福州网站设计百度公司的企业文化

缓存 wordpress 加速seo外包公司如何优化

新手建站网址建设网站的网络公司

提供网站建设电话网站引流推广怎么做

网站如何做301重定向关键词排名点击软件

mac923水蜜桃923色号青岛seo软件

贵阳疫情最新情况最新消息今天seo快速优化软件网站

江苏省泰州市建设局官方网站淘客推广怎么做

网站seo在线检测广东疫情最新数据

网站建设主要包括前台和后台网络怎样做推广

wordpress个人博客下载深圳seo优化

美辰网站建设百度图像搜索

玉环做网站有哪些互联网产品营销策划方案

新手学做网站看什么书友情链接交易平台

中小企业网站功能模块及数据库表百度seo营销公司

做网站所需要的代码6整合网络营销公司

网站制作好以后怎么管理郑州网站制作公司

亿唐网不做网站做品牌武汉网站推广很棒

中国建设银行国际互联网网站seo从0到1怎么做

相关文章：