当前位置: 首页 > news >正文

新手学做网站 电子书目前好的推广平台

新手学做网站 电子书,目前好的推广平台,做企业云网站的企业,重庆模板网站建设怎么样背景: 我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。 训练一个合适的tokenizer是训练大模型的基础,我们既…

背景:

我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础,我们既可以从头开始训练一个全新的tokenizer,也可以利用旧的tokenizer训练出一个新的来,今天就让我们看看如何来以旧换新。

第一步:数据准备

不管是训练大模型,还是训练tokenizer,首先都需要我们准备数据集:

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数,分配加载数据,防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步:训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步:保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步:使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结:

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型,或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同,我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

http://www.khdw.cn/news/70988.html

相关文章:

  • 中企动力做的网站怎么样汕头seo排名公司
  • 福州网站设计百度公司的企业文化
  • 缓存 wordpress 加速seo外包公司如何优化
  • 新手建站网址建设网站的网络公司
  • 提供网站建设电话网站引流推广怎么做
  • 网站如何做301重定向关键词排名点击软件
  • mac923水蜜桃923色号青岛seo软件
  • 有没有做网站的教程宝鸡seo
  • 荔湾建网站公司360推广联盟
  • 做网站 上海站长工具seo综合查询全面解析
  • 电子商务设计网站建设沧州网站seo
  • 贵阳疫情最新情况最新消息今天seo快速优化软件网站
  • 江苏省泰州市建设局官方网站淘客推广怎么做
  • 网站seo在线检测广东疫情最新数据
  • 网站建设主要包括前台和后台网络怎样做推广
  • wordpress个人博客下载深圳seo优化
  • 美辰网站建设百度图像搜索
  • 玉环做网站有哪些互联网产品营销策划方案
  • 新手学做网站看什么书友情链接交易平台
  • 中小企业网站功能模块及数据库表百度seo营销公司
  • 做网站所需要的代码6整合网络营销公司
  • 网站制作好以后怎么管理郑州网站制作公司
  • 亿唐网不做网站做品牌武汉网站推广很 棒
  • 中国建设银行国际互联网网站seo从0到1怎么做
  • 郑州建网站哪家好怎么建立一个网站
  • 什么网站可以做单词书头条今日头条
  • 做淘宝客网站用什么源码好网盘搜索引擎
  • 资阳优化团队市场江苏seo技术教程
  • 建网站挣钱seo技术培训海南
  • 网站代码检查提高工作效率的软件