当前位置: 首页 > news >正文

如何网站防止采集网络推广员工资多少钱

如何网站防止采集,网络推广员工资多少钱,上海松江网站设计公司,新疆旅游找司机平台分类目录:《自然语言处理从入门到应用》总目录 当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义…

分类目录:《自然语言处理从入门到应用》总目录


当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。

在高层次上,文本分割器的工作原理如下:

  1. 将文本分割成小的、语义有意义的块(通常是句子)。
  2. 开始将这些小块组合成较大的块,直到达到一定的大小(由某个函数衡量)。
  3. 一旦达到该大小,将该块作为自己的文本片段,然后开始创建一个具有一定重叠的新文本块(以保持块之间的上下文)。

这意味着有两个不同的方向可以定制文本分割器:

  • 文本如何被分割
  • 块的大小如何衡量

默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块,但如果有任何分块过大,它将继续尝试下一个字符,依此类推。默认情况下,它尝试进行分割的字符是\n\n\n等。除了控制分割的字符之外,我们还可以控制其他一些内容:

  • length_function:如何计算分块的长度。默认只计算字符数,但通常在这里传递一个标记计数器。
  • chunk_size:分块的最大大小(由长度函数测量)。
  • chunk_overlap:分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性(例如使用滑动窗口)。
  • add_start_index:是否在元数据中包含每个分块在原始文档中的起始位置。
# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size = 100,chunk_overlap  = 20,length_function = len,add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

输出:

page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

我们还可以使用文本分割器分割下列类型的文件:

  • Character
  • HTML
  • Latex
  • Markdown
  • NLTK
  • Python
  • Recursive Character
  • spaCy
  • tiktoken(OpenAI)

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

http://www.khdw.cn/news/6967.html

相关文章:

  • 网站试运营广告推广媒体
  • 推广型的网站怎么做8大营销工具指的是哪些
  • 做网站是怎么赚钱的比较好的友链平台
  • 宝山青岛网站建设人民政府网站
  • 西宁那有做网站的semaphore
  • 政府网站建设 会议seo外链工具软件
  • 怎么做加密货币网站高端网站公司
  • 做网站时遇到的问题磁力吧最佳搜索引擎
  • 嘉兴企业网站开发seo站内优化
  • workpress做静态网站seo排名培训公司
  • 短视频运营公司网站建设seo团队管理系统
  • 学网站开发需要会什么百度怎么转人工客服
  • 高校网站建设的优势和不足武汉seo网站推广培训
  • 中国纪检监察网官网上海比较大的优化公司
  • 怎么做直播网站合肥网站建设程序
  • 怎么在土巴兔做网站南昌seo营销
  • 更改wordpress主题字体颜色安徽seo人员
  • 专业做企业网站1元购买域名
  • 厦门有什么网站设计公司如何做网页制作
  • 绿色主题网站百度搜索引擎网站
  • 提供网站建设定制软件培训机构有哪些?哪个比较好
  • 网站瀑布流怎么做营销方案怎么写?
  • 武汉做网站的上市公司网站搭建平台
  • 中国建设个人网上银行官网谷歌seo技巧
  • 图片类网站建设seo综合查询是什么
  • 网站建设维护日记搜索关键词软件
  • 做网站的软件公司谷歌收录提交入口
  • 美国有线电视新闻网官网厦门百度快照优化排名
  • 苏州公司网站建设方案北京seo包年
  • 网站友情链接如何做关于进一步优化当前疫情防控措施