当前位置: 首页 > news >正文

傻瓜式wordpressseo优化一般包括哪些

傻瓜式wordpress,seo优化一般包括哪些,wordpress 两个网站吗,手机html编辑器归一化与标准化 前言一、最小最大值归一化1.1 原理(公式)1.2 API 介绍1.2.1 参数介绍1.2.2 属性介绍1.2.3 注意事项1.2.4 代码演示 1.3 举例说明 二、标准化2.1 原理(公式)2.2 API 介绍2.2.1 参数介绍2.2.2 属性介绍2.2.3 注意事项…

归一化与标准化

  • 前言
  • 一、最小最大值归一化
    • 1.1 原理(公式)
    • 1.2 API 介绍
      • 1.2.1 参数介绍
      • 1.2.2 属性介绍
      • 1.2.3 注意事项
      • 1.2.4 代码演示
    • 1.3 举例说明
  • 二、标准化
    • 2.1 原理(公式)
    • 2.2 API 介绍
      • 2.2.1 参数介绍
      • 2.2.2 属性介绍
      • 2.2.3 注意事项
      • 2.2.4 代码演示
    • 2.3 举例说明
  • 三、案例代码:利用KNN算法进行鸢尾花分类
  • 总结


前言

  • 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级容易影响(支配)目标结果,使得一些模型(算法)无法学习到其它的特征。
  • 所以我们需要对特征进行预处理,让不同特征在同一尺度下进行比较,从而避免因特征值大小差异而导致的模型训练偏倚。

一、最小最大值归一化

1.1 原理(公式)

  • 这种方法将特征值缩放到指定的区间内,默认是0到1之间。计算公式如下:
    x n o r m = x − m i n ( x ) m a x ( x ) − m i n ( x ) x_{norm} = \frac{x-min(x)}{max(x)-min(x)} xnorm=max(x)min(x)xmin(x)
  • 如果需要缩放至其他区间[a, b],则可以使用:
    x n o r m = a + ( x − m i n ( x ) m a x ( x ) − m i n ( x ) ) ⋅ ( b − a ) x_{norm} = a + (\frac{x-min(x)}{max(x)-min(x)}) \cdot (b-a) xnorm=a+(max(x)min(x)xmin(x))(ba)

1.2 API 介绍

  • sklearn.preprocessing.MinMaxScaler ( )

1.2.1 参数介绍

  • feature_range:tuple (min, max), default=(0, 1)
    • 描述:这个参数用于设定缩放的范围。默认情况下,数据会被缩放到 [0, 1] 范围内。但用户可以根据需要设定其他范围,例如 [-1, 1]。
    • 作用:通过调整缩放范围,可以对数据的分布进行更精细的控制,以适应不同的机器学习算法和数据特点。
  • copy:boolean, optional, default=True
    • 描述:这个参数用于指定是否将转换后的数据覆盖原数据。如果设置为 True,则不会修改原始数据,而是返回一个新的缩放后的数据数组。如果设置为 False,则会在原地修改原始数据。
    • 作用:通过控制是否覆盖原数据,可以保护原始数据的完整性,避免在数据处理过程中发生数据丢失或修改。
  • clip:boolean, optional, default=False
    • 描述:clip 参数是一个布尔值,用于控制是否对变换后的数据进行裁剪。
    • 作用:当 clip=True 时,变换后的数据将被裁剪到指定的范围内,确保数据的一致性和有效性;当 clip=False 时,变换后的数据可能超出指定的范围,这需要根据具体情况来决定是否启用裁剪功能。

1.2.2 属性介绍

在 MinMaxScaler 类中,还有一些重要的属性,用于存储缩放过程中的相关信息:

  • min_:ndarray of shape (n_features,)
    • 描述:存储每个特征调整后的最小值。
  • scale_:ndarray of shape (n_features,)
    • 描述:存储每个特征数据缩放的比例。这个比例是通过计算特征的最大值和最小值之差,然后除以指定的缩放范围(feature_range)来得到的。
  • data_min_ 和 data_max_:ndarray of shape (n_features,)
    • 描述:分别存储每个特征在训练数据中的最小值和最大值。这些值是在调用 fit 或 fit_transform 方法时计算得到的。

1.2.3 注意事项

  • 归一化受到最大值与最小值的影响,这种方法容易受到异常数据的影响, 鲁棒性较差,适合传统精确小数据场景

1.2.4 代码演示

代码如下(示例):

# 导包
from sklearn.preprocessing import MinMaxScaler  # 归一化的类# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建归一化对象.
transfer = MinMaxScaler()# 3. 具体的 归一化动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 归一化后的结果
print(f'归一化后, 数据集为: {new_data}') #  [[1.         0.         0.         0.        ]#	[0.         1.         1.         0.83333333]#	[0.5        0.5        0.6        1.        ]]

1.3 举例说明

  • 1.有以下一个数据集,包含两个特征:年龄(Age)和收入(Income)。我们希望这两个特征进行归一化处理。
AgeIncome
2030000
2232000
3555000
4575000
5085000
  • 2.我们将年龄和收入都归一化到0到1的范围内。

    • 2.1 年龄归一化:
      A g e n o r m = A g e − m i n ( A g e ) m a x ( A g e ) − m i n ( A g e ) Age_{norm} = \frac{Age-min(Age)}{max(Age)-min(Age)} Agenorm=max(Age)min(Age)Agemin(Age)

      • A g e n o r m = 20 − 20 50 − 20 = 0 Age_{norm} = \frac{20-20}{50-20} = 0 Agenorm=50202020=0
      • A g e n o r m = 22 − 20 50 − 20 = 0.0667 Age_{norm} = \frac{22-20}{50-20} = 0.0667 Agenorm=50202220=0.0667
      • A g e n o r m = 35 − 20 50 − 20 = 0.5 Age_{norm} = \frac{35-20}{50-20} = 0.5 Agenorm=50203520=0.5
      • A g e n o r m = 45 − 20 50 − 20 = 0.8333 Age_{norm} = \frac{45-20}{50-20} = 0.8333 Agenorm=50204520=0.8333
      • A g e n o r m = 50 − 20 50 − 20 = 1 Age_{norm} = \frac{50-20}{50-20} = 1 Agenorm=50205020=1
    • 2.2 收入归一化:
      I n c o m e n o r m = I n c o m e − m i n ( I n c o m e ) m a x ( I n c o m e ) − m i n ( I n c o m e ) Income_{norm} = \frac{Income-min(Income)}{max(Income)-min(Income)} Incomenorm=max(Income)min(Income)Incomemin(Income)

      • I n c o m e n o r m = 30000 − 30000 85000 − 30000 = 0 Income_{norm} = \frac{30000-30000}{85000-30000} = 0 Incomenorm=85000300003000030000=0
      • I n c o m e n o r m = 32000 − 30000 85000 − 30000 = 0.0364 Income_{norm} = \frac{32000-30000}{85000-30000} = 0.0364 Incomenorm=85000300003200030000=0.0364
      • I n c o m e n o r m = 55000 − 30000 85000 − 30000 = 0.4545 Income_{norm} = \frac{55000-30000}{85000-30000} = 0.4545 Incomenorm=85000300005500030000=0.4545
      • I n c o m e n o r m = 75000 − 30000 85000 − 30000 = 0.8182 Income_{norm} = \frac{75000-30000}{85000-30000} = 0.8182 Incomenorm=85000300007500030000=0.8182
      • I n c o m e n o r m = 85000 − 30000 85000 − 30000 = 1 Income_{norm} = \frac{85000-30000}{85000-30000} = 1 Incomenorm=85000300008500030000=1
  • 3 原数据集就会变成下面这样

AgeIncome
00
0.06670.0364
0.50.4545
0.83330.8182
11

二、标准化

2.1 原理(公式)

  • 标准化是将特征值转换为具有零均值和单位方差的形式。计算公式如下:
    x s t d = x − μ σ x_{std} = \frac{x-μ}{σ} xstd=σxμ
  • 其中, μ μ μ 是特征的平均值, σ σ σ 是特征的标准差。

2.2 API 介绍

  • sklearn.preprocessing.StandardScaler( )

2.2.1 参数介绍

  • copy:类型:布尔值(Boolean);默认值:True
    • 说明:如果设置为 True,则会在操作后创建数据的副本,不会修改原始数据。如果设置为 False,则不会创建副本,操作后会直接替换原始数据。
  • with_mean:类型:布尔值(Boolean);默认值:True
    • 说明:如果设置为 True,则在转换数据时会减去均值(即进行中心化)。如果设置为 False,则不会在转换时减去均值,但 fit 操作仍然会计算均值,并可以通过 mean_ 属性查看。
  • with_std:类型:布尔值(Boolean);默认值:True
    • 说明:如果设置为 True,则在转换数据时会除以标准差(即进行缩放)。如果设置为 False,则不会在转换时除以标准差,但 fit 操作仍然会计算标准差,并可以通过 scale_ 属性查看。

2.2.2 属性介绍

  • scale_
    • 存放每个特征的标准差,是一个列表,长度为特征数。
  • mean_:
    • 存放每个特征的均值,是一个列表,长度为特征数。
  • var_
    • 存放每个特征的方差,是一个列表,长度为特征数。
  • feature_names_in_
    • 存放特征的名字,只有导入的数据中有特征名字时才会被定义。
  • n_samples_seen_
    • 导入样本数据的个数。

2.2.3 注意事项

  • 对于标准化来说,如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大。

2.2.4 代码演示

代码如下(示例):

from sklearn.preprocessing import StandardScaler# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建 标准化 对象.
transfer = StandardScaler()# 3. 具体的 标准化 动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 标准化 后的结果
print(f'标准化后, 数据集为: {new_data}')# 5. 打印每个特征列的 平均值 和 方差 和 标准差
print(f'均值: {transfer.mean_}')
print(f'方差: {transfer.var_}')
print(f'标准差: {transfer.scale_}')
print(f'样本数: {transfer.n_samples_seen_}')

2.3 举例说明

  • 1.有以下一个数据集,包含两个特征:年龄(Age)和收入(Income)。我们希望这两个特征进行归一化处理。
AgeIncome
2030000
2232000
3555000
4575000
5085000
  • 2.我们将年龄和收入标准化到具有零均值和单位方差的形式。

    • 2.1 年龄标准化:
      x s t d = x − μ σ x_{std} = \frac{x-μ}{σ} xstd=σxμ
      μ A g e = 20 + 22 + 35 + 45 + 50 5 = 34.4 μ_{Age} = \frac{20+22+35+45+50}{5} = 34.4 μAge=520+22+35+45+50=34.4
      σ A g e = ( 20 − 34.4 ) 2 + ( 22 − 34.4 ) 2 + ( 35 − 34.4 ) 2 + ( 45 − 34.4 ) 2 + ( 50 − 34.4 ) 2 5 = 142.8856 ≈ 11.9536 σ_{Age} = \sqrt{\frac{(20-34.4)^2+(22-34.4)^2+(35-34.4)^2+(45-34.4)^2+(50-34.4)^2}{5}} = \sqrt{142.8856} ≈ 11.9536 σAge=5(2034.4)2+(2234.4)2+(3534.4)2+(4534.4)2+(5034.4)2 =142.8856 11.9536

      • A g e s t d = 20 − 34.4 11.9536 ≈ − 1.2047 Age_{std} = \frac{20-34.4}{11.9536} ≈ -1.2047 Agestd=11.95362034.41.2047
      • A g e s t d = 22 − 34.4 11.9536 ≈ − 1.037 Age_{std} = \frac{22-34.4}{11.9536} ≈ -1.037 Agestd=11.95362234.41.037
      • A g e s t d = 35 − 34.4 11.9536 ≈ 0.0502 Age_{std} = \frac{35-34.4}{11.9536} ≈ 0.0502 Agestd=11.95363534.40.0502
      • A g e s t d = 45 − 34.4 11.9536 ≈ 0.8868 Age_{std} = \frac{45-34.4}{11.9536} ≈ 0.8868 Agestd=11.95364534.40.8868
      • A g e s t d = 50 − 34.4 11.9536 ≈ 1.3050 Age_{std} = \frac{50-34.4}{11.9536} ≈ 1.3050 Agestd=11.95365034.41.3050
    • 2.2 收入标准化:
      μ I n c o m e = 30000 + 32000 + 55000 + 75000 + 85000 ​ 5 = 55 , 400 μ_{Income} = \frac{30000+32000+55000+75000+85000​}{5} = 55,400 μIncome=530000+32000+55000+75000+85000​=55,400
      σ I n c o m e = ( 30000 − 55400 ) 2 + ( 32000 − 55400 ) 2 + ( 55000 − 55400 ) 2 + ( 75000 − 55400 ) 2 + ( 85000 − 55400 ) 2 5 = 486176800 ≈ 22049 σ_{Income} = \sqrt{\frac{(30000-55400)^2+(32000-55400)^2+(55000-55400)^2+(75000-55400)^2+(85000-55400)^2}{5}} = \sqrt{486176800} ≈ 22049 σIncome=5(3000055400)2+(3200055400)2+(5500055400)2+(7500055400)2+(8500055400)2 =486176800 22049

      • I n c o m e n o r m = 30000 − 55400 22049 = − 1.1520 Income_{norm} = \frac{30000-55400}{22049} = -1.1520 Incomenorm=220493000055400=1.1520
      • I n c o m e n o r m = 32000 − 55400 22049 = − 1.0613 Income_{norm} = \frac{32000-55400}{22049} = -1.0613 Incomenorm=220493200055400=1.0613
      • I n c o m e n o r m = 55000 − 55400 22049 = − 0.0181 Income_{norm} = \frac{55000-55400}{22049} = -0.0181 Incomenorm=220495500055400=0.0181
      • I n c o m e n o r m = 75000 − 55400 22049 = 0.8889 Income_{norm} = \frac{75000-55400}{22049} = 0.8889 Incomenorm=220497500055400=0.8889
      • I n c o m e n o r m = 85000 − 55400 22049 = 1.3425 Income_{norm} = \frac{85000-55400}{22049} = 1.3425 Incomenorm=220498500055400=1.3425
  • 3 原数据集就会变成下面这样

AgeIncome
-1.2047-1.1520
-1.037-1.0613
0.0502-0.0181
0.88680.8889
1.30501.3425

三、案例代码:利用KNN算法进行鸢尾花分类

代码如下(示例):

# 0.导入工具包
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score# 1.加载数据集
iris_data = load_iris()
# print(iris_data)
# print(iris_data.target)# 2.数据展示
iris_df = pd.DataFrame(iris_data['data'], columns=iris_data.feature_names)
iris_df['label'] = iris_data.target
# print(iris_data.feature_names)
# sns.lmplot(x='sepal length (cm)',y='sepal width (cm)',data = iris_df,hue='label')
# plt.show()# 3.特征工程(预处理-标准化)
# 3.1 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=22)
print(len(iris_data.data))
print(len(x_train))
# 3.2 标准化
process = StandardScaler()
x_train = process.fit_transform(x_train)
x_test = process.transform(x_test)
# 4.模型训练
# 4.1 实例化
model = KNeighborsClassifier(n_neighbors=3)
# 4.2 调用fit法
model.fit(x_train,y_train)
# 5.模型预测
x = [[5.1, 3.5, 1.4, 0.2]]
x=process.transform(x)
y_predict =model.predict(x_test)
print(model.predict_proba(x))# 6.模型评估(准确率)
# 6.1 使用预测结果
acc =accuracy_score(y_test,y_predict)
print(acc)# 6.2 直接计算
acc = model.score(x_test,y_test)
print(acc)

总结

  • 文章总结了特征预处理中的归一化和标准化,并对每一种方法做了详细讲解,最后用一个综合案例,使用前面学过的的KNN算法来验证预处理的必要性。
http://www.khdw.cn/news/13193.html

相关文章:

  • 网站图片 优化排名前十的大学
  • 网站建设公司报价表自媒体平台大全
  • 威海做网站的公司有哪些百度信息流广告投放
  • 网站建设方案调查分析报告hao123网址导航
  • 公司网站传图片优化大师app
  • 廊坊网站关键字优化免费推广网
  • 网站建设项目合同宁波seo排名优化培训
  • 网站的总体结构关键词挖掘
  • 怎样做服务型网站网站优化外包推荐
  • 邀请码网站怎么做软文发布推广平台
  • 用自己网站做邮箱域名搜索引擎推广案例
  • 清远网站推广优化公司站长之家app下载
  • 零基础网站建设入门到精通视频教网络优化的工作内容
  • 做网单哪个网站最好用淘宝推广工具
  • 包头市建设局网站汕头网站建设平台
  • 网站建设小程序开发seo推广外贸独立站建站
  • 厦门seo报价南京seo公司教程
  • 学生做的动漫网站网络营销课程实训报告
  • 建设官方网站怎么登录北京计算机培训机构前十名
  • 智能建站源码如何制作自己的网站?
  • 个人做网站开发免费b站软件推广网站2023
  • 衡水需要做网站的公司seo关键词优化排名软件
  • 做淘客的网站关键词有哪些福州网站排名
  • 做服装找工作网站搜狗网站收录
  • 专业做化妆品外包材的招聘网站百度推广开户公司
  • 网站开发的选择是什么推广公司app主要做什么
  • 做网站的结论和心得鸡西seo
  • 需要郑州网站建设滁州网站seo
  • 怎么做虚拟的网站做网站多少钱
  • 网站外链怎么做下载优化大师安装桌面