🍉Book-4章-决策树
递归终止条件
决策树使用递归实现,而递归终止条件有以下三种:
当前结点所有样本属于同类,无需划分
当前属性集为空,无法划分,选取此节点中数量更多的标记作为类别标记
当前样本集为空,不能划分,依据父节点中数量更多的标记作为类别标记
名词概念
1.纯度:同类聚集程度高、不同类越分散,则纯度越高
2.信息熵:纯度的量化指标,来源于信息论
3.剪枝:防止决策树过拟合,减去部分划分属性。分为预剪枝和后剪枝
信息熵
信息熵计算公式:
$$ E n t ( D ) = - \sum _ { k = 1 } ^ { | y | } p _ { k } \log _ { 2 } p _ { k }$$
信息熵用于衡量信息的不确定性或信息的混乱程度,我们可以将其用于量化纯度
信息熵越大,数据分布越均匀、随机、杂乱无章,明显这不是我们想要的。我们想要的是相同类靠近,不同类远离的效果,即需要越小的信息熵
$p_k$表示选到k类别的概率,而 $-\log _ { 2 } p _ { k }$则表示信息量
1我们可以理解对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量 ...
🍉Book-3章-线性模型
所需数学知识
求偏导
矩阵求导
求逆矩阵
名词解释
1.序关系
有序:属性之间可进行相对比较(如大、中、小)
无序:属性之间不可进行相对比较(如南瓜、西瓜、冬瓜)
2.符号arg与s.t.
arg:即argument(参数),用于表示求出指定函数时的**参数取值**
例如:
arg min 就是使后面这个式子达到最小值时的 变量的取值
arg max 就是使后面这个式子达到最大值时的 变量的取值
s.t.:即subject to,意思是受限于...,后面紧跟约束条件
3.闭式解
也叫做 解析解,
闭式解就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解
南瓜书中说闭式解是指可以通过具体的表达式解出待解参数
模型介绍
表示形式
对于拥有d个属性的示例 x,表示为:$$x = ( x _ { 1 } ; x _ { 2 } ; \ldots ; x _ { d } )$$
其中$x_i$表示第i个属性的属性值
而我们将各属性的线性组合作为线性模型,表示为:
$$ f ( x ) = w _ { 1 } x _ { 1 } + w _ { 2 } x ...
🍉Book-2章-模型评估与选择
术语名词
1.泛化误差与经验误差
泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”
训练集样本数越接近数据集数量,经验误差就越小。但是经验误差越小,模型效果就越好吗?
请注意,我们是为了得到泛化能力强的模型,而经验误差≠泛化误差
经验误差很小,会使模型学习到训练样本中的许多无用特征,导致泛化能力变弱
我们称其为过拟合(overfitting)
而与之相对的概念,我们称为欠拟合(underfitting),其表示的就是模型没有很好的学习到训练样本上的特征,从而也导致泛化能力变弱
2.过拟合与欠拟合
过拟合:模型在训练数据上表现得过于复杂,以至于在未见过的数据上表现不佳。欠拟合:模型在训练数据上表现得过于简单,无法捕捉到数据的内在结构和模式。
出现原因:
1.出现欠拟合的情况,一般是由于样本特征少,模型复杂度低等
2.出现过拟合的情况,一般是由于样本数量少、噪声多,模型复杂度过高等
经验误差就是训练程度的体现,经验误差越小则训练程度越强所以现在,我们可以得出训练程度不能过大也不能过小的结论
那我们能找到一个最佳方案得出最佳的训练程度吗🤔
答案是-- ...
🍉Book-1章-绪论
本书的使用:
第1章-绪论
计算学习理论
概率近似正确 模型:PAC (Probably Approximate Correct)
公式:$$ P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta$$
其中 f 表示模型,y表示真相,x为样本
公式分析:
其中$ | f ( x ) - y | \leq \epsilon$ 用于计算模型的误差,判断模型的优劣
由于模型基于不同的算法和数据是不唯一的
故用$$ P ( … ) \geq 1 - \delta$$ 表示取得该模型的概率
故当$$ \delta=0,\epsilon=0$$时,即表示每次都取到最优解的模型
这时就出现了P=NP的问题
只要我们相信P≠NP,那么就不可能每次都取到最优模型
P=NP问题是计算机科学中的一个著名未解之谜,它询问的是两个问题类别——P类问题和NP类问题——是否相等。P类问题是指那些可以被快速解决的计算问题,即存在一个多项式时间算法来解决这些问题。NP类问题则是指那些虽然可能很难快速解决,但如果给出一个解决方案,我们可以快速验证这个解决方案是否正确 ...
定义类和方法
对象是实例化的类,所以对象也叫做实例。
一个实例(对象)由 属性 (变量or数据)和 方法 (行为)构成
所以属性和方法叫做对象的 成员
对象的 属性 叫做 成员变量or实例变量(这俩也有点区别)
对象的 方法 叫做 成员方法
在面向对象编程中,成员变量和实例变量通常指的是相同的概念,但它们的使用和含义略有不同,具体取决于上下文:
成员变量:
成员变量是类的一部分,它们定义了类的状态或属性。
每个成员变量都是类的蓝图,用于创建对象时存储数据。
成员变量可以是静态的或非静态的(实例变量)。
实例变量(非静态变量):
实例变量是成员变量的一种,它们属于类的特定实例(对象)。
每个实例变量的副本都存储在创建的对象中,这意味着每个对象都有自己的实例变量副本。
实例变量的值对于每个对象都是独立的,一个对象的实例变量改变不会影响另一个对象的相应变量。
静态变量(类变量):
静态变量也是成员变量的一种,但它们不属于任何特定的实例。
静态变量只有单一的副本,所有类的实例共享这个副本。
静态变量通常用于存储类级别的数据,如配置信息或计数器。
以下是一些关键点的对比: ...
Hexo搭建实遇问题
1.spawn_failed问题
原因分析:
其实出现这个问题,很大可能是因为https和http的proxy的对应的分别是https和http开proxy server,
而https的proxy server可能无法正常工作。
解决办法:
修改_config.yml文件的deploy部分,将https 修改为http url 或者 设置为git url, 配置为https oauth2 加token
设置为git url(推荐) 亲测有效
1234deploy: type: git repo: git@github.com:your_github_id/your_github_id.github.io.git branch: gh-pages
2.头像无法显示问题
原因分析:
不明原因,猜测是路径问题
解决方法1:
将想要显示的头像图片存入本地文件夹
在根目录下进入git bash使用hexo g和hexo d上传代码到github仓库
在github仓库找到该图片,鼠标右键复制图片链接
修改主题配置文件,如我修改的为config.butt ...
Front-matter模板
Front-matter 是 markdown 文件最上方以---分隔的区域,用于指定个别档案的变数
Page Front-matter 用于页面配置
Post Front-matter 用于文章页配置
如果标注可选的参数,可根据自己需要添加,不用全部都写
Page Front-matter:
1234567891011121314151617MARKDOWN---title:date:updated:type:comments:description:keywords:top_img:mathjax:katex:aside:aplayer:highlight_shrink:---
写法
解释
title
【必需】页面标题
date
【必需】页面创建日期
type
【必需】标籤、分类和友情链接三个页面需要配置
updated
【可选】页面更新日期
description
【可选】页面描述
keywords
【可选】页面关键字
comments
【可选】显示页面评论模块(默认 true)
top_img
【可选】页面顶部图片
mathja ...
My first blog
大事件
芜湖!成功部署blog!૮(˶ᵔ ᵕ ᵔ˶)ა
以后就在这上面写学习总结输出了!
之后还要完善页面渲染哈,今天就先收工啦 ૮(∪。∪)ა。。。zzzzz