HP-Patience

发表于2024-05-16|更新于2024-05-28|🍉Book

递归终止条件决策树使用递归实现，而递归终止条件有以下三种：当前结点所有样本属于同类，无需划分当前属性集为空，无法划分，选取此节点中数量更多的标记作为类别标记当前样本集为空，不能划分，依据父节点中数量更多的标记作为类别标记名词概念 1.纯度：同类聚集程度高、不同类越分散，则纯度越高 2.信息熵：纯度的量化指标，来源于信息论 3.剪枝：防止决策树过拟合，减去部分划分属性。分为预剪枝和后剪枝信息熵信息熵计算公式： $$ E n t ( D ) = - \sum _ { k = 1 } ^ { | y | } p _ { k } \log _ { 2 } p _ { k }$$ 信息熵用于衡量信息的不确定性或信息的混乱程度，我们可以将其用于量化纯度信息熵越大，数据分布越均匀、随机、杂乱无章，明显这不是我们想要的。我们想要的是相同类靠近，不同类远离的效果，即需要越小的信息熵 $p_k$表示选到k类别的概率，而 $-\log _ { 2 } p _ { k }$则表示信息量 1我们可以理解对于某一事件，其发生的概率越小，那么其信息量越大；发生的概率越大，那么其信息量 ...

🍉Book-3章-线性模型

发表于2024-05-16|更新于2024-05-28|🍉Book

所需数学知识求偏导矩阵求导求逆矩阵名词解释 1.序关系有序：属性之间可进行相对比较（如大、中、小）无序：属性之间不可进行相对比较（如南瓜、西瓜、冬瓜） 2.符号arg与s.t. arg：即argument（参数），用于表示求出指定函数时的**参数取值** 例如： arg min 就是使后面这个式子达到最小值时的变量的取值 arg max 就是使后面这个式子达到最大值时的变量的取值 s.t.：即subject to，意思是受限于...，后面紧跟约束条件 3.闭式解也叫做解析解，闭式解就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解南瓜书中说闭式解是指可以通过具体的表达式解出待解参数模型介绍表示形式对于拥有d个属性的示例 x，表示为：$$x = ( x _ { 1 } ; x _ { 2 } ; \ldots ; x _ { d } )$$ 其中$x_i$表示第i个属性的属性值而我们将各属性的线性组合作为线性模型，表示为： $$ f ( x ) = w _ { 1 } x _ { 1 } + w _ { 2 } x ...

🍉Book-2章-模型评估与选择

发表于2024-05-16|更新于2024-07-28|🍉Book

术语名词 1.泛化误差与经验误差泛化误差：在“未来”样本上的误差经验误差：在训练集上的误差，亦称“训练误差” 训练集样本数越接近数据集数量，经验误差就越小。但是经验误差越小，模型效果就越好吗？请注意，我们是为了得到泛化能力强的模型，而经验误差≠泛化误差经验误差很小，会使模型学习到训练样本中的许多无用特征，导致泛化能力变弱我们称其为过拟合(overfitting) 而与之相对的概念，我们称为欠拟合(underfitting)，其表示的就是模型没有很好的学习到训练样本上的特征，从而也导致泛化能力变弱 2.过拟合与欠拟合过拟合：模型在训练数据上表现得过于复杂，以至于在未见过的数据上表现不佳。欠拟合：模型在训练数据上表现得过于简单，无法捕捉到数据的内在结构和模式。出现原因： 1.出现欠拟合的情况，一般是由于样本特征少，模型复杂度低等 2.出现过拟合的情况，一般是由于样本数量少、噪声多，模型复杂度过高等经验误差就是训练程度的体现，经验误差越小则训练程度越强所以现在，我们可以得出训练程度不能过大也不能过小的结论那我们能找到一个最佳方案得出最佳的训练程度吗🤔 答案是-- ...

🍉Book-1章-绪论

发表于2024-05-15|更新于2024-07-27|🍉Book

本书的使用：第1章-绪论计算学习理论概率近似正确模型：PAC (Probably Approximate Correct) 公式：$$ P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta$$ 其中 f 表示模型，y表示真相，x为样本公式分析：其中$ | f ( x ) - y | \leq \epsilon$ 用于计算模型的误差，判断模型的优劣由于模型基于不同的算法和数据是不唯一的故用$$ P ( … ) \geq 1 - \delta$$ 表示取得该模型的概率故当$$ \delta=0，\epsilon=0$$时，即表示每次都取到最优解的模型这时就出现了P=NP的问题只要我们相信P≠NP，那么就不可能每次都取到最优模型 P=NP问题是计算机科学中的一个著名未解之谜，它询问的是两个问题类别——P类问题和NP类问题——是否相等。P类问题是指那些可以被快速解决的计算问题，即存在一个多项式时间算法来解决这些问题。NP类问题则是指那些虽然可能很难快速解决，但如果给出一个解决方案，我们可以快速验证这个解决方案是否正确 ...

定义类和方法

发表于2024-05-14|更新于2024-05-16|Java

对象是实例化的类，所以对象也叫做实例。一个实例(对象)由属性 (变量or数据)和方法 (行为)构成所以属性和方法叫做对象的成员对象的属性叫做成员变量or实例变量(这俩也有点区别) 对象的方法叫做成员方法在面向对象编程中，成员变量和实例变量通常指的是相同的概念，但它们的使用和含义略有不同，具体取决于上下文：成员变量：成员变量是类的一部分，它们定义了类的状态或属性。每个成员变量都是类的蓝图，用于创建对象时存储数据。成员变量可以是静态的或非静态的（实例变量）。实例变量（非静态变量）：实例变量是成员变量的一种，它们属于类的特定实例（对象）。每个实例变量的副本都存储在创建的对象中，这意味着每个对象都有自己的实例变量副本。实例变量的值对于每个对象都是独立的，一个对象的实例变量改变不会影响另一个对象的相应变量。静态变量（类变量）：静态变量也是成员变量的一种，但它们不属于任何特定的实例。静态变量只有单一的副本，所有类的实例共享这个副本。静态变量通常用于存储类级别的数据，如配置信息或计数器。以下是一些关键点的对比： ...

Hexo搭建实遇问题

发表于2024-05-13|更新于2024-05-19|Blog搭建

1.spawn_failed问题原因分析：其实出现这个问题，很大可能是因为https和http的proxy的对应的分别是https和http开proxy server，而https的proxy server可能无法正常工作。解决办法：修改_config.yml文件的deploy部分，将https 修改为http url 或者设置为git url, 配置为https oauth2 加token 设置为git url(推荐) 亲测有效 1234deploy: type: git repo: git@github.com:your_github_id/your_github_id.github.io.git branch: gh-pages 2.头像无法显示问题原因分析：不明原因，猜测是路径问题解决方法1：将想要显示的头像图片存入本地文件夹在根目录下进入git bash使用hexo g和hexo d上传代码到github仓库在github仓库找到该图片，鼠标右键复制图片链接修改主题配置文件，如我修改的为config.butt ...

Front-matter模板

发表于2024-05-12|更新于2024-05-16|Blog搭建

Front-matter 是 markdown 文件最上方以---分隔的区域，用于指定个别档案的变数 Page Front-matter 用于页面配置 Post Front-matter 用于文章页配置如果标注可选的参数，可根据自己需要添加，不用全部都写 Page Front-matter： 1234567891011121314151617MARKDOWN---title:date:updated:type:comments:description:keywords:top_img:mathjax:katex:aside:aplayer:highlight_shrink:--- 写法解释 title 【必需】页面标题 date 【必需】页面创建日期 type 【必需】标籤、分类和友情链接三个页面需要配置 updated 【可选】页面更新日期 description 【可选】页面描述 keywords 【可选】页面关键字 comments 【可选】显示页面评论模块(默认 true) top_img 【可选】页面顶部图片 mathja ...

My first blog

发表于2024-04-23|更新于2024-05-13

大事件芜湖！成功部署blog！૮(˶ᵔ ᵕ ᵔ˶)ა 以后就在这上面写学习总结输出了！之后还要完善页面渲染哈，今天就先收工啦 ૮(∪｡∪)ა｡｡｡zzzzz