电力预测task3笔记
1Datawhale AI夏令营
时间序列分析中的特征提取与优化策略
在时间序列分析中,特征提取是影响模型性能的关键步骤。以下是关键特征提取方法及其分析:
1. 日期变量
时间序列数据通常包含日期信息,可以细分为年、月、周、日、小时等。将这些日期变量转换为数值特征,便于模型处理。
2. 周期性
许多时间序列表现出周期性,如每日、每周或每月的模式。识别并利用这些周期特征有助于捕捉数据的内在规律。
3. 趋势性
趋势性是指时间序列的长期变化趋势。可以通过移动平均或线性回归提取,作为模型的输入特征。
4. 时间差
计算与特定日期的时间差(如重要事件日),帮助模型了解数据点的相对位置。
5. 时间特征组合
组合不同的时间单位(如年和周)提供更丰富的时间信息,揭示复杂模式。
6. 特殊日期
识别特殊事件(如节假日)并将其作为特征,有助于解释相关数据波动。
7. 异常点
异常点与其他数据显著不同,正确处理这些点对提高预测精度至关重要。
8. 时序相关特征
历史平移:使用过去的值预测未来。
滑窗统计:在时间窗口内计算统计量,如均值、中位数等,帮助捕捉局部数据特性。
9. 强相关特征
识别 ...
python-debug
任务一
请用Python实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数。
源程序:
1234567891011121314151617181920212223242526272829303132""" 请用Python实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数。 TIPS:记得先去掉标点符号,然后把每个单词转换成小写。不需要考虑特别多的标点符号,只需要考虑实例输入中存在的就可以。"""text = """Got this panda plush toy for my daughter's birthday,who loves it and takes it everywhere. It's soft andsuper cute, and its face has a friendly look. It ...
🍉Book-6章-支持向量机
章节介绍
统计学领域名声赫赫的SVM与核方法是时至今日仍在高频使用的经典算法。
笔记介绍
对本章各节知识点进行汇总,主要分为引入原因,原理思想,和一些思考,对于数学推导内容介绍较少,有需要的可以先阅读西瓜书,再参考南瓜书的数学推导。
数学知识
大部分都是规划类、最优化的问题,最好先进行相关知识的学习。
这里推荐一本书:最优化:建模、算法与理论 (刘浩洋 户将 李勇锋 文再文)
SVM-支持向量机
引入原因:
在线性可分的条件下,我们在训练集做分类任务时,最基本的想法就是在样本空间中找到一个超平面进行划分,
但是对于分类任务,我们可以画出很多个超平面,这时候就需要引入损失函数,对超平面进行选择,而使得两个异类支持向量的距离最大化,就是我们所说的支持向量机的基本型。
数学公式及其原理:
仍用线性模型来表示一个超平面:
$$ w ^ { T } x + b = 0$$
而点到超平面的距离表示为:参考点到直线距离公式即可理解
$$ r = \frac { | w ^ { T } x + b | } { | | w | | }$$
两个异类支持向量到超平面的距离(称为间隔 margin)表示为 ...
🍉Book-5章-神经网络
神经网络模型
1943年一直沿用至今的M-P神经网络模型
M-P神经网络模型
模型解释:
将输入神经元的x乘上相应权重w并求和,将结果与阈值$\theta$做差,再经过激活函数f得到输出值y
名词解释:
阈值(threshold / bias):
表示神经元电位超过阈值则被激活
激活函数(activation function):也称挤压函数或响应函数,用于将输入值映射为0/1或(0,1)
训练目标:
通过训练模型,得出合适的w和$\theta$,其中训练算法最常见的就是下面会说到的BP算法
激活函数
回顾第三章线性模型中的对数几率回归模型和单位阶跃函数
最理想状态是用单位阶跃函数输入值映射为0/1,但由于其不连续、不光滑的性质,我们使用Sigmoid函数将输入值映射为(0,1),Sigmoid函数即型为S的函数,其中我们最常用的就是对数几率函数:
$$ s i g m o i d ( x ) = \frac { 1 } { 1 + e ^ { - x } }$$
对率函数有很好的性质:$$ f ^ { \prime } ( x ) = f \left( x \right) ( 1 ...
🍉Book-5章-神经网络
神经网络模型
1943年一直沿用至今的M-P神经网络模型
M-P神经网络模型
模型解释:
将输入神经元的x乘上相应权重w并求和,将结果与阈值$\theta$做差,再经过激活函数f得到输出值y
名词解释:
阈值(threshold / bias):
表示神经元电位超过阈值则被激活
激活函数(activation function):也称挤压函数或响应函数,用于将输入值映射为0/1或(0,1)
训练目标:
通过训练模型,得出合适的w和$\theta$,其中训练算法最常见的就是下面会说到的BP算法
![[Pasted image 20240531074642.png]]
激活函数
回顾第三章线性模型中的对数几率回归模型和单位阶跃函数
最理想状态是用单位阶跃函数输入值映射为0/1,但由于其不连续、不光滑的性质,我们使用Sigmoid函数将输入值映射为(0,1),Sigmoid函数即型为S的函数,其中我们最常用的就是对数几率函数:
$$ s i g m o i d ( x ) = \frac { 1 } { 1 + e ^ { - x } }$$
对率函数有很好的性质:$$ f ^ { \pri ...