当前位置: 首页 > news >正文

线性回归

符号说明:

数据集:\(D = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\} \quad\)
x和y的取值范围:\(x_i \in \mathbb{R}^p \quad y_i \in \mathbb{R} \quad i = 1, 2, \cdots, N\)
\(X = \begin{pmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_N^T \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NP} \end{pmatrix}_{N \times P}\)\(Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}_{N \times 1}\)

最小二乘法的几何意义

对最小二乘法公式进行推导:

\[\begin{aligned} L(W)&=\sum_{i=1}^N(W^Tx_i-y_i)^2\\&=(W^Tx_1-y_1\quad W^Tx_2-y_2\quad\cdots\quad W^Tx_N-y_N)\begin{pmatrix}(W^Tx_1-y_1)^T\\(W^Tx_2-y_2)^T\\\vdots\\(W^Tx_N-y_N)^T\end{pmatrix}\\&=[W^T\begin{pmatrix}x_1&x_2&\cdots&x_N\end{pmatrix}-\begin{pmatrix}y_1&y_2&\cdots&y_N\end{pmatrix}]\begin{pmatrix}x_1^TW-y_1^T\\x_2^TW-y_2^T\\\vdots\\x_N^TW-y_N^T\end{pmatrix}\\&=(W^TX^T-Y^T)(XW-Y)\\&=W^TX^TXW-W^TX^TY-Y^TXW+Y^TY\\&=W^TX^TXW-2W^TX^TY+Y^TY \end{aligned}\]

\(\frac{\partial L(W)}{\partial W}=2X^{T}XW-2X^{T}Y=0\),则\(W=(X^TX)^{-1}X^TY\)

  • 伪逆:\(A^+=(X^T X)^{-1} X^T\)
  • 左逆:\(X_{left}^{-1}=(X^T X)^{-1} X^T\),满足\(X_{left}^{-1} \cdot X = I\)

从每一个数据点的误差来看

从投影角度来看

\[\begin{aligned} X_{N\times p}W_{p\times1}&=\begin{pmatrix}x_{11}&x_{12}&\cdots&x_{1p}\\x_{21}&x_{22}&\cdots&x_{2p}\\\vdots&\vdots&\ddots&\vdots\\x_{N1}&x_{N2}&\cdots&x_{NP}\end{pmatrix}\begin{pmatrix}w_1\\w_2\\\vdots\\w_p\end{pmatrix}\\&=\begin{pmatrix}x_{11}w_1+x_{12}w_2+\cdots+x_{1p}w_p\\x_{21}w_1+x_{22}w_2+\cdots+x_{2p}w_p\\\vdots\\x_{N1}w_1+x_{N2}w_2+\cdots+x_{Np}w_p\end{pmatrix}\\&=\left(w_1\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{N1}\end{pmatrix}+w_2\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{N2}\end{pmatrix}+\cdots+w_p\begin{pmatrix}x_{1p}\\x_{2p}\\\vdots\\x_{Np}\end{pmatrix}\right) \end{aligned} \]

img

因此可以将\(X\)中每一列看作一个向量,\(XW\)便是\(W\)\(X\)列向量的线性组合。想象Y在一个更高维的空间中, \(Y\) 无法由 \(X\) 的列向量线性表示,即 \(Y\) 不属于 \(X\) 的列空间。因此需要找到 \(Y\)\(X\) 列空间上的投影,因为该投影与Y最为接近。

最小二乘法-概率视角-高斯噪声-MLE

img

假设噪声 ε ~ N(0, σ²),则\(y = f(W) + ε = W^T X + ε\),此处把 \(W^T X\) 看成常数,因为当 W 固定后,\(W^T X\) 是固定值,因此 \(y|X, W \sim N(W^T X, σ^2)\),则可得到:

\[p(y|X, W) = \frac{1}{\sqrt{2πσ}} \exp(-\frac{(y - W^T X)^2}{2σ^2}) \]

接下来使用 MLE(最大似然估计)求解最优 W:

\[\begin{aligned} L(W)&=\log p(y|X,W)\\&=\log\prod_{i=1}^Np(y_i|x_i,W)\\&=\sum_{i=1}^N\log p(y_i|x_i,W)\\&=\sum_{i=1}^N\log(\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}))\\&=\sum_{i=1}^N\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}\\ \hat{\boldsymbol{W}}&=argmaxL(W)\\&=argmax\sum_{W}^N\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}\\&=argmax\sum_{i=1}^N-\frac{(y_i-W^Tx_i)^2}{2\sigma^2}\\&=argmin_W\sum_{i=1}^N\frac{(y_i-W^Tx_i)^2}{2\sigma^2}\\&=argmin_W\sum_{i=1}^N{(y_i-W^Tx_i)^2}\end{aligned} \]

贝叶斯角度-高斯噪声高斯先验-MAP

\[\begin{aligned} \hat{\boldsymbol{W}}&=arg \max_{W}p(W|y)\\&=argmax_W\frac{p(y|W)p(W)}{p(y)}\\&=arg \max_W p(y|W)p(W)\\&=arg \max_W \log\left\{p(y|W)p(W)\right\}\\&=arg \max_{W}\log{\{\frac{1}{\sqrt{2\pi}\sigma}\exp{\{-\frac{(y-W^TX)^2}{2\sigma^2}\}}\frac{1}{\sqrt{2\pi}\sigma_0}\exp{\{-\frac{\|W\|^2}{2\sigma_0^2}\}}\}}\\&=arg \max_W\log{(\frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0})}-\frac{(y-W^TX)^2}{2\sigma^2}-\frac{\|W\|^2}{2\sigma_0^2}\\&=arg \max_W-\frac{(y-W^TX)^2}{2\sigma^2}-\frac{\|W\|^2}{2\sigma_0^2}\\&=argmin_W\frac{(y-W^TX)^2}{2\sigma^2}+\frac{\|W\|^2}{2\sigma_0^2}\\&=argmin_W(y-W^TX)^2+\frac{\sigma^2}{\sigma_0^2}\|W\|^2\\&=argmin_W\sum_{i=1}^N(y_i-W^Tx_i)^2+\frac{\sigma^2}{\sigma_0^2}\|W\|^2 \end{aligned} \]

观察上式结果,其与加了Ridge正则化的Loss Function一致:\(J(W)=\sum\left\|W^Tx_i-y_i\right\|^2+\lambda W^TW\),其中\(\lambda=\frac{\sigma^2}{\sigma_0^2}\)

http://www.jsqmd.com/news/350643/

相关文章:

  • 聚类
  • 基于CNN的水稻病害检测-大数据深度学习算法毕设毕业设计项目PyQT
  • 大润发购物卡哪里回收方便,线上渠道成主流 - 淘淘收小程序
  • 技术日报|Claude-Mem四连冠近2000星,字节UI-TARS强势登榜前四
  • 搞定复杂空间管路:全能型弯管测量方案助力提升汽车/航空导管生产良率
  • 微信商城小程序怎么制作? 电商平台怎么搭建 - 码云数智
  • calibre 转换书籍-结构检测-检测章节的xpath表达式 部分删除历史xpath记录
  • 守护生命与工程的“隐形卫士”!看看科研人员如何用高科技进行边坡变形预测研究
  • 2026最新Java面试真题总结,金三银四必备!
  • 高速DIC技术用于大型结构振动台试验位移测量与可靠性验证
  • 2026 西南智慧停车品牌甄选:立体车库、停车升降机优质服务商推荐 - 深度智识库
  • 面试官:MySQL不同隔离级别,都使用了什么锁?
  • 在线自动化三维检测,批量高效质量控制-新拓三维XTOM-TRANSFORM系统
  • 不踩雷!MBA专属AI论文写作工具 —— 千笔·专业论文写作工具
  • Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值
  • 宜昌市英语雅思培训机构推荐、2026权威测评出国雅思辅导机构口碑榜单 - 老周说教育
  • 亚马逊云代理商: 数据库快照和时间点恢复有什么区别?怎么选
  • 在 HarmonyOS 上,游戏状态该怎么“死而复生”
  • 小程序怎么开发自己的小程序,小程序制作主流平台评测 - 码云数智
  • 面试官:聊聊mysql幻读问题?
  • 共聚焦扫描显微镜的工作原理
  • 2026年海口离婚律师事务所服务推荐:离婚律师/律师咨询/律师会见/刑事律师事务所精选 - 品牌推荐官
  • 襄阳市英语雅思培训机构推荐,2026权威测评出国雅思辅导机构口碑榜单 - 老周说教育
  • SciToolAgent:大模型+知识图谱打造科研自动化神器,带你轻松搞定复杂工作流
  • HEIC 转 JPG 在线工具怎么选?踩过坑后的一点整理
  • 2026年 活动策划公司推荐榜单:电竞演出、发布会秀场、节庆嘉年华、韩星团建见面会一站式创意执行专家 - 品牌企业推荐师(官方)
  • 不同学科的AIGC检测有何差异?理工科vs文科的对比 - 我要发一区
  • 做什么网络项目一年能搞一百万
  • 在Qt中给QLabel设置黑色边框
  • 京东e卡回收哪里划算,盘点市面上回收折扣差异 - 淘淘收小程序