个人笔记机器学习2
回归问题Regression
Local minimum 在linear regression问题中不会遇到
convex, 凸函数,图像向下凸,只有一个最低点,没有局部坑,梯度下降一定能找到全局最优解
当λ越大,说明考虑smooth的regularization的那一项影响力越大,找到的function就越平滑。
λ越大的时候,training data的error越大,这是合理的,因为λ越大我们就越倾向于考虑参数本来的值,而减少考虑了error,λ越大的时候考虑的error就越小
越平滑的function受到noise的影响会越来越小,对noise会不那么sensitive,testing data的performance就会通常越来越好。但是也不能太平滑,太平滑就是一条水平线,就没有价值了,反而testing set上表现又变的糟糕了。因此如何去调这个λ需要自己决定。不用在regularization的时候考虑bias,因为bias只会让function上下移动而不影响平滑程度
分类问题Classification
比较常见的做法是不同的class可以share同一个covariance matrix,covariance matrix首先是跟feature size的平方成正比的,当feature size很大的时候其实covariance matrix增长会很快,在这个情况下如果把两个不同高斯分布给到不同的covariance matrix,那你的model 参数可能会太多了,model 参数多你的variance就大,也就是容易overfitting。 所以可以故意给到同样的covariance matrix(强迫共用),这样就可以用到较少的parameters来进行model。
