小测验 1


时间:2019年11月20日 15:00-16:40

作业模版请上传到jupyter平台运行

参考答案

MLP Quiz

内容

利用$\hat{Y} = f_2\circ\phi\circ f_1 (X)$和梯度下降法来拟合boston数据集,即求解最优化问题:$min_{W, b} L(\hat{Y}, Y)$

其中:

  • $Z_0 = X$, 其中 $X \in \mathbb{R}^{N\times n_{in}}$
  • $Z_1 = f_1(Z_0) := Z_0W_1^T + b_1$, 其中 $W_1 \in \mathbb{R}^{n_{mid}\times n_{in}}, b_1 \in \mathbb{R}^{n_{mid}}$
  • $Z_2 = \phi_2(Z_1) := \frac{1}{1+e^{-Z_1}}$, 其中指数运算为逐元素运算,即$e^{X}_i := e^{X_i}$
  • $Z_3 = f_2(Z_2) := Z_2W_2^T + b2$, 其中 $W_2 \in \mathbb{R}^{n_{out}\times n_{mid}}, b_2 \in \mathbb{R}^{n_{out}}$
  • $\hat{Y} = Z_3$
  • $L(\hat{Y}, Y) := \frac{1}{2} \sum_{i=1}^{N} (\hat{Y_i} - Y_i)^2$

关于boston数据集:$n_{in}=13, n_{out}=1$,为了降低计算量,设定$n_{mid} = 30$

评分

  1. (4分)给出$\frac{\partial L}{\partial W_1}, \frac{\partial L}{\partial b_1}, \frac{\partial L}{\partial W_2}, \frac{\partial L}{\partial b_2}$的计算表达式,并注明其中每一个矩阵的尺寸(纸质或pdf)
  2. (4分)补充完整代码模版
  3. (2分)性能:服务器空载情况下运行一次完整的训练时间低于10s (Baseline为3.5s)

提交

提交到ftp://ftp.lflab.cn/AI_homework/Graduate/quiz/

参考

  • 矩阵关于标量的导数:$(\frac{\partial{Y}}{\partial{X}})_{ij} := \frac{\partial{Y_ij}}{\partial{X}}$, 其中 $Y \in \mathbb{R}^{m\times n}, X \in \mathbb{R}$
  • 向量关于向量的导数:$(\frac{\partial{Y}}{\partial{X}})_{ij} := \frac{\partial{Y_i}}{\partial{X_j}}$, 其中 $Y \in \mathbb{R}^{m\times 1}, X \in \mathbb{R}^{n\times 1}$
  • 标量关于矩阵的导数:$(\frac{\partial{Y}}{\partial{X}})_{ij} := \frac{\partial{Y}}{\partial{X_ij}}$, 其中 $Y \in \mathbb{R}, X \in \mathbb{R}^{m\times n}$