Chapter 2 Linear models

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/7000d1c0-3841-42b2-b0a3-7db5dcba7fc9/Untitled.png

Binary optimization에 대해서는 inner maximization problem을 정확히 해결할 수 있고 multi-class classification에 대해서는 relatively tight upper bound를 구할 수 있다.

Minimization problem에 대해서는 convex하고 $x+\delta$ 에 대해 maximizing을 하고 나서도 convex 하므로 robust training procedure의 결과는 위 문제를 optimal 하게 해결할 수 있다 (적어도 binary classification에 대해서는).

반면 Deep network 의 경우에는 inner maximization problem과 outer minimization problem 모두 global 하게 해결될 수 없다. ( inner problem이 exact solution을 가진다고 하더라도 network 자체의 non-convexity 때문에 outer minimization에서 optimal한 solution을 구하기 어렵다.)

Binary classification

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8a81ea9c-f5f9-433a-8986-e1e2a96070af/Untitled.png

Solving the inner maximization problem

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/13cd8327-63f5-4aeb-ad01-7e9956f64760/Untitled.png

앞서 정의한 loss function을 plot 해보면

x = np.linspace(-4,4)
plt.plot(x, np.log(1+np.exp(-x)))

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a9accaca-2945-4147-9a80-1fcc9907c82c/Untitled.png

Plot된 결과를 보면 알 수 있듯이 해당 loss function은 (단조)감소 함수이므로 Loss function을 최대화 하기 위해서는 function의 input 값을 최소화 해주는 것과 같은 작업이다. 이를 아래와 같이 표현할 수 있다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/aeba0ffe-fb04-4556-83db-e02c36d4eab8/Untitled.png

따라서 결론적으로 풀어야 할 부분은

$$ \min_{||\delta||<\epsilon} y\cdot w^T\delta $$