Binary optimization에 대해서는 inner maximization problem을 정확히 해결할 수 있고 multi-class classification에 대해서는 relatively tight upper bound를 구할 수 있다.
Minimization problem에 대해서는 convex하고 $x+\delta$ 에 대해 maximizing을 하고 나서도 convex 하므로 robust training procedure의 결과는 위 문제를 optimal 하게 해결할 수 있다 (적어도 binary classification에 대해서는).
반면 Deep network 의 경우에는 inner maximization problem과 outer minimization problem 모두 global 하게 해결될 수 없다. ( inner problem이 exact solution을 가진다고 하더라도 network 자체의 non-convexity 때문에 outer minimization에서 optimal한 solution을 구하기 어렵다.)
앞서 정의한 loss function을 plot 해보면
x = np.linspace(-4,4)
plt.plot(x, np.log(1+np.exp(-x)))
Plot된 결과를 보면 알 수 있듯이 해당 loss function은 (단조)감소 함수이므로 Loss function을 최대화 하기 위해서는 function의 input 값을 최소화 해주는 것과 같은 작업이다. 이를 아래와 같이 표현할 수 있다.
따라서 결론적으로 풀어야 할 부분은
$$ \min_{||\delta||<\epsilon} y\cdot w^T\delta $$