본문 바로가기
Data Science/세미나&오프라인

[세미나] AI최신논문 연구회 T-T.O.C #1 후기

by 싸코 2017. 11. 1.

[세미나] AI최신논문 연구회 T-T.O.C #1

2017년 11월 01일 (수) 09:00 - 11:00


https://developers.sktelecom.com/story/eduSeminar/detail.do?eduSeminarId=13



SKT T타워 4층 SUPEX Halld에서 열렸던 세미나에 참석하였다.


처음 열렸던 자리였는데 정기적으로 모임을 가질 계획이라고 한다



이번 세미나에서 발표된 두 논문은


Confident Multiple Choice Learning이라는 주제로 이기민 KAIST 박사과정님이 발표하였고


SplitNet : Learning to Semantically Split Deep Networks for Parameter Reduction and Model Parallelization이라는 주제로 김주용 서울대학교 석사과정님이 발표하였다.


두 논문 모두 ICML2017에 accept된 논문이라고 하였다.



스스로 공부하면서 정리하는 바라 본래 저자 의도와는 다르게 해석되어 전달될 수 있다는 점 양해를 먼저 구합니다.




1. Confident Multiple Choice Learning - Kimin LeeChangho HwangKyoungSoo ParkJinwoo Shin

본 논문은 먼저 기존 딥러닝을 활용한 앙상블(Ensemble) 모델의 한계를 극복할 수 있는 새로운 앙상블 모델을 제안하는 것이 주된 연구 목표였습니다.


Ensemble Model을 활용한 Learning이라 함은 단일한 어떤 문제를 풀기 위해서 서로 다른 모델들에 각기 데이터를 학습하여서 결과를 내고 voting(투표)를 통해서 최종 결정을 내립니다. 엄마, 아빠, 나 셋이서 짜장면이나 짬뽕 하나만 주문해야 한다고 합시다. 엄마는 짜장, 아빠는 짬뽕, 나는 짜장을 선택했고 다수결의 원칙에 따라 짜장면을 주문했습니다. 각자가 생각하는 답을 내리고 투표를 통해서 최종적으로 답을 내리는 것이 앙상블 모델의 핵심입니다.


앙상블 모델을 사회 심리학적 관점으로 봤을 때 개념적으로 상당히 재미가 있는 모델입니다. 하나의 문제를 해결하기 위해 서로 다른 사람들이 모여서 생각하고 의논하고 결정 내리는 모습이랑 많이 비슷하기 때문입니다. 앙상블Ensemble 이라는 말도 영어로 '합주단', '모두 함께'라는 의미로 사용됩니다. 어떤 식으로 모델을 학습시킬 것이냐, 어떻게 최종 결정을 할것이냐, 모델 각각을 특정 분야 전문가로 볼 것이냐 등등  앙상블 학습을 인간의 사회와 그 속에서 의사결정을 내리는 방식을 본 딴 것으로 이러한 측면에서는 충분히 다르게 확장 응용해 볼 수 있지 않을까 심리학이 이런 학습 방법에 도움을 줄 수 있지 않을까 그런 생각도 듭니다.


다시 넘어가서,


기존의 Independent Ensemble이 모든 데이터에 대해서 모든 모델이 각각 학습하며 training에서 생기는 variation을 줄여주는 장점이 있다고 하였습니다. 하지만 data의 mean 값에 항상 수렴하며 fitting이 잘 되지 않는 문제도 발생한다고 합니다.


이러한 문제의 하나의 대안으로 Multiple Choice Learning이라는 개념이 소개되었다고 합니다.

데이터 포인트 중에서 best prediction만 loss가 최소화되는 방향으로 fit 되도록하는 방식이라고 합니다.

다시 말해, 특정 subset 데이터에 대해서만 각 모델을 특화시켜 학습을 시키는 방식입니다. 하나의 모델만 정답을 말해도 그 모델이 말한 답을 결과로 하는 것입니다. 모든 data에 대해서 좋은 성능을 보이는 것은 굉장히 힘든 것이기 때문에 여러 모델들이 각각 자신이 잘하는 분야를 만드는 것이라고 볼 수 있습니다.

하지만 이 방법은 overconfidence issue라는 한계점이 있다고 합니다. 각 모델이 자신의 분야의 전문가이기 때문에 틀린 답을 말해도 높은 확신을 갖고 전달하기 때문에 이 틀린 답이 최종 결정에 영향을 주기 때문이라고 합니다.




본 연구의 주요 목표는 overconfidence issue를 조정하고 regulization 작업을 새롭게 제안하는 것이었습니다.


연구의 핵심 알고리즘이나 기타 내용을 더 알고 싶으시다면 아래 링크를 통해 논문을 읽어보시면 될 것 같습니다.

https://arxiv.org/abs/1706.03475




2. SplitNet: Learning to Semantically Split Deep Networks for Parameter Reduction and Model Parallelization - Juyong Kim, Yookoon Park, Gunhee Kim, Sung Ju Hwang


이어서 발표된 논문은 성능 향상을 위한 최적화와 관련된 것이었습니다. 비교적 관심이 덜한 주제였는데 주요 골자는 엄청나게 많은 input과 feature가 있을 때 계산량이 급격하게 늘어나기 때문에 model parameter를 줄이고 효율적으로 model parallelization(; 병렬)하는 것이 연구의 주된 목표였다고 합니다.


특히 Large scale의 이미지 인식에서 이 이슈가 중요한데 연구자는 Parameter Reduction과 Model Parrallelization으로 이를 해결하고자 하였습니다. 많은 수의 parameter를 여러 computing node에 나누는 방식이라고 합니다. 특징이 비슷한 class들끼리만 set로 묶고 나머지는 exclusive하여 묶인 set간의 연결성을 최소화하여 제거해버리고 각 node로 나눠 각각 모델을 여러개 사용하는 것과 같은 효과를 내는 방식이라고 합니다.





본 논문은 아래의 링크에서 확인하실 수 있습니다.

http://proceedings.mlr.press/v70/kim17b.html




  1. Kimin LeeChangho HwangKyoungSoo ParkJinwoo Shin. Confident Multiple Choice Learning. eprint arXiv:1706.03475. 2017.06
  2. Juyong Kim, Yookoon Park, Gunhee Kim, Sung Ju HwangSplitNet: Learning to Semantically Split Deep Networks for Parameter Reduction and Model Parallelization. Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1866-1874, 2017




참석 후기

문과생도 이해하는 딥러닝 시리즈를 포스팅하지 않았다면... 세미나에서 하나도 이해하지 못하고 고통만 받았을 것 같았다.
쉽게라도 핵심 개념을 파악하고 머신러닝과 딥러닝의 의미를 알고 나서 들으니 수식적인 부분들이 전부 이해된 것은 아니지만 연구의 목표와 핵심 알고리즘 사용의도 해결방안 등 큰 틀에서의 연구에 대해서는 이해할 수 있었던 것 같다.


Top-1 error의 의미를 알게 됐다.
Top1- error는 best prediction으로 하나의 결과 값을 예측/분류하는데 이 것의 오류를 말한다. 하나 선택한게 얼마만큼 정확했는지라고 봐도 될듯하다.


댓글