Replies: 3 comments
-
넵 저도 참고하겠습니다 |
Beta Was this translation helpful? Give feedback.
0 replies
-
teacher forcing ratio를 0.8로 늘리니 train loss는 빠르게 떨어지는데, valid loss는 반대로 더 느리게 떨어지네요. 참고하세요~ |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
저희가 지금 사용하고 있는 teacher forcing ratio는 0.5입니다.
하지만 1 epoch당 시간이 매우 오래걸리는 현재 저희의 task 같은경우에는 빠른 수렴이 필요하다고 생각합니다.
알려져있는 teacher forcing의 장점은 정답을 넣어줌으로서 모델의 학습속도를 증가시킨다는 점 입니다.
단점은 inference시에는 teacher forcing을 사용할 수 없기 때문에 학습과정과 추론과정사이의 차이가 존재하여 모델의 generaliation, 안정성, 성능을 떨어뜨릴수 있다는 점입니다. 이러한 점을 노출편향이라 합니다.
하지만 https://arxiv.org/abs/1905.10617 이 논문을 보면 노출편향의 영향이 생각보다 크지 않다는 점을 이야기하고 있습니다.
따라서 초기 학습시에는 높은 teacher forcing ratio를 사용하여 model의 수렴속도를 향상시킨뒤, epoch 마다 이 수치를 감소시켜주어 노출편향의 영향도 줄여줄수있는 teacher forcing ratio scheduling을 구현해서 사용해 보았다.
Beta Was this translation helpful? Give feedback.
All reactions