You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Master님께서 제시해 주신 위 논문을 읽어 보았습니다. (관련 내용은 Wiki에)
다만 이 논문에서 사용된 edit distance를 수식에 적용하는 방식이 의문입니다..
문장내부에서의 한단어에 대한 misspelled 같은 경우에는 그단어에 대해 edit distance를 계산해주면 되지만, 수식 같은 경우에는 긴 수식안에 하나의 기호가 틀렸을때 이를 고쳐줘야 하기때문에, 하나의 기호에 대한 edit distance와 비슷한 역할을 하는 알고리즘을 만들어야 될듯 싶습니다.
2번째 방법 : edit distance 알고리즘을 제외한뒤, 1개 기호만 틀린 data들을 뽑아서 이 부분을 masking 처리해준뒤 BERT에 학습시켜서 이 masking에 대한 예측값을 뽑아 training 시키는 방법도 있습니다.
이에 대한 문제점을 간단하게 생각해보면, 저희의 model의 예측값중 1개의 기호만이 틀린 경우가 굉장히 적어 학습시키기에 data가 충분하지 않을 것 같다는 의견입니다. 만약 pretrained된 bert를 가져오고 이 pretrained된 bert가 latex 구문또한 학습을 하였다면 이러한 문제가 좀 적어지겠지만, 현실적으로 latex구문을 학습했을것 같지는 않습니다.
적용하기가 힘들어 보이긴 하다만, 된다면 sentence acc를 올리기에 매우 좋아 보입니다.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
Misspelling Correction with Pre-trained Contextual Language Model
Master님께서 제시해 주신 위 논문을 읽어 보았습니다. (관련 내용은 Wiki에)
다만 이 논문에서 사용된 edit distance를 수식에 적용하는 방식이 의문입니다..
문장내부에서의 한단어에 대한 misspelled 같은 경우에는 그단어에 대해 edit distance를 계산해주면 되지만, 수식 같은 경우에는 긴 수식안에 하나의 기호가 틀렸을때 이를 고쳐줘야 하기때문에, 하나의 기호에 대한 edit distance와 비슷한 역할을 하는 알고리즘을 만들어야 될듯 싶습니다.
2번째 방법 : edit distance 알고리즘을 제외한뒤, 1개 기호만 틀린 data들을 뽑아서 이 부분을 masking 처리해준뒤 BERT에 학습시켜서 이 masking에 대한 예측값을 뽑아 training 시키는 방법도 있습니다.
이에 대한 문제점을 간단하게 생각해보면, 저희의 model의 예측값중 1개의 기호만이 틀린 경우가 굉장히 적어 학습시키기에 data가 충분하지 않을 것 같다는 의견입니다. 만약 pretrained된 bert를 가져오고 이 pretrained된 bert가 latex 구문또한 학습을 하였다면 이러한 문제가 좀 적어지겠지만, 현실적으로 latex구문을 학습했을것 같지는 않습니다.
적용하기가 힘들어 보이긴 하다만, 된다면 sentence acc를 올리기에 매우 좋아 보입니다.
Beta Was this translation helpful? Give feedback.
All reactions