- 주제
- 한국어 음성을 텍스트로 변환하는 인공지능 개발
- 평가
- CER(Character Error Rate) 제1지표
- WER(Word Error Rate) 제2지표
- 리더보드에는 CER만 표시
- 최종평가시 동점인 경우 차순위 지표 우수팀이 상위
- 최종 동점이 발생한 경우 먼저 제출한 팀이 상위
- NSML GPU 지원
- Tesla V100-SXM2-32GB 2개 (하나의 task에 2개 사용 가능)
- 법적 제약이 없는 외부 데이터 및 사전 학습 모델 사용 가능(대회 종료 후 코드 제출시 함께 제출)
-
음성 파일과 매칭되는 text를 추론
전체 크기 파일수 NSML 데이터셋 이름 54.5GB train_data(268,928)
test_data(10,000)final_stt_1
root_path/train/train_data/
(총 267,928개의 음성 파일 *확장자 없는 레이블 형태)- PCM 파일(118,680개)
- 파일명: idx0000001 ~ idx0118680
- PCM 샘플링 주파수: 16kHz
- wav 파일(150,248개)
- 파일명: idx0118681 ~ idx0267928
- PCM 파일(118,680개)
root_path/train/train_label
-
train_label (DataFrame 형식, 268,928rows)
-
columns -
["file_name", "text"]
-
file_name
- train_data 폴더에 존재하는 파일명 (ex. idx000001) -
text
- train_data 폴더에 존재하는 파일과 매칭되는 Text 정보 (ex. 훈민정음에 스며들다)
-
-
root_path/test/test_data/
(10,000개의 wav 파일 *확장자 없는 레이블 형태/ train_data와 파일명 형식이 다름에 주의)idx_0000001 idx_0000002 idx_0000003 idx_0000004 ... idx_0009997 idx_0009998 idx_0009999 idx_0010000
-
root_path/test/test_label
(참가자 접근 불가) -
test_label (DataFrame 형식, 10,000rows)
-
columns =
["file_name", "text"]
-
file_name
- test_data 폴더에 존재하는 wav파일명 (ex. idx_000001) -
text
- test_data 폴더에 존재하는 wav파일과 매칭되는 Text 정보 (ex. 훈민정음에 스며들다)
-
-
음성 파일과 매칭되는 Text를 추론(aka.받아쓰기)
전체 크기 파일수 NSML 데이터셋 이름 62GB train_data(197,146)
test_data(10,000)final_stt_2
-
root_path/train/train_data/
(197,146개의 wav 파일 *확장자 없는 레이블 형태)idx0000001 idx0000002 idx0000003 idx0000004 ... idx0197143 idx0197144 idx0197145 idx0197146
-
root_path/train/train_label
-
train_label (DataFrame 형식, 197,146rows)
-
columns -
["file_name", "text"]
-
file_name
- train_data 폴더에 존재하는 wav파일명 (ex. idx000001) -
text
- train_data 폴더에 존재하는 wav파일과 매칭되는 text 정보 (ex. 훈민정음에 스며들다)
-
-
root_path/test/test_data/
(10,000개의 wav 파일 *확장자 없는 레이블 형태 / train_data와 파일명 형식이 다름에 주의)idx_0000001 idx_0000002 idx_0000003 idx_0000004 ... idx_0009997 idx_0009998 idx_0009999 idx_0010000
-
root_path/test/test_label
(참가자 접근 불가) -
test_label (DataFrame 형식, 10,000rows)
-
columns =
["file_name", "text"]
-
file_name
- test_data 폴더에 존재하는 wav파일명 (ex. idx_000001) -
text
- test_data 폴더에 존재하는 wav파일과 매칭되는 Text 정보 (ex. 훈민정음에 스며들다)
-
-
음성 파일과 매칭되는 text를 추론
전체 크기 파일수 NSML 데이터셋 이름 65.42GB train_data(1,059)
test_data(60)final_stt_3
-
root_path/train/train_data/wav
(1,059개의 wav 파일 *확장자 없는 레이블 형태)DJSX20002450 DJSX20002451 ... DKSR20000888 DKSR20000889
-
root_path/train/train_data/info
(1,059개의 json 파일 *확장자 없는 레이블 형태)
root_path/train/train_label
(DataFrame 형식, 1,059개의 rows)
-
columns -
["file_name", "text"]
-
file_name
- train_data 폴더에 존재하는 wav파일명 (ex. DKSR20000888) -
text
- train_data/wav 폴더에 존재하는 wav파일과 매칭되는 Text 정보 (train_data/info 파일(json)의dialect_form
을 띄어쓰기(' ')로 이어붙여 생성하였음)
-
root_path/test/test_data/
(60개의 wav 파일 *확장자 없는 레이블 형태)DJDD20000306 DJDD20000307 ... DKSR20006835 DKSR20006836
-
root_path/test/test_label
(참가자 접근 불가) -
test_label (DataFrame 형식, 60 rows)
-
columns =
["file_name", "text"]
-
file_name
- test_data 폴더에 존재하는 wav파일명 (ex. DJDD20000306) -
text
- test_data 폴더에 존재하는 wav파일과 매칭되는 Text 정보 (json 파일의dialect_form
을 띄어쓰기(' ')로 이어붙여 생성하였음)
-