Analyzing the Information Density of Tokenization Methods to Achieve Effective Training of NLP Models

Riya Bhatia, Shivam Syal, Angela Yuan, Komal Keesara, Tawshia Chowdhury, Dmitri Pavlichin

Stanford STEM to SHTEM

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
data		data
genome-experimentation		genome-experimentation
.DS_Store		.DS_Store
.gitignore		.gitignore
BPE-experimentation.ipynb		BPE-experimentation.ipynb
LICENSE		LICENSE
README.md		README.md
tokenizer-data.csv		tokenizer-data.csv
tokenizer_evaluation.ipynb		tokenizer_evaluation.ipynb

Provide feedback