From 80b5e89ea04dc8a3056db57fa905eaedefd3e276 Mon Sep 17 00:00:00 2001 From: ChienVM Date: Fri, 4 Mar 2022 14:19:52 +0900 Subject: [PATCH] update yoruba fake name list --- fake_names.py | 1207 ++++++++++++++++++++----------------- faker_manager.py | 8 +- kenlm_manager.py | 4 +- test_threshold_cuttoff.py | 12 + 4 files changed, 687 insertions(+), 544 deletions(-) create mode 100644 test_threshold_cuttoff.py diff --git a/fake_names.py b/fake_names.py index 3820d64..4ecca33 100644 --- a/fake_names.py +++ b/fake_names.py @@ -11,377 +11,377 @@ limitations under the License. """ -#use english firstnames from faker for now. bantu surnames are from wikipedia list of popular bantu names. +# use english firstnames from faker for now. bantu surnames are from wikipedia list of popular bantu names. bantu_firstnames_male = [ - "David", - "Paul", - "Christopher", - "Thomas", - "John", - "Mark", - "James", - "Stephen", - "Andrew", - "Jack", - "Michael", - "Daniel", - "Peter", - "Richard", - "Matthew", - "Robert", - "Ryan", - "Joshua", - "Alan", - "Ian", - "Simon", - "Luke", - "Samuel", - "Jordan", - "Anthony", - "Adam", - "Lee", - "Alexander", - "William", - "Kevin", - "Darren", - "Benjamin", - "Philip", - "Gary", - "Joseph", - "Brian", - "Steven", - "Liam", - "Keith", - "Martin", - "Jason", - "Jonathan", - "Jake", - "Graham", - "Nicholas", - "Craig", - "George", - "Colin", - "Neil", - "Lewis", - "Nigel", - "Oliver", - "Timothy", - "Stuart", - "Kenneth", - "Raymond", - "Jamie", - "Nathan", - "Geoffrey", - "Connor", - "Terence", - "Trevor", - "Adrian", - "Harry", - "Malcolm", - "Scott", - "Callum", - "Wayne", - "Aaron", - "Barry", - "Ashley", - "Bradley", - "Patrick", - "Gareth", - "Jacob", - "Sean", - "Kieran", - "Derek", - "Carl", - "Dean", - "Charles", - "Sam", - "Shaun", - "Ben", - "Roger", - "Mohammed", - "Leslie", - "Ronald", - "Kyle", - "Clive", - "Edward", - "Antony", - "Jeremy", - "Justin", - "Jeffrey", - "Christian", - "Roy", - "Karl", - "Alex", - "Gordon", - "Dominic", - "Joe", - "Marc", - "Reece", - "Dennis", - "Russell", - "Gavin", - "Rhys", - "Phillip", - "Allan", - "Robin", - "Charlie", - "Gerald", - "Ross", - "Francis", - "Eric", - "Julian", - "Bernard", - "Dale", - "Donald", - "Damian", - "Frank", - "Shane", - "Cameron", - "Norman", - "Duncan", - "Louis", - "Frederick", - "Tony", - "Howard", - "Conor", - "Douglas", - "Garry", - "Elliot", - "Marcus", - "Arthur", - "Vincent", - "Max", - "Mathew", - "Abdul", - "Henry", - "Martyn", - "Ricky", - "Leonard", - "Lawrence", - "Glen", - "Mitchell", - "Gerard", - "Gregory", - "Iain", - "Billy", - "Bryan", - "Joel", - "Clifford", - "Josh", - "Leon", - "Stewart", - "Mohammad", - "Dylan", - "Graeme", - "Terry", - "Guy", - "Elliott", - "Stanley", - "Danny", - "Brandon", - "Victor", - "Toby", - "Hugh", - "Mohamed", - "Brett", - "Albert", - "Tom", - "Declan", - "Maurice", - "Glenn", - "Leigh", - "Denis", - "Damien", - "Bruce", - "Jay", - "Owen", - ] + "David", + "Paul", + "Christopher", + "Thomas", + "John", + "Mark", + "James", + "Stephen", + "Andrew", + "Jack", + "Michael", + "Daniel", + "Peter", + "Richard", + "Matthew", + "Robert", + "Ryan", + "Joshua", + "Alan", + "Ian", + "Simon", + "Luke", + "Samuel", + "Jordan", + "Anthony", + "Adam", + "Lee", + "Alexander", + "William", + "Kevin", + "Darren", + "Benjamin", + "Philip", + "Gary", + "Joseph", + "Brian", + "Steven", + "Liam", + "Keith", + "Martin", + "Jason", + "Jonathan", + "Jake", + "Graham", + "Nicholas", + "Craig", + "George", + "Colin", + "Neil", + "Lewis", + "Nigel", + "Oliver", + "Timothy", + "Stuart", + "Kenneth", + "Raymond", + "Jamie", + "Nathan", + "Geoffrey", + "Connor", + "Terence", + "Trevor", + "Adrian", + "Harry", + "Malcolm", + "Scott", + "Callum", + "Wayne", + "Aaron", + "Barry", + "Ashley", + "Bradley", + "Patrick", + "Gareth", + "Jacob", + "Sean", + "Kieran", + "Derek", + "Carl", + "Dean", + "Charles", + "Sam", + "Shaun", + "Ben", + "Roger", + "Mohammed", + "Leslie", + "Ronald", + "Kyle", + "Clive", + "Edward", + "Antony", + "Jeremy", + "Justin", + "Jeffrey", + "Christian", + "Roy", + "Karl", + "Alex", + "Gordon", + "Dominic", + "Joe", + "Marc", + "Reece", + "Dennis", + "Russell", + "Gavin", + "Rhys", + "Phillip", + "Allan", + "Robin", + "Charlie", + "Gerald", + "Ross", + "Francis", + "Eric", + "Julian", + "Bernard", + "Dale", + "Donald", + "Damian", + "Frank", + "Shane", + "Cameron", + "Norman", + "Duncan", + "Louis", + "Frederick", + "Tony", + "Howard", + "Conor", + "Douglas", + "Garry", + "Elliot", + "Marcus", + "Arthur", + "Vincent", + "Max", + "Mathew", + "Abdul", + "Henry", + "Martyn", + "Ricky", + "Leonard", + "Lawrence", + "Glen", + "Mitchell", + "Gerard", + "Gregory", + "Iain", + "Billy", + "Bryan", + "Joel", + "Clifford", + "Josh", + "Leon", + "Stewart", + "Mohammad", + "Dylan", + "Graeme", + "Terry", + "Guy", + "Elliott", + "Stanley", + "Danny", + "Brandon", + "Victor", + "Toby", + "Hugh", + "Mohamed", + "Brett", + "Albert", + "Tom", + "Declan", + "Maurice", + "Glenn", + "Leigh", + "Denis", + "Damien", + "Bruce", + "Jay", + "Owen", +] bantu_firstnames_female = [ - "Susan", - "Sarah", - "Rebecca", - "Linda", - "Julie", - "Claire", - "Laura", - "Lauren", - "Christine", - "Karen", - "Nicola", - "Gemma", - "Jessica", - "Margaret", - "Jacqueline", - "Emma", - "Charlotte", - "Janet", - "Deborah", - "Lisa", - "Hannah", - "Patricia", - "Tracey", - "Joanne", - "Sophie", - "Carol", - "Jane", - "Michelle", - "Victoria", - "Amy", - "Elizabeth", - "Helen", - "Samantha", - "Emily", - "Mary", - "Diane", - "Rachel", - "Anne", - "Sharon", - "Ann", - "Tracy", - "Amanda", - "Jennifer", - "Chloe", - "Angela", - "Louise", - "Katie", - "Lucy", - "Barbara", - "Alison", - "Sandra", - "Caroline", - "Clare", - "Kelly", - "Bethany", - "Gillian", - "Natalie", - "Jade", - "Pauline", - "Megan", - "Elaine", - "Alice", - "Lesley", - "Catherine", - "Hayley", - "Pamela", - "Danielle", - "Holly", - "Wendy", - "Abigail", - "Valerie", - "Olivia", - "Jean", - "Dawn", - "Donna", - "Stephanie", - "Leanne", - "Kathleen", - "Natasha", - "Denise", - "Sally", - "Katherine", - "Georgia", - "Maureen", - "Maria", - "Zoe", - "Judith", - "Kerry", - "Debra", - "Melanie", - "Stacey", - "Eleanor", - "Paula", - "Shannon", - "Sheila", - "Joanna", - "Paige", - "Janice", - "Lorraine", - "Georgina", - "Lynn", - "Andrea", - "Suzanne", - "Nicole", - "Yvonne", - "Chelsea", - "Lynne", - "Anna", - "Kirsty", - "Shirley", - "Alexandra", - "Marion", - "Beverley", - "Melissa", - "Rosemary", - "Kimberley", - "Carole", - "Fiona", - "Kate", - "Joan", - "Marie", - "Jenna", - "Marilyn", - "Jodie", - "June", - "Grace", - "Mandy", - "Rachael", - "Lynda", - "Tina", - "Kathryn", - "Molly", - "Jayne", - "Amber", - "Marian", - "Jasmine", - "Brenda", - "Sara", - "Kayleigh", - "Teresa", - "Harriet", - "Julia", - "Ashleigh", - "Heather", - "Kim", - "Ruth", - "Jemma", - "Carly", - "Leah", - "Eileen", - "Francesca", - "Naomi", - "Hilary", - "Abbie", - "Sylvia", - "Katy", - "Irene", - "Cheryl", - "Rosie", - "Dorothy", - "Aimee", - "Vanessa", - "Ellie", - "Frances", - "Sian", - "Josephine", - "Gail", - "Jill", - "Lydia", - "Joyce", - "Charlene", - "Hollie", - "Hazel", - "Annette", - "Bethan", - "Amelia", - "Beth", - "Rita", - "Geraldine", - "Diana", - "Lindsey", - "Carolyn", - ] + "Susan", + "Sarah", + "Rebecca", + "Linda", + "Julie", + "Claire", + "Laura", + "Lauren", + "Christine", + "Karen", + "Nicola", + "Gemma", + "Jessica", + "Margaret", + "Jacqueline", + "Emma", + "Charlotte", + "Janet", + "Deborah", + "Lisa", + "Hannah", + "Patricia", + "Tracey", + "Joanne", + "Sophie", + "Carol", + "Jane", + "Michelle", + "Victoria", + "Amy", + "Elizabeth", + "Helen", + "Samantha", + "Emily", + "Mary", + "Diane", + "Rachel", + "Anne", + "Sharon", + "Ann", + "Tracy", + "Amanda", + "Jennifer", + "Chloe", + "Angela", + "Louise", + "Katie", + "Lucy", + "Barbara", + "Alison", + "Sandra", + "Caroline", + "Clare", + "Kelly", + "Bethany", + "Gillian", + "Natalie", + "Jade", + "Pauline", + "Megan", + "Elaine", + "Alice", + "Lesley", + "Catherine", + "Hayley", + "Pamela", + "Danielle", + "Holly", + "Wendy", + "Abigail", + "Valerie", + "Olivia", + "Jean", + "Dawn", + "Donna", + "Stephanie", + "Leanne", + "Kathleen", + "Natasha", + "Denise", + "Sally", + "Katherine", + "Georgia", + "Maureen", + "Maria", + "Zoe", + "Judith", + "Kerry", + "Debra", + "Melanie", + "Stacey", + "Eleanor", + "Paula", + "Shannon", + "Sheila", + "Joanna", + "Paige", + "Janice", + "Lorraine", + "Georgina", + "Lynn", + "Andrea", + "Suzanne", + "Nicole", + "Yvonne", + "Chelsea", + "Lynne", + "Anna", + "Kirsty", + "Shirley", + "Alexandra", + "Marion", + "Beverley", + "Melissa", + "Rosemary", + "Kimberley", + "Carole", + "Fiona", + "Kate", + "Joan", + "Marie", + "Jenna", + "Marilyn", + "Jodie", + "June", + "Grace", + "Mandy", + "Rachael", + "Lynda", + "Tina", + "Kathryn", + "Molly", + "Jayne", + "Amber", + "Marian", + "Jasmine", + "Brenda", + "Sara", + "Kayleigh", + "Teresa", + "Harriet", + "Julia", + "Ashleigh", + "Heather", + "Kim", + "Ruth", + "Jemma", + "Carly", + "Leah", + "Eileen", + "Francesca", + "Naomi", + "Hilary", + "Abbie", + "Sylvia", + "Katy", + "Irene", + "Cheryl", + "Rosie", + "Dorothy", + "Aimee", + "Vanessa", + "Ellie", + "Frances", + "Sian", + "Josephine", + "Gail", + "Jill", + "Lydia", + "Joyce", + "Charlene", + "Hollie", + "Hazel", + "Annette", + "Bethan", + "Amelia", + "Beth", + "Rita", + "Geraldine", + "Diana", + "Lindsey", + "Carolyn", +] bantu_surnames = ["Dlamini", "Gumede", "Hadebe", "Ilunga", "Kamau", "Khoza", "Lubega", "M'Bala", "Mabaso", "Mabika", "Mabizela", "Mabunda", "Mabuza", "Macharia", "Madima", "Madondo", "Mahlangu", "Maidza", "Makhanya", @@ -391,209 +391,334 @@ "Ncube", "Ndagire", "Ndhlovu", "Ndikumana", "Ndiritu", "Ndlovu", "Ndzinisa", "Ngcobo", "Nkomo", "Nkosi", "Nkurunziza", "Radebe", "Tshabalala", "Tshivhumbe", "Vila"] -catalan_firstnames_male = ['Jordi', 'David', 'Marc', 'Daniel', 'Joan', 'Josep', 'Ramon', 'Albert', 'Xavier', 'Òscar', 'Àngel', 'Àlex', - 'Víctor', 'Pau', 'Ivan', 'Jesús', 'Pol', 'Raül', 'Jaume', 'Sergi', 'Gerard', 'Arnau', 'Oriol', 'Eric', - 'Francesc', 'Santiago', 'Josep Maria', 'Roger', 'Miquel', 'Adrià', 'Salvador', 'Martí', 'Pere', 'Lluís', - 'Joel', 'Carles', 'Aleix', 'Antoni', 'Guillem', 'Jan', 'Enric', 'Ferran', 'Gabriel', 'Biel', 'Nil', 'Eduard', - 'Tomàs', 'Hèctor', 'Joaquim', 'Isaac', 'Ismael', 'Nicolàs', 'Francesc Xavier', 'Aitor', 'Lucas', 'Ricard', - 'Fèlix', 'Manel', 'Andreu', 'Dídac', 'Bruno', 'Edgar', 'Bernat', 'Abel', 'Alexandre', 'Samuel', 'Marcel', - 'Eloi', 'Max', 'Ignasi', 'Cèsar', 'Robert', 'Lluc', 'Roc', 'Genís', 'Axel', 'Agustí', 'Esteve', 'Quim', - 'Elías', 'Gael', 'Ernest', 'Narcís', 'Vicenç', 'Kilian', 'Bartolomé', 'Josep Lluís', 'Marçal', 'Artur', 'Teo', - 'Llorenç', 'Saül', 'Joan Carles', 'Sebastià', 'Jofre', 'Emili', 'Joan Antoni', 'Alfons', 'Miquel Àngel', 'Rafel'] +catalan_firstnames_male = ['Jordi', 'David', 'Marc', 'Daniel', 'Joan', 'Josep', 'Ramon', 'Albert', 'Xavier', 'Òscar', + 'Àngel', 'Àlex', + 'Víctor', 'Pau', 'Ivan', 'Jesús', 'Pol', 'Raül', 'Jaume', 'Sergi', 'Gerard', 'Arnau', + 'Oriol', 'Eric', + 'Francesc', 'Santiago', 'Josep Maria', 'Roger', 'Miquel', 'Adrià', 'Salvador', 'Martí', + 'Pere', 'Lluís', + 'Joel', 'Carles', 'Aleix', 'Antoni', 'Guillem', 'Jan', 'Enric', 'Ferran', 'Gabriel', 'Biel', + 'Nil', 'Eduard', + 'Tomàs', 'Hèctor', 'Joaquim', 'Isaac', 'Ismael', 'Nicolàs', 'Francesc Xavier', 'Aitor', + 'Lucas', 'Ricard', + 'Fèlix', 'Manel', 'Andreu', 'Dídac', 'Bruno', 'Edgar', 'Bernat', 'Abel', 'Alexandre', + 'Samuel', 'Marcel', + 'Eloi', 'Max', 'Ignasi', 'Cèsar', 'Robert', 'Lluc', 'Roc', 'Genís', 'Axel', 'Agustí', + 'Esteve', 'Quim', + 'Elías', 'Gael', 'Ernest', 'Narcís', 'Vicenç', 'Kilian', 'Bartolomé', 'Josep Lluís', + 'Marçal', 'Artur', 'Teo', + 'Llorenç', 'Saül', 'Joan Carles', 'Sebastià', 'Jofre', 'Emili', 'Joan Antoni', 'Alfons', + 'Miquel Àngel', 'Rafel'] -catalan_firstnames_female = ['Maria', 'Montserrat', 'Marta', 'Núria', 'Laura', 'Cristina', 'Isabel', 'Anna', 'Antònia', 'Sílvia', 'Júlia', - 'Rosa', 'Laia', 'Rosa Maria', 'Sara', 'Paula', 'Teresa', 'Alba', 'Mònica', 'Eva', 'Carla', 'Sandra', 'Mireia', - 'Sònia', 'Raquel', 'Marina', 'Gemma', 'Esther', 'Clàudia', 'Susanna', 'Andrea', 'Irene', 'Olga', 'Natàlia', - 'Margarita', 'Martina', 'Míriam', 'Lídia', 'Ariadna', 'Aina', 'Patrícia', 'Elisabet', 'Alícia', 'Emma', 'Glòria', - 'Àngela', 'Clara', 'Carolina', 'Judit', 'Berta', 'Mercè', 'Meritxell', 'Verònica', 'Sofía', 'Roser', 'Victòria', - 'Noèlia', 'Carme', 'Anna Maria', 'Vanessa', 'Jana', 'Mariona', 'Ainhoa', 'Daniela', 'Inés', 'Abril', 'Noemí', - 'Mar', 'Joana', 'Ona', 'Helena', 'Aurora', 'Neus', 'Dolors', 'Blanca', 'Carlota', 'Cèlia', 'Eulàlia', 'Nora', - 'Gisela', 'Georgina', 'Elsa', 'Ivet', 'Arlet', 'Iris', 'Ruth', 'Xènia', 'Lara', 'Amàlia', 'Irina', 'Francesca', +catalan_firstnames_female = ['Maria', 'Montserrat', 'Marta', 'Núria', 'Laura', 'Cristina', 'Isabel', 'Anna', 'Antònia', + 'Sílvia', 'Júlia', + 'Rosa', 'Laia', 'Rosa Maria', 'Sara', 'Paula', 'Teresa', 'Alba', 'Mònica', 'Eva', 'Carla', + 'Sandra', 'Mireia', + 'Sònia', 'Raquel', 'Marina', 'Gemma', 'Esther', 'Clàudia', 'Susanna', 'Andrea', 'Irene', + 'Olga', 'Natàlia', + 'Margarita', 'Martina', 'Míriam', 'Lídia', 'Ariadna', 'Aina', 'Patrícia', 'Elisabet', + 'Alícia', 'Emma', 'Glòria', + 'Àngela', 'Clara', 'Carolina', 'Judit', 'Berta', 'Mercè', 'Meritxell', 'Verònica', 'Sofía', + 'Roser', 'Victòria', + 'Noèlia', 'Carme', 'Anna Maria', 'Vanessa', 'Jana', 'Mariona', 'Ainhoa', 'Daniela', 'Inés', + 'Abril', 'Noemí', + 'Mar', 'Joana', 'Ona', 'Helena', 'Aurora', 'Neus', 'Dolors', 'Blanca', 'Carlota', 'Cèlia', + 'Eulàlia', 'Nora', + 'Gisela', 'Georgina', 'Elsa', 'Ivet', 'Arlet', 'Iris', 'Ruth', 'Xènia', 'Lara', 'Amàlia', + 'Irina', 'Francesca', 'Elisenda', 'Rebeca', 'Mia', 'Alèxia', 'Queralt', 'Gabriela', 'Lia', 'Estela', 'Gala'] -catalan_surnames = ['Martinez', 'Lopez', 'Sanchez', 'Rodriguez', 'Fernandez', 'Perez', 'Gonzalez', 'Gomez', 'Ruiz', 'Martin', 'Jimenez', 'Moreno', - 'Hernandez', 'Muñoz', 'Diaz', 'Romero', 'Navarro', 'Torres', 'Alvarez', 'Gutierrez', 'Ramirez', 'Molina', 'Serrano', 'Gil', - 'Ramos', 'Morales', 'Vila', 'Ortiz', 'Marin', 'Vidal', 'Ortega', 'Gimenez', 'Alonso', 'Serra', 'Dominguez', 'Marti', 'Ferrer', - 'Rubio', 'Delgado', 'Castillo', 'Flores', 'Soler', 'Castro', 'Cortes', 'Vazquez', 'Puig', 'Roca', 'Medina', 'Cano', 'Guerrero', - 'Cruz', 'Blanco', 'Nuñez', 'Aguilar', 'Sole', 'Lozano', 'Duran', 'Pujol', 'Font', 'Marquez', 'Garrido', 'Pascual', 'Reyes', - 'Mendez', 'Costa', 'Casas', 'Carmona', 'Segura', 'Fuentes', 'Herrera', 'Leon', 'Gallego', 'Campos', 'Caballero', 'Sanz', - 'Carrasco', 'Rovira', 'Pons', 'Sala', 'Santos', 'Hidalgo', 'Peña', 'Mora', 'Vargas', 'Bosch', 'Rojas', 'Mas', 'Moya', 'Suarez', - 'Cabrera', 'Roig', 'Calvo', 'Ibañez', 'Iglesias', 'Riera', 'Sola', 'Gallardo', 'Parra', 'Aguilera', 'Grau'] +catalan_surnames = ['Martinez', 'Lopez', 'Sanchez', 'Rodriguez', 'Fernandez', 'Perez', 'Gonzalez', 'Gomez', 'Ruiz', + 'Martin', 'Jimenez', 'Moreno', + 'Hernandez', 'Muñoz', 'Diaz', 'Romero', 'Navarro', 'Torres', 'Alvarez', 'Gutierrez', 'Ramirez', + 'Molina', 'Serrano', 'Gil', + 'Ramos', 'Morales', 'Vila', 'Ortiz', 'Marin', 'Vidal', 'Ortega', 'Gimenez', 'Alonso', 'Serra', + 'Dominguez', 'Marti', 'Ferrer', + 'Rubio', 'Delgado', 'Castillo', 'Flores', 'Soler', 'Castro', 'Cortes', 'Vazquez', 'Puig', 'Roca', + 'Medina', 'Cano', 'Guerrero', + 'Cruz', 'Blanco', 'Nuñez', 'Aguilar', 'Sole', 'Lozano', 'Duran', 'Pujol', 'Font', 'Marquez', + 'Garrido', 'Pascual', 'Reyes', + 'Mendez', 'Costa', 'Casas', 'Carmona', 'Segura', 'Fuentes', 'Herrera', 'Leon', 'Gallego', 'Campos', + 'Caballero', 'Sanz', + 'Carrasco', 'Rovira', 'Pons', 'Sala', 'Santos', 'Hidalgo', 'Peña', 'Mora', 'Vargas', 'Bosch', + 'Rojas', 'Mas', 'Moya', 'Suarez', + 'Cabrera', 'Roig', 'Calvo', 'Ibañez', 'Iglesias', 'Riera', 'Sola', 'Gallardo', 'Parra', 'Aguilera', + 'Grau'] # male and female. Note some popular firstnames can be used for both male and female in Vietnamese # vietnamese_firstnames = ["Anh", "Dung", "Hanh", "Hoa", "Hong", "Khanh", "Lan", "Liem", "Nhung", "Duy", "Xuan"] -vietnamese_firstnames_female = ["Anh", "Vy", "Ngọc", "Nhi", "Hân", "Thư", "Linh", "Như", "Ngân", "Phương", "Thảo", "My", "Trân", "Quỳnh", "Nghi", "Trang", "Trâm", "An", "Thy", "Châu", "Trúc", "Uyên", "Yến", "Ý", "Tiên", "Mai", "Hà", "Vân", "Nguyên", "Hương", "Quyên", "Duyên", "Kim", "Trinh", "Thanh", "Tuyền", "Hằng", "Dương", "Chi", "Giang", "Tâm", "Lam", "Tú", "Ánh", "Hiền", "Khánh", "Minh", "Huyền", "Thùy", "Vi", - "Ly", "Dung", "Nhung", "Phúc", "Lan", "Phụng", "Ân", "Thi", "Khanh", "Kỳ", "Nga", "Tường", "Thúy", "Mỹ", "Hoa", "Tuyết", "Lâm", "Thủy", "Đan", "Hạnh", "Xuân", "Oanh", "Mẫn", "Khuê", "Diệp", "Thương", "Nhiên", "Băng", "Hồng", "Bình", "Loan", "Thơ", "Phượng", "Mi", "Nhã", "Nguyệt", "Bích", "Đào", "Diễm", "Kiều", "Hiếu", "Di", "Liên", "Trà", "Tuệ", "Thắm", "Diệu", "Quân", "Nhàn", "Doanh"] -vietnamese_firstnames_male = ["Huy", "Khang", "Bảo", "Minh", "Phúc", "Anh", "Khoa", "Phát", "Đạt", "Khôi", "Long", "Nam", "Duy", "Quân", "Kiệt", "Thịnh", "Tuấn", "Hưng", "Hoàng", "Hiếu", "Nhân", "Trí", "Tài", "Phong", "Nguyên", "An", "Phú", "Thành", "Đức", "Dũng", "Lộc", "Khánh", "Vinh", "Tiến", "Nghĩa", "Thiện", "Hào", "Hải", "Đăng", "Quang", "Lâm", "Nhật", "Trung", "Thắng", "Tú", "Hùng", "Tâm", "Sang", "Sơn", "Thái", - "Cường", "Vũ", "Toàn", "Ân", "Thuận", "Bình", "Trường", "Danh", "Kiên", "Phước", "Thiên", "Tân", "Việt", "Khải", "Tín", "Dương", "Tùng", "Quý", "Hậu", "Trọng", "Triết", "Luân", "Phương", "Quốc", "Thông", "Khiêm", "Hòa", "Thanh", "Tường", "Kha", "Vỹ", "Bách", "Khanh", "Mạnh", "Lợi", "Đại", "Hiệp", "Đông", "Nhựt", "Giang", "Kỳ", "Phi", "Tấn", "Văn", "Vương", "Công", "Hiển", "Linh", "Ngọc", "Vĩ"] -vietnamese_first_middlenames_male = ["Minh", "Hoàng", "Gia", "Nguyễn", "Quốc", "Thanh", "Văn", "Thành", "Anh", "Ngọc", "Tấn", "Đức", "Lê", "Tuấn", "Quang", "Trần", "Hữu", "Nhật", "Duy", "Trọng", "Đình", "Đăng", "Huỳnh", "Trung", "Bảo", "Phúc", "Tiến", "Chi", "Thiên", "Công", "Xuân", "Phạm", "Vũ", "Thái", "Huy", "Võ", "Hải", "Thế", "Hồng", "Khánh", "Tri", "Phước", "Phú", "Nguyên", "Việt", "Mạnh", "Bá", "Trường", "Vĩnh", "Hoài", - "Phan", "Cao", "Đặng", "Hồ", "Dương", "Thiện", "Lâm", "Kim", "Đỗ", "Trương", "Đại", "Viết", "Phi", "Phương", "Nam", "Đoàn", "Hà", "Kiến", "Ngô", "Nhựt", "Hiếu", "Bùi", "An", "Hùng", "Chấn", "Bình", "Khải", "Khắc", "Khôi", "Mai", "Châu", "Sỹ", "Vĩ", "Tùng", "Lý", "Long", "Hưng", "Hạo", "Phát", "Như", "Đinh", "Quý", "Đắc", "Vinh", "Nhất", "Đông", "Lương", "Kỳ", "Trịnh", "Thuận"] -vietnamese_second_middlenames_male = ["Minh", "Gia", "Anh", "Hoàng", "Quốc", "Bảo", "Tuấn", "Thiên", "Đăng", "Thanh", "Nhật", "Thành", "Duy", "Tấn", "Đức", "Phúc", "Quang", "Khánh", "Trung", "Hải", "Ngọc", "Trọng", "Huy", "Thái", "Hữu", "Tiến", "Nguyên", "Trường", "Tri", "Phú", "Phước", "Hoài", "An", "Nam", "Việt", "Phương", "Xuân", "Chi", "Thế", "Phi", "Khôi", "Công", "Thiện", "Hồng", "Vĩnh", "Bình", "Đình", "Đại", "Lê", "Mạnh", - "Hiếu", "Văn", "Nhựt", "Kim", "Vũ", "Kỳ", "Long", "Bá", "Đông", "Hùng", "Hưng", "Khang", "Cao", "Kiến", "Sơn", "Nhất", "Tùng", "Phát", "Lâm", "Khải", "Thuận", "Tâm", "Hạo", "Nhân", "Triệu", "Vinh", "Chấn", "Tường", "Phong", "Quý", "Nguyễn", "Như", "Huỳnh", "Song", "Thịnh", "Triều", "Châu", "Vương", "Tuần", "Sỹ", "Tài", "Hà", "Hoàn", "Khắc", "Linh", "Toàn", "Tần", "Viết", "Hà", "Bách"] -vietnamese_first_middlenames_female = ["Thị", "Ngọc", "Nguyễn", "Hoàng", "Lê", "Trần", "Thanh", "Bảo", "Phương", "Huỳnh", "Gia", "Minh", "Kim", "Quỳnh", "Phạm", "Khánh", "Hòng", "Mỹ", "Hà", "Vũ", "Võ", "Mai", "Thùy", "Anh", "Như", "Thảo", "Thụy", "Phan", "Yến", "Đặng", "Xuân", "Hồ", "Thiên", "Đỗ", "Nhật", "Thái", "Tường", "Tuyết", "Nhã", "Thúy", "Dương", "Hải", "Thu", "Lâm", "Trúc", "Trương", "Hoài", "Đoàn", "Ngô", "Tú", - "Cao", "Kiều", "Khánh", "Phúc", "Bích", "Châu", "Bùi", "Khả", "Vân", "Đình", "Tâm", "Thục", "Bội", "Ái", "Lý", "Hương", "Nguyên", "Uyên", "Thủy", "Trịnh", "Cẩm", "Đào", "Diệp", "Tuệ", "Diệu", "Huệ", "Diễm", "Lan", "Cát", "Huyền", "An", "Linh", "Lưu", "Quế", "Ngân", "Đinh", "Uyển", "Triệu", "Trà", "Song", "Bình", "Nguyệt", "Trang", "Mẫn", "Kỳ", "Trâm", "Hạnh", "Lương", "Vương", "Tiểu"] -vietnamese_second_middlenames_female = ["Bảo", "Ngọc", "Phương", "Thanh", "Minh", "Kim", "Quỳnh", "Khánh", "Như", "Thảo", "Anh", "Yến", "Gia", "Mỹ", "Thùy", "Hồng", "Tường", "Thiên", "Hoàng", "Thu", "Tuyết", "Trúc", "Mai", "Xuân", "Thúy", "Bích", "Cẩm", "Ánh", "Kiều", "Diễm", "Hà", "Lan", "Hải", "Thủy", "Nhã", "Vân", "Trâm", "Trà", "Tú", "Cát", "Uyên", "Hoài", "Huyền", "Huỳnh", "Linh", "Nhật", "Hương", "Tâm", "An", "Diệu", - "Ái", "Ngân", "Đan", "Khả", "Kỳ", "Thị", "Quế", "Tố", "Đông", "Thái", "Song", "Nam", "Phi", "Hạnh", "Ý", "Thục", "Phúc", "Châu", "Tuệ", "Uyển", "Nguyệt", "Đoan", "Lê", "Nguyên", "Mộng", "Bình", "Trang", "Lam", "Hiền", "Băng", "Mẫn", "Thụy", "Vy", "Hạ", "Việt", "Hiếu", "Triệu", "Trường", "Lệ", "Phượng", "Diệp", "Lâm", "Thy", "Bé", "Yên", "Khải", "Tiểu", "Huệ", "Phước", "Đỗ"] -vietnamese_surnames = ["Nguyễn", "Trần", "Lê", "Phạm", "Hoàng", "Huỳnh", "Phan", "Vũ", "Võ", "Đặng", "Bùi", "Đỗ", "Hồ", "Ngô", "Dương", "Lý"] - +vietnamese_firstnames_female = ["Anh", "Vy", "Ngọc", "Nhi", "Hân", "Thư", "Linh", "Như", "Ngân", "Phương", "Thảo", "My", + "Trân", "Quỳnh", "Nghi", "Trang", "Trâm", "An", "Thy", "Châu", "Trúc", "Uyên", "Yến", + "Ý", "Tiên", "Mai", "Hà", "Vân", "Nguyên", "Hương", "Quyên", "Duyên", "Kim", "Trinh", + "Thanh", "Tuyền", "Hằng", "Dương", "Chi", "Giang", "Tâm", "Lam", "Tú", "Ánh", "Hiền", + "Khánh", "Minh", "Huyền", "Thùy", "Vi", + "Ly", "Dung", "Nhung", "Phúc", "Lan", "Phụng", "Ân", "Thi", "Khanh", "Kỳ", "Nga", + "Tường", "Thúy", "Mỹ", "Hoa", "Tuyết", "Lâm", "Thủy", "Đan", "Hạnh", "Xuân", "Oanh", + "Mẫn", "Khuê", "Diệp", "Thương", "Nhiên", "Băng", "Hồng", "Bình", "Loan", "Thơ", + "Phượng", "Mi", "Nhã", "Nguyệt", "Bích", "Đào", "Diễm", "Kiều", "Hiếu", "Di", "Liên", + "Trà", "Tuệ", "Thắm", "Diệu", "Quân", "Nhàn", "Doanh"] +vietnamese_firstnames_male = ["Huy", "Khang", "Bảo", "Minh", "Phúc", "Anh", "Khoa", "Phát", "Đạt", "Khôi", "Long", + "Nam", "Duy", "Quân", "Kiệt", "Thịnh", "Tuấn", "Hưng", "Hoàng", "Hiếu", "Nhân", "Trí", + "Tài", "Phong", "Nguyên", "An", "Phú", "Thành", "Đức", "Dũng", "Lộc", "Khánh", "Vinh", + "Tiến", "Nghĩa", "Thiện", "Hào", "Hải", "Đăng", "Quang", "Lâm", "Nhật", "Trung", "Thắng", + "Tú", "Hùng", "Tâm", "Sang", "Sơn", "Thái", + "Cường", "Vũ", "Toàn", "Ân", "Thuận", "Bình", "Trường", "Danh", "Kiên", "Phước", "Thiên", + "Tân", "Việt", "Khải", "Tín", "Dương", "Tùng", "Quý", "Hậu", "Trọng", "Triết", "Luân", + "Phương", "Quốc", "Thông", "Khiêm", "Hòa", "Thanh", "Tường", "Kha", "Vỹ", "Bách", "Khanh", + "Mạnh", "Lợi", "Đại", "Hiệp", "Đông", "Nhựt", "Giang", "Kỳ", "Phi", "Tấn", "Văn", "Vương", + "Công", "Hiển", "Linh", "Ngọc", "Vĩ"] +vietnamese_first_middlenames_male = ["Minh", "Hoàng", "Gia", "Nguyễn", "Quốc", "Thanh", "Văn", "Thành", "Anh", "Ngọc", + "Tấn", "Đức", "Lê", "Tuấn", "Quang", "Trần", "Hữu", "Nhật", "Duy", "Trọng", "Đình", + "Đăng", "Huỳnh", "Trung", "Bảo", "Phúc", "Tiến", "Chi", "Thiên", "Công", "Xuân", + "Phạm", "Vũ", "Thái", "Huy", "Võ", "Hải", "Thế", "Hồng", "Khánh", "Tri", "Phước", + "Phú", "Nguyên", "Việt", "Mạnh", "Bá", "Trường", "Vĩnh", "Hoài", + "Phan", "Cao", "Đặng", "Hồ", "Dương", "Thiện", "Lâm", "Kim", "Đỗ", "Trương", "Đại", + "Viết", "Phi", "Phương", "Nam", "Đoàn", "Hà", "Kiến", "Ngô", "Nhựt", "Hiếu", "Bùi", + "An", "Hùng", "Chấn", "Bình", "Khải", "Khắc", "Khôi", "Mai", "Châu", "Sỹ", "Vĩ", + "Tùng", "Lý", "Long", "Hưng", "Hạo", "Phát", "Như", "Đinh", "Quý", "Đắc", "Vinh", + "Nhất", "Đông", "Lương", "Kỳ", "Trịnh", "Thuận"] +vietnamese_second_middlenames_male = ["Minh", "Gia", "Anh", "Hoàng", "Quốc", "Bảo", "Tuấn", "Thiên", "Đăng", "Thanh", + "Nhật", "Thành", "Duy", "Tấn", "Đức", "Phúc", "Quang", "Khánh", "Trung", "Hải", + "Ngọc", "Trọng", "Huy", "Thái", "Hữu", "Tiến", "Nguyên", "Trường", "Tri", "Phú", + "Phước", "Hoài", "An", "Nam", "Việt", "Phương", "Xuân", "Chi", "Thế", "Phi", + "Khôi", "Công", "Thiện", "Hồng", "Vĩnh", "Bình", "Đình", "Đại", "Lê", "Mạnh", + "Hiếu", "Văn", "Nhựt", "Kim", "Vũ", "Kỳ", "Long", "Bá", "Đông", "Hùng", "Hưng", + "Khang", "Cao", "Kiến", "Sơn", "Nhất", "Tùng", "Phát", "Lâm", "Khải", "Thuận", + "Tâm", "Hạo", "Nhân", "Triệu", "Vinh", "Chấn", "Tường", "Phong", "Quý", "Nguyễn", + "Như", "Huỳnh", "Song", "Thịnh", "Triều", "Châu", "Vương", "Tuần", "Sỹ", "Tài", + "Hà", "Hoàn", "Khắc", "Linh", "Toàn", "Tần", "Viết", "Hà", "Bách"] +vietnamese_first_middlenames_female = ["Thị", "Ngọc", "Nguyễn", "Hoàng", "Lê", "Trần", "Thanh", "Bảo", "Phương", + "Huỳnh", "Gia", "Minh", "Kim", "Quỳnh", "Phạm", "Khánh", "Hòng", "Mỹ", "Hà", + "Vũ", "Võ", "Mai", "Thùy", "Anh", "Như", "Thảo", "Thụy", "Phan", "Yến", "Đặng", + "Xuân", "Hồ", "Thiên", "Đỗ", "Nhật", "Thái", "Tường", "Tuyết", "Nhã", "Thúy", + "Dương", "Hải", "Thu", "Lâm", "Trúc", "Trương", "Hoài", "Đoàn", "Ngô", "Tú", + "Cao", "Kiều", "Khánh", "Phúc", "Bích", "Châu", "Bùi", "Khả", "Vân", "Đình", + "Tâm", "Thục", "Bội", "Ái", "Lý", "Hương", "Nguyên", "Uyên", "Thủy", "Trịnh", + "Cẩm", "Đào", "Diệp", "Tuệ", "Diệu", "Huệ", "Diễm", "Lan", "Cát", "Huyền", "An", + "Linh", "Lưu", "Quế", "Ngân", "Đinh", "Uyển", "Triệu", "Trà", "Song", "Bình", + "Nguyệt", "Trang", "Mẫn", "Kỳ", "Trâm", "Hạnh", "Lương", "Vương", "Tiểu"] +vietnamese_second_middlenames_female = ["Bảo", "Ngọc", "Phương", "Thanh", "Minh", "Kim", "Quỳnh", "Khánh", "Như", + "Thảo", "Anh", "Yến", "Gia", "Mỹ", "Thùy", "Hồng", "Tường", "Thiên", "Hoàng", + "Thu", "Tuyết", "Trúc", "Mai", "Xuân", "Thúy", "Bích", "Cẩm", "Ánh", "Kiều", + "Diễm", "Hà", "Lan", "Hải", "Thủy", "Nhã", "Vân", "Trâm", "Trà", "Tú", "Cát", + "Uyên", "Hoài", "Huyền", "Huỳnh", "Linh", "Nhật", "Hương", "Tâm", "An", "Diệu", + "Ái", "Ngân", "Đan", "Khả", "Kỳ", "Thị", "Quế", "Tố", "Đông", "Thái", "Song", + "Nam", "Phi", "Hạnh", "Ý", "Thục", "Phúc", "Châu", "Tuệ", "Uyển", "Nguyệt", + "Đoan", "Lê", "Nguyên", "Mộng", "Bình", "Trang", "Lam", "Hiền", "Băng", "Mẫn", + "Thụy", "Vy", "Hạ", "Việt", "Hiếu", "Triệu", "Trường", "Lệ", "Phượng", "Diệp", + "Lâm", "Thy", "Bé", "Yên", "Khải", "Tiểu", "Huệ", "Phước", "Đỗ"] +vietnamese_surnames = ["Nguyễn", "Trần", "Lê", "Phạm", "Hoàng", "Huỳnh", "Phan", "Vũ", "Võ", "Đặng", "Bùi", "Đỗ", "Hồ", + "Ngô", "Dương", "Lý"] -bengali_surnames2 = ['Bagchi', 'Baidya', 'Banerjee', 'Basu', 'Bhaduri', - 'Bhattacharjee', 'Bhattacharya', 'Bose', 'Chakraborty', 'Chakraborty', - 'Chanda', 'Chandra', 'Chatterjee', 'Choudhury', 'Dam', 'Das', 'Das-Sharma', - 'Dasgupta', 'De', 'Deb', 'Dev', 'Dey', 'Dutta', 'Duttagupta', 'Gain', - 'Ganguly', 'Ghosh', 'Ghoshal', 'Goswami', 'Guha', 'Gupta', 'Jana', - 'Kanjilal', 'Kar', 'Kumar', 'Kundu', 'Lahiri', 'Maitra', 'Mitra', - 'Mukherjee', 'Nag', 'Nandi', 'Pal', 'Palit', 'Ray', 'Roy', 'Saha', 'Sanyal', - 'Sarkar', 'Sen', 'Sen-Sharma', 'Sengupta', 'Singh', 'Sinha', 'Som',] +bengali_surnames2 = ['Bagchi', 'Baidya', 'Banerjee', 'Basu', 'Bhaduri', + 'Bhattacharjee', 'Bhattacharya', 'Bose', 'Chakraborty', 'Chakraborty', + 'Chanda', 'Chandra', 'Chatterjee', 'Choudhury', 'Dam', 'Das', 'Das-Sharma', + 'Dasgupta', 'De', 'Deb', 'Dev', 'Dey', 'Dutta', 'Duttagupta', 'Gain', + 'Ganguly', 'Ghosh', 'Ghoshal', 'Goswami', 'Guha', 'Gupta', 'Jana', + 'Kanjilal', 'Kar', 'Kumar', 'Kundu', 'Lahiri', 'Maitra', 'Mitra', + 'Mukherjee', 'Nag', 'Nandi', 'Pal', 'Palit', 'Ray', 'Roy', 'Saha', 'Sanyal', + 'Sarkar', 'Sen', 'Sen-Sharma', 'Sengupta', 'Singh', 'Sinha', 'Som', ] -#autotranslation of above +# autotranslation of above bengali_surnames = [ - 'কর', 'কানজিলাল', 'কুন্ডু', 'কুমার', 'গাঙ্গুলি', 'গুপ্ত', 'গুহ', 'গোস্বামী', - 'ঘোষ', 'ঘোষাল', 'চক্রবর্তী', 'চক্রবর্তী', 'চন্দা', 'চন্দ্র', 'চৌধুরী', - 'চ্যাটার্জি', 'জানা', 'দত্ত', 'দত্তগুপ্ত', 'দাশগুপ্ত', 'দাস', 'দাস শর্মা', 'দে', - 'দেব', 'নন্দী', 'নাগ', 'পাল', 'পালিত', 'বসু', 'বাঁধ', 'বাগচি', 'বৈদ্য', 'বোস', - 'ব্যানার্জি', 'ভট্টাচার্য', 'ভট্টাচার্য', 'ভাদুড়ি', 'মিত্র', 'মুখার্জী', 'মৈত্র', - 'রায়', 'লাভ', 'লাহিড়ী', 'সরকার', 'সান্যাল', 'সাহা', 'সিং', 'সিনহা', 'সেন', - 'সেন-শর্মা', 'সেনগুপ্ত', 'সোম'] + 'কর', 'কানজিলাল', 'কুন্ডু', 'কুমার', 'গাঙ্গুলি', 'গুপ্ত', 'গুহ', 'গোস্বামী', + 'ঘোষ', 'ঘোষাল', 'চক্রবর্তী', 'চক্রবর্তী', 'চন্দা', 'চন্দ্র', 'চৌধুরী', + 'চ্যাটার্জি', 'জানা', 'দত্ত', 'দত্তগুপ্ত', 'দাশগুপ্ত', 'দাস', 'দাস শর্মা', 'দে', + 'দেব', 'নন্দী', 'নাগ', 'পাল', 'পালিত', 'বসু', 'বাঁধ', 'বাগচি', 'বৈদ্য', 'বোস', + 'ব্যানার্জি', 'ভট্টাচার্য', 'ভট্টাচার্য', 'ভাদুড়ি', 'মিত্র', 'মুখার্জী', 'মৈত্র', + 'রায়', 'লাভ', 'লাহিড়ী', 'সরকার', 'সান্যাল', 'সাহা', 'সিং', 'সিনহা', 'সেন', + 'সেন-শর্মা', 'সেনগুপ্ত', 'সোম'] +bengali_firstnames_female2 = ['Adrija', 'Ananya', 'Anindita', 'Ankita', + 'Anuradha', 'Anushka', 'Anwesha', 'Aparna', 'Arijita', 'Arundhuti', + 'Asmita', 'Bipasha', 'Bishakha', 'Chaity', 'Chandrayee', 'Debanjana', + 'Debapriya', 'Debarati', 'Debasmita', 'Durba', 'Durga', 'Geeta', 'Indrani', + 'Ipshita', 'Ishita', 'Jyoti', 'Kamala', 'Kamalika', 'Lakshmi', 'Madhuparna', + 'Mohar', 'Moumita', 'Nabanita', 'Naireeta', 'Nayan', 'Nayanika', 'Nikita', + 'Nivedita', 'Pallabi', 'Pallavi', 'Paloma', 'Pampa', 'Paromita', 'Payal', + 'Piyali', 'Prerona', 'Priya', 'Priyanka', 'Radhika', 'Reema', 'Reshma', + 'Rituparna', 'Riya', 'Rohini', 'Roshni', 'Ruma', 'Rumela', 'Rupsa', + 'Sanghamitra', 'Sataraupa', 'Sayani', 'Sayantani', 'Shalini', 'Shayoni', + 'Shreya', 'Shweta', 'Sreemoyee', 'Subha', 'Sudarshana', 'Sudeshna', + 'Sudipta', 'Suparna', 'Sushmita', 'Swagata', 'Tanurina', 'Tanya', 'Tista', + 'Uma', 'Upasana', 'Varsha', ] -bengali_firstnames_female2 = ['Adrija', 'Ananya', 'Anindita', 'Ankita', - 'Anuradha', 'Anushka', 'Anwesha', 'Aparna', 'Arijita', 'Arundhuti', - 'Asmita', 'Bipasha', 'Bishakha', 'Chaity', 'Chandrayee', 'Debanjana', - 'Debapriya', 'Debarati', 'Debasmita', 'Durba', 'Durga', 'Geeta', 'Indrani', - 'Ipshita', 'Ishita', 'Jyoti', 'Kamala', 'Kamalika', 'Lakshmi', 'Madhuparna', - 'Mohar', 'Moumita', 'Nabanita', 'Naireeta', 'Nayan', 'Nayanika', 'Nikita', - 'Nivedita', 'Pallabi', 'Pallavi', 'Paloma', 'Pampa', 'Paromita', 'Payal', - 'Piyali', 'Prerona', 'Priya', 'Priyanka', 'Radhika', 'Reema', 'Reshma', - 'Rituparna', 'Riya', 'Rohini', 'Roshni', 'Ruma', 'Rumela', 'Rupsa', - 'Sanghamitra', 'Sataraupa', 'Sayani', 'Sayantani', 'Shalini', 'Shayoni', - 'Shreya', 'Shweta', 'Sreemoyee', 'Subha', 'Sudarshana', 'Sudeshna', - 'Sudipta', 'Suparna', 'Sushmita', 'Swagata', 'Tanurina', 'Tanya', 'Tista', - 'Uma', 'Upasana', 'Varsha',] +# plus autotranslated from above list +bengali_firstnames_female = ['আদ্রিজা', 'অনন্যা', 'অনিন্দিতা', 'অঙ্কিতা', 'অনুরাধা', 'অনুষ্কা', 'অন্বেষা', 'অপর্ণা', + 'অরিজিত', 'অরুন্ধুতী', 'অস্মিতা', 'বিপাশা', 'বিশাখা', 'চৈত্য', 'চন্দ্রায়ী', 'দেবাঞ্জনা', + 'দেবপ্রিয়', 'দেবারতি', 'দেবস্মিতা', 'দুর্বা', 'দুর্গা', 'গীতা', 'ইন্দ্রাণী', + 'পল্লবী', 'পালোমা', 'পাম্পা', 'পারমিতা', 'পায়াল', 'পিয়ালি', 'প্রেরণা', 'প্রিয়', + 'প্রিয়াঙ্কা', 'রাধিকা', 'রিমা', 'রেশমা', 'ঋতুপর্ণা', 'রিয়া', 'রোহিণী', 'রোশনি', 'রুমা', + 'রুমেলা', 'রূপসা', 'সংঘমিত্রা', 'সাতারাউপা', 'সায়নী', 'সায়ন্তনী', 'শালিনী', 'সায়নী', + 'শ্রেয়া', 'শ্বেতা', + 'শ্রীময়ী', 'শুভ', 'সুদর্শন', 'সুদেষ্ণা', 'সুদীপ্তা', 'সুপর্ণা', 'সুস্মিতা', 'স্বাগত', + 'তানুরিনা', 'তানিয়া', 'তিস্তা', 'উমা', 'উপাসনা', 'বর্ষা', ] -#plus autotranslated from above list -bengali_firstnames_female = [ 'আদ্রিজা', 'অনন্যা', 'অনিন্দিতা', 'অঙ্কিতা', 'অনুরাধা', 'অনুষ্কা', 'অন্বেষা', 'অপর্ণা', 'অরিজিত', 'অরুন্ধুতী', 'অস্মিতা', 'বিপাশা', 'বিশাখা', 'চৈত্য', 'চন্দ্রায়ী', 'দেবাঞ্জনা', 'দেবপ্রিয়', 'দেবারতি', 'দেবস্মিতা', 'দুর্বা', 'দুর্গা', 'গীতা', 'ইন্দ্রাণী', - 'পল্লবী', 'পালোমা', 'পাম্পা', 'পারমিতা', 'পায়াল', 'পিয়ালি', 'প্রেরণা', 'প্রিয়', 'প্রিয়াঙ্কা', 'রাধিকা', 'রিমা', 'রেশমা', 'ঋতুপর্ণা', 'রিয়া', 'রোহিণী', 'রোশনি', 'রুমা', 'রুমেলা', 'রূপসা', 'সংঘমিত্রা', 'সাতারাউপা', 'সায়নী', 'সায়ন্তনী', 'শালিনী', 'সায়নী', 'শ্রেয়া', 'শ্বেতা', - 'শ্রীময়ী', 'শুভ', 'সুদর্শন', 'সুদেষ্ণা', 'সুদীপ্তা', 'সুপর্ণা', 'সুস্মিতা', 'স্বাগত', 'তানুরিনা', 'তানিয়া', 'তিস্তা', 'উমা', 'উপাসনা', 'বর্ষা',] +bengali_firstnames_male2 = ['Abhijit', 'Abhishek', 'Aditya', 'Agniva', 'Alok', + 'Amit', 'Amitava', 'Ananyo', 'Aniruddha', 'Ankur', 'Arghya', 'Arijit', + 'Arindam', 'Aritra', 'Arka', 'Arko', 'Avik', 'Avishek', 'Ayan', 'Bhaskar', + 'Bikash', 'Bishwadeep', 'Chandan', 'Debajyoti', 'Deeptiman', 'Dhrubo', + 'Dipankar', 'Dipayan', 'Ganesh', 'Gaurab', 'Gaurav', 'Gautam', 'Gopal', + 'Himadri', 'Indrajit', 'Indranil', 'Jayanta', 'Jishnu', 'Kuntal', 'Milan', + 'Mithun', 'Monoranjan', 'Mukul', 'Niladri', 'Pankaj', 'Prasenjit', + 'Praveen', 'Preetam', 'Raghav', 'Rahul', 'Raja', 'Rajat', 'Ranajoy', + 'Ratan', 'Ritam', 'Sabyasachi', 'Saikat', 'Samrat', 'Sandeep', 'Sandip', + 'Sanjay', 'Sankalpa', 'Saptarshi', 'Sayan', 'Shayok', 'Siddhartha', 'Soham', + 'Somnath', 'Soumya', 'Souparna', 'Sourabh', 'Sourav', 'Sourojit', 'Souvik', + 'Subhashish', 'Subrata', 'Sudipto', 'Sukumar', 'Sumit', 'Sunny', 'Swagato', + 'Tapan', 'Tapas', 'Tathagata', 'Tushar', 'Udayan', 'Utsab', ] -bengali_firstnames_male2 = ['Abhijit', 'Abhishek', 'Aditya', 'Agniva', 'Alok', - 'Amit', 'Amitava', 'Ananyo', 'Aniruddha', 'Ankur', 'Arghya', 'Arijit', - 'Arindam', 'Aritra', 'Arka', 'Arko', 'Avik', 'Avishek', 'Ayan', 'Bhaskar', - 'Bikash', 'Bishwadeep', 'Chandan', 'Debajyoti', 'Deeptiman', 'Dhrubo', - 'Dipankar', 'Dipayan', 'Ganesh', 'Gaurab', 'Gaurav', 'Gautam', 'Gopal', - 'Himadri', 'Indrajit', 'Indranil', 'Jayanta', 'Jishnu', 'Kuntal', 'Milan', - 'Mithun', 'Monoranjan', 'Mukul', 'Niladri', 'Pankaj', 'Prasenjit', - 'Praveen', 'Preetam', 'Raghav', 'Rahul', 'Raja', 'Rajat', 'Ranajoy', - 'Ratan', 'Ritam', 'Sabyasachi', 'Saikat', 'Samrat', 'Sandeep', 'Sandip', - 'Sanjay', 'Sankalpa', 'Saptarshi', 'Sayan', 'Shayok', 'Siddhartha', 'Soham', - 'Somnath', 'Soumya', 'Souparna', 'Sourabh', 'Sourav', 'Sourojit', 'Souvik', - 'Subhashish', 'Subrata', 'Sudipto', 'Sukumar', 'Sumit', 'Sunny', 'Swagato', - 'Tapan', 'Tapas', 'Tathagata', 'Tushar', 'Udayan', 'Utsab', ] +# translated from above +bengali_firstnames_male = ['জয়ন্ত', 'জিষ্ণু', 'কুন্তল', 'মিলান', 'মিঠুন', 'মনোরঞ্জন', 'মুকুল', 'নীলাদ্রি', 'পঙ্কজ', + 'প্রসেনজিৎ', 'প্রবীণ', 'প্রীতম', 'রাঘব', 'রাহুল', 'রাজা', 'রজত', 'রণজয়', 'রতন', 'রিতম', + 'সব্যসাচী', 'সৈকত', 'সম্রাট', 'সন্দীপ', 'সন্দীপ', + 'অভিজিৎ', 'অভিষেক', 'আদিত্য', 'অগ্নিভ', 'আলোক', 'অমিত', 'অমিতাভ', 'অনন্য', 'অনিরুদ্ধ', + 'অঙ্কুর', 'অর্ঘ্য', 'অরিজিৎ', 'অরিন্দম', 'অরিত্র', 'আর্কা', 'আর্কো', 'অভিক', 'অভিষেক', + 'আয়ান', 'ভাস্কর', 'বিকাশ', 'বিশ্বদীপ', + 'চন্দন', 'দেবাজ্যতি', 'দীপ্তিমান', 'ধ্রুব', 'দীপঙ্কর', 'দিপায়ন', 'গণেশ', 'গৌরব', 'গৌরব', + 'গৌতম', 'গোপাল', 'হিমাদ্রি', 'ইন্দ্রজিৎ', 'ইন্দ্রনীল', ] -#translated from above -bengali_firstnames_male = ['জয়ন্ত', 'জিষ্ণু', 'কুন্তল', 'মিলান', 'মিঠুন', 'মনোরঞ্জন', 'মুকুল', 'নীলাদ্রি', 'পঙ্কজ', 'প্রসেনজিৎ', 'প্রবীণ', 'প্রীতম', 'রাঘব', 'রাহুল', 'রাজা', 'রজত', 'রণজয়', 'রতন', 'রিতম', 'সব্যসাচী', 'সৈকত', 'সম্রাট', 'সন্দীপ', 'সন্দীপ', -'অভিজিৎ', 'অভিষেক', 'আদিত্য', 'অগ্নিভ', 'আলোক', 'অমিত', 'অমিতাভ', 'অনন্য', 'অনিরুদ্ধ', 'অঙ্কুর', 'অর্ঘ্য', 'অরিজিৎ', 'অরিন্দম', 'অরিত্র', 'আর্কা', 'আর্কো', 'অভিক', 'অভিষেক', 'আয়ান', 'ভাস্কর', 'বিকাশ', 'বিশ্বদীপ', - 'চন্দন', 'দেবাজ্যতি', 'দীপ্তিমান', 'ধ্রুব', 'দীপঙ্কর', 'দিপায়ন', 'গণেশ', 'গৌরব', 'গৌরব', 'গৌতম', 'গোপাল', 'হিমাদ্রি', 'ইন্দ্রজিৎ', 'ইন্দ্রনীল',] - -#translated from bengali female names +# translated from bengali female names punjabi_firstnames_female = [ - 'ਅਦਰਿਜਾ', 'ਅਨੰਨਿਆ', 'ਅਨਿੰਦਿਤਾ', 'ਅੰਕਿਤਾ', 'ਅਨੁਰਾਧਾ', 'ਅਨੁਸ਼ਕਾ', 'ਅੰਵੇਸ਼ਾ', 'ਅਪਰਨਾ', 'ਅਰਿਜੀਤ', 'ਅਰੂਣਥਥੀ', 'ਅਸਮਿਤਾ', 'ਬਿਪਾਸ਼ਾ', 'ਵਿਸਾਖਾ', 'ਚੈਤਿਆ', 'ਚੰਦਰੀ', 'ਦੇਬੰਜਨਾ', 'ਦੇਬਾਂਪ੍ਰਿਆ', 'ਦੇਬਾਂਤੀ', 'ਦੇਬਾਂਤੀ', 'ਇੰਦਰਾਣੀ', 'ਦੁਰਗਾ', 'ਗੀਤਾ', 'ਇੰਦਰਾਣੀ', 'ਇੰਦਰਾਣੀ', 'ਅਦ੍ਰਿਜਾ', 'ਇੰਦਰਾ', - 'ਪੱਲਵੀ', 'ਪਲੋਮਾ', 'ਪੰਮਾ', 'ਪਰਮਿਤਾ', 'ਪਯਾਲ', 'ਪਿਆਲੀ', 'ਪ੍ਰੇਰਨਾ', 'ਪ੍ਰਿਆ', 'ਪ੍ਰਿਆ', 'ਪ੍ਰਿਯੰਕਾ', 'ਰਾਧਿਕਾ', 'ਰੀਮਾ', 'ਰੇਸ਼ਮਾ', 'ਰਿਤੂਪਰਨਾ', 'ਰੀਆ', 'ਰੋਹਿਣੀ', 'ਰੋਸ਼ਨੀ', 'ਰੋਸ਼ਨੀ', 'ਰੁਮਾ', 'ਰੁਮੇਲਾ', 'ਰੂਪਸਾ', 'ਸੰਘਮਿਤਾ', 'ਸਤਰੂਪਾ', 'ਸਵੀਤਾ', 'ਸਾਨੀ', 'ਸਾਨੀ', 'ਸਨੀ', 'ਸਨੀ', 'ਸ਼ਨਾਨੀ', 'ਸਤਪਾਲ', 'ਪਵਨ', 'ਪਵਨ' - ] + 'ਅਦਰਿਜਾ', 'ਅਨੰਨਿਆ', 'ਅਨਿੰਦਿਤਾ', 'ਅੰਕਿਤਾ', 'ਅਨੁਰਾਧਾ', 'ਅਨੁਸ਼ਕਾ', 'ਅੰਵੇਸ਼ਾ', 'ਅਪਰਨਾ', 'ਅਰਿਜੀਤ', 'ਅਰੂਣਥਥੀ', 'ਅਸਮਿਤਾ', + 'ਬਿਪਾਸ਼ਾ', 'ਵਿਸਾਖਾ', 'ਚੈਤਿਆ', 'ਚੰਦਰੀ', 'ਦੇਬੰਜਨਾ', 'ਦੇਬਾਂਪ੍ਰਿਆ', 'ਦੇਬਾਂਤੀ', 'ਦੇਬਾਂਤੀ', 'ਇੰਦਰਾਣੀ', 'ਦੁਰਗਾ', 'ਗੀਤਾ', + 'ਇੰਦਰਾਣੀ', 'ਇੰਦਰਾਣੀ', 'ਅਦ੍ਰਿਜਾ', 'ਇੰਦਰਾ', + 'ਪੱਲਵੀ', 'ਪਲੋਮਾ', 'ਪੰਮਾ', 'ਪਰਮਿਤਾ', 'ਪਯਾਲ', 'ਪਿਆਲੀ', 'ਪ੍ਰੇਰਨਾ', 'ਪ੍ਰਿਆ', 'ਪ੍ਰਿਆ', 'ਪ੍ਰਿਯੰਕਾ', 'ਰਾਧਿਕਾ', 'ਰੀਮਾ', + 'ਰੇਸ਼ਮਾ', 'ਰਿਤੂਪਰਨਾ', 'ਰੀਆ', 'ਰੋਹਿਣੀ', 'ਰੋਸ਼ਨੀ', 'ਰੋਸ਼ਨੀ', 'ਰੁਮਾ', 'ਰੁਮੇਲਾ', 'ਰੂਪਸਾ', 'ਸੰਘਮਿਤਾ', 'ਸਤਰੂਪਾ', 'ਸਵੀਤਾ', + 'ਸਾਨੀ', 'ਸਾਨੀ', 'ਸਨੀ', 'ਸਨੀ', 'ਸ਼ਨਾਨੀ', 'ਸਤਪਾਲ', 'ਪਵਨ', 'ਪਵਨ' +] -#translated from benagli male names +# translated from benagli male names punjabi_firstnames_male = [ - 'ਅਵਿਜੀਤ', 'ਅਭਿਸ਼ੇਕ', 'ਆਦਿੱਤਿਆ', 'ਅਗਨੀਵ', 'ਆਲੋਕ', 'ਅਮਿਤ', 'ਅਮਿਤਾਭ', 'ਅਨੰਨਿਆ', 'ਅਨਿਰੁੱਧ', 'ਅੰਕੁਰ', 'ਅਨਿਰੁੱਧ', 'ਅਰਿਜੀਤ', 'ਅਰਿੰਦਮ', 'ਅਰਿੰਡਮ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਅਰਿਕ', 'ਅਭੀਕ', 'ਅਭਿਸ਼ੇਕ', 'ਅਯਾਨ', 'ਭਾਸਕਰ', 'ਵਿਕਾਸ', - 'ਵਿਸ਼ਵਦੀਪ', 'ਚੰਦਨ', 'ਦੇਵਜੋਤੀ', 'ਦੀਪਮੰਤੀ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਤਿਨ', 'ਦੀਪਨੀਤ', 'ਦੀਪਨੀਤੀ', 'ਦੀਪਨੀਤੀ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਅਰਿਕ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਅਰਿਕ', 'ਅਰਿਜੀਤ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਆਰਿਕ', 'ਅਭੀਕ', 'ਅਭਿਸ਼ੇਕ', 'ਦੀਪਾਂਕਰ', 'ਦਿਪਤਿਮਾਨ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਨੀਤ', 'ਦੀਪਾਂਕਰ', 'ਅਰਿਜੀਤ', 'ਅਰਿ', - 'ਜੈਅੰਤ', 'ਜਿਸ਼ਨੂ', 'ਕੁੰਤਲ', 'ਮਿਲਨ', 'ਮਿਥੁਨ', 'ਮਨੋਰੰਜਨ', 'ਮੁਕੁਲ', 'ਨੀਲਾਦਰੀ', 'ਪੰਕਜ', 'ਪ੍ਰਸੇਨਜੀਤ', 'ਪ੍ਰਵੀਨ', 'ਪ੍ਰੀਤਮ', 'ਰਾਘਵ', 'ਰਾਹੁਲ', 'ਰਾਜਾ', 'ਰਜਤ', 'ਰੰਜੈ', 'ਰਤਨ', 'ਰਿਤਮ', 'ਸਬਿਆਸਾਚੀ', 'ਬੀਚ', 'ਸਮਰਾਟ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ' + 'ਅਵਿਜੀਤ', 'ਅਭਿਸ਼ੇਕ', 'ਆਦਿੱਤਿਆ', 'ਅਗਨੀਵ', 'ਆਲੋਕ', 'ਅਮਿਤ', 'ਅਮਿਤਾਭ', 'ਅਨੰਨਿਆ', 'ਅਨਿਰੁੱਧ', 'ਅੰਕੁਰ', 'ਅਨਿਰੁੱਧ', + 'ਅਰਿਜੀਤ', 'ਅਰਿੰਦਮ', 'ਅਰਿੰਡਮ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਅਰਿਕ', 'ਅਭੀਕ', 'ਅਭਿਸ਼ੇਕ', 'ਅਯਾਨ', 'ਭਾਸਕਰ', 'ਵਿਕਾਸ', + 'ਵਿਸ਼ਵਦੀਪ', 'ਚੰਦਨ', 'ਦੇਵਜੋਤੀ', 'ਦੀਪਮੰਤੀ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਤਿਨ', 'ਦੀਪਨੀਤ', 'ਦੀਪਨੀਤੀ', 'ਦੀਪਨੀਤੀ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', + 'ਅਰਿਕ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਅਰਿਕ', 'ਅਰਿਜੀਤ', 'ਅਰਿਜੀਤ', 'ਅਰਿਕ', 'ਆਰਿਕ', 'ਅਭੀਕ', 'ਅਭਿਸ਼ੇਕ', 'ਦੀਪਾਂਕਰ', 'ਦਿਪਤਿਮਾਨ', + 'ਦੀਪਾਂਕਰ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਾਂਕਰ', 'ਦੀਪਨੀਤ', 'ਦੀਪਾਂਕਰ', 'ਅਰਿਜੀਤ', 'ਅਰਿ', + 'ਜੈਅੰਤ', 'ਜਿਸ਼ਨੂ', 'ਕੁੰਤਲ', 'ਮਿਲਨ', 'ਮਿਥੁਨ', 'ਮਨੋਰੰਜਨ', 'ਮੁਕੁਲ', 'ਨੀਲਾਦਰੀ', 'ਪੰਕਜ', 'ਪ੍ਰਸੇਨਜੀਤ', 'ਪ੍ਰਵੀਨ', 'ਪ੍ਰੀਤਮ', + 'ਰਾਘਵ', 'ਰਾਹੁਲ', 'ਰਾਜਾ', 'ਰਜਤ', 'ਰੰਜੈ', 'ਰਤਨ', 'ਰਿਤਮ', 'ਸਬਿਆਸਾਚੀ', 'ਬੀਚ', 'ਸਮਰਾਟ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ', 'ਸੰਦੀਪ', + 'ਸੰਦੀਪ', 'ਸੰਦੀਪ' ] -#auto-translated from https://en.wikipedia.org/wiki/Category:Punjabi-language_surnames -#translated from a few popular hindi names from https://github.com/joke2k/faker/blob/a7a0cb72d749ee104d573cf848c542f5c3062405/faker/providers/person/hi_IN/__init__.py +# auto-translated from https://en.wikipedia.org/wiki/Category:Punjabi-language_surnames +# translated from a few popular hindi names from https://github.com/joke2k/faker/blob/a7a0cb72d749ee104d573cf848c542f5c3062405/faker/providers/person/hi_IN/__init__.py punjabi_surnames = [ - "ਪਾਟਿਲ", - "ਸ਼ਰਮਾ", - "ਅਚਾਰੀਆ", - "ਅਗਰਵਾਲ", - "ਲਿਓ", - "ਆਹਲੂਵਾਲੀਆ", - "ਆਹੂਜਾ", - "ਪੁਸ਼ਕਰ", - "ਸ਼ਿਰੋਲੇ", - "ਗਾਇਕਵਾੜ", - "ਗਾਵਿਤ", - "ਸ਼ਿਰੋਲੇ", - "ਬਾਪਤ", - "ਔਰੋਰਾ", - "ਬਾਸੁ", - "ਭੰਡਾਰੀ", - "ਚੌਧਰੀ", - "ਚੌਹਾਨ", - "ਚਬਰਾ", - "ਦਾਦਾ ਜੀ", - "ਦਾਨੀ", - "ਡਾਰ", - "ਦਾਰਾ", - "ਦੱਤਾ", - "ਡੇਵ", - "ਦਿਆਲ", - "ਧਾਲੀਵਾਲ", - "ਦੀਕਸ਼ਿਤ", - "ਗੁਨਾਹਗਾਰ", - 'ਅਕਮਲ', 'ਚੀਮਾ', 'ਚੌਧਰੀ', 'ਹੀਰਾ', 'ਜਸਵੀਰ', 'ਖੰਡੋਵਾ', 'ਖੁੱਲਰ', 'ਕੋਹਲੀ', 'ਮੱਕੜ', 'ਮੀਆਂ', 'ਰਾਣਾ', 'ਰੰਧਾਵਾ', 'ਸਰਨਾ', 'ਸਹਿਗਲ', 'ਸਿੰਘ', 'ਸੋਢੀ', 'ਤਲਵਾੜ', 'ਠੁਕਰਾਲ', 'ਵਿਰਕ', 'ਵਿਰਕ', - + "ਪਾਟਿਲ", + "ਸ਼ਰਮਾ", + "ਅਚਾਰੀਆ", + "ਅਗਰਵਾਲ", + "ਲਿਓ", + "ਆਹਲੂਵਾਲੀਆ", + "ਆਹੂਜਾ", + "ਪੁਸ਼ਕਰ", + "ਸ਼ਿਰੋਲੇ", + "ਗਾਇਕਵਾੜ", + "ਗਾਵਿਤ", + "ਸ਼ਿਰੋਲੇ", + "ਬਾਪਤ", + "ਔਰੋਰਾ", + "ਬਾਸੁ", + "ਭੰਡਾਰੀ", + "ਚੌਧਰੀ", + "ਚੌਹਾਨ", + "ਚਬਰਾ", + "ਦਾਦਾ ਜੀ", + "ਦਾਨੀ", + "ਡਾਰ", + "ਦਾਰਾ", + "ਦੱਤਾ", + "ਡੇਵ", + "ਦਿਆਲ", + "ਧਾਲੀਵਾਲ", + "ਦੀਕਸ਼ਿਤ", + "ਗੁਨਾਹਗਾਰ", + 'ਅਕਮਲ', 'ਚੀਮਾ', 'ਚੌਧਰੀ', 'ਹੀਰਾ', 'ਜਸਵੀਰ', 'ਖੰਡੋਵਾ', 'ਖੁੱਲਰ', 'ਕੋਹਲੀ', 'ਮੱਕੜ', 'ਮੀਆਂ', 'ਰਾਣਾ', 'ਰੰਧਾਵਾ', 'ਸਰਨਾ', + 'ਸਹਿਗਲ', 'ਸਿੰਘ', 'ਸੋਢੀ', 'ਤਲਵਾੜ', 'ਠੁਕਰਾਲ', 'ਵਿਰਕ', 'ਵਿਰਕ', + ] gujurati_firstnames_female = [ - 'અદ્રીજા', 'અનન્યા', 'અનિંદિતા', 'અંકિતા', 'અનુરાધા', 'અનુરાધા', 'અનુષ્કા', 'અન્વેષા', 'અપર્ણા', 'અરિજિત', 'અરુનાથથી', 'અસ્મિતા', 'બિપાશા', 'વિશાખા', 'ચૈત્ય', 'ચંદ્રી', 'દેબંઝણા', 'દેબંજીત', 'ઈન્દ્રાણી', 'અરિજિત', 'અરિજીત', 'અરિજિત', 'અરિજા', 'અરિજિત', 'અરિજીત', 'અરિજિત', 'અરિજીત', 'અરિજિત', 'અરિજા', - 'પલ્લવી', 'પાલોમા', 'પમ્મા', 'પરમિતા', 'પાયલ', 'પિયાલી', 'પ્રેરણા', 'પ્રિયા', 'પ્રિયા', 'પ્રિયંકા', 'રાધિકા', 'રીમા', 'રીમા', 'રેશ્મા', 'રિતુપર્ણા', 'રિયા', 'રોહિણી', 'રોશની', 'રોશની', 'રોશની', 'રોશની', 'રુમા', 'રૂમાલ', 'રુપસા', 'રુપસા', 'સત્યપાલ', 'રિયા' + 'અદ્રીજા', 'અનન્યા', 'અનિંદિતા', 'અંકિતા', 'અનુરાધા', 'અનુરાધા', 'અનુષ્કા', 'અન્વેષા', 'અપર્ણા', 'અરિજિત', + 'અરુનાથથી', 'અસ્મિતા', 'બિપાશા', 'વિશાખા', 'ચૈત્ય', 'ચંદ્રી', 'દેબંઝણા', 'દેબંજીત', 'ઈન્દ્રાણી', 'અરિજિત', 'અરિજીત', + 'અરિજિત', 'અરિજા', 'અરિજિત', 'અરિજીત', 'અરિજિત', 'અરિજીત', 'અરિજિત', 'અરિજા', + 'પલ્લવી', 'પાલોમા', 'પમ્મા', 'પરમિતા', 'પાયલ', 'પિયાલી', 'પ્રેરણા', 'પ્રિયા', 'પ્રિયા', 'પ્રિયંકા', 'રાધિકા', + 'રીમા', 'રીમા', 'રેશ્મા', 'રિતુપર્ણા', 'રિયા', 'રોહિણી', 'રોશની', 'રોશની', 'રોશની', 'રોશની', 'રુમા', 'રૂમાલ', + 'રુપસા', 'રુપસા', 'સત્યપાલ', 'રિયા' ] gujurati_firstnames_male = [ - 'અરિજિત', 'અભિષેક', 'આદિત્ય', 'અગ્નિવ', 'આલોક', 'અમિત', 'અમિતાભ', 'અનન્યા', 'અનિરુદ્ધ', 'અંકુર', 'અનિરુદ્ધ', 'અરિજિત', 'અરિંદમ', 'અરિંદમ', 'અરિન્દમ', 'અરિન્દમ', 'અરિજીત', 'અરિક', 'અરિક', 'અભીક', 'અયાન', 'વિકાસ', 'વિકાસ', 'અરિન્દમ', 'અરિક્ત', 'અરિન્દમ', 'અરિન્દમ', 'અરિન્દમ', 'અરીક', 'અરિક', 'અરિક', 'અ', - 'વિશ્વદીપ', 'ચંદન', 'દેવજ્યોતિ', 'દીપમંતી', 'દીપાંકર', 'દીપાંકર', 'દીપાંતરીન', 'દીપનીત', 'દીપનીતિ', 'દીપનીતિ', 'દીપનીતિ', 'અરિજિત', 'અરિજિત', 'અરિક', 'અરિજિત', 'અરિજિત', 'અરીક', 'આરિક', 'આરિક', 'આરીક', 'અરિજિત', - 'જયંત', 'જીષ્ણુ', 'કુંતલ', 'મિલન', 'મિથુન', 'મનોરંજન', 'મુકુલ', 'નીલાદરી', 'પંકજ', 'પ્રસેનજિત', 'પ્રવીણ', 'પ્રીતમ', 'રાઘવ', 'રાહુલ', 'રાજા', 'રજત', 'રણજય', 'રતન', 'રિતમ', 'સબ્યસાચી', 'બીચ', 'સંદીપ', 'સંદીપ', 'પ્રદીપ', + 'અરિજિત', 'અભિષેક', 'આદિત્ય', 'અગ્નિવ', 'આલોક', 'અમિત', 'અમિતાભ', 'અનન્યા', 'અનિરુદ્ધ', 'અંકુર', 'અનિરુદ્ધ', + 'અરિજિત', 'અરિંદમ', 'અરિંદમ', 'અરિન્દમ', 'અરિન્દમ', 'અરિજીત', 'અરિક', 'અરિક', 'અભીક', 'અયાન', 'વિકાસ', 'વિકાસ', + 'અરિન્દમ', 'અરિક્ત', 'અરિન્દમ', 'અરિન્દમ', 'અરિન્દમ', 'અરીક', 'અરિક', 'અરિક', 'અ', + 'વિશ્વદીપ', 'ચંદન', 'દેવજ્યોતિ', 'દીપમંતી', 'દીપાંકર', 'દીપાંકર', 'દીપાંતરીન', 'દીપનીત', 'દીપનીતિ', 'દીપનીતિ', + 'દીપનીતિ', 'અરિજિત', 'અરિજિત', 'અરિક', 'અરિજિત', 'અરિજિત', 'અરીક', 'આરિક', 'આરિક', 'આરીક', 'અરિજિત', + 'જયંત', 'જીષ્ણુ', 'કુંતલ', 'મિલન', 'મિથુન', 'મનોરંજન', 'મુકુલ', 'નીલાદરી', 'પંકજ', 'પ્રસેનજિત', 'પ્રવીણ', 'પ્રીતમ', + 'રાઘવ', 'રાહુલ', 'રાજા', 'રજત', 'રણજય', 'રતન', 'રિતમ', 'સબ્યસાચી', 'બીચ', 'સંદીપ', 'સંદીપ', 'પ્રદીપ', ] gujurati_surnames = [ - "ਪਾਟਿਲ", - "ਸ਼ਰਮਾ", - "ਅਚਾਰੀਆ", - "ਅਗਰਵਾਲ", - "ਲਿਓ", - "ਆਹਲੂਵਾਲੀਆ", - "ਆਹੂਜਾ", - "ਪੁਸ਼ਕਰ", - "ਸ਼ਿਰੋਲੇ", - "ਗਾਇਕਵਾੜ", - "ਗਾਵਿਤ", - "ਸ਼ਿਰੋਲੇ", - "ਬਾਪਤ", - "ਔਰੋਰਾ", - "ਬਾਸੁ", - "ਭੰਡਾਰੀ", - "ਚੌਧਰੀ", - "ਚੌਹਾਨ", - "ਚਬਰਾ", - "ਦਾਦਾ ਜੀ", - "ਦਾਨੀ", - "ਡਾਰ", - "ਦਾਰਾ", - "ਦੱਤਾ", - "ਡੇਵ", - "ਦਿਆਲ", - "ਧਾਲੀਵਾਲ", - "ਦੀਕਸ਼ਿਤ", - "ਗੁਨਾਹਗਾਰ", - 'અકમલ', 'ચીમા', 'ચૌધરી', 'હીરા', 'જસવીર', 'ખંડોવા', 'ખુલ્લર', 'કોહલી', 'મક્કર', 'મિયાં', 'રાણા', 'રંધાવા', 'સરના', 'સેહગલ', 'સિંહ', 'સંધુ', 'તલવાર', 'ઠુકરાલ', 'વિર્ક', 'વિર્ક' - ] + "ਪਾਟਿਲ", + "ਸ਼ਰਮਾ", + "ਅਚਾਰੀਆ", + "ਅਗਰਵਾਲ", + "ਲਿਓ", + "ਆਹਲੂਵਾਲੀਆ", + "ਆਹੂਜਾ", + "ਪੁਸ਼ਕਰ", + "ਸ਼ਿਰੋਲੇ", + "ਗਾਇਕਵਾੜ", + "ਗਾਵਿਤ", + "ਸ਼ਿਰੋਲੇ", + "ਬਾਪਤ", + "ਔਰੋਰਾ", + "ਬਾਸੁ", + "ਭੰਡਾਰੀ", + "ਚੌਧਰੀ", + "ਚੌਹਾਨ", + "ਚਬਰਾ", + "ਦਾਦਾ ਜੀ", + "ਦਾਨੀ", + "ਡਾਰ", + "ਦਾਰਾ", + "ਦੱਤਾ", + "ਡੇਵ", + "ਦਿਆਲ", + "ਧਾਲੀਵਾਲ", + "ਦੀਕਸ਼ਿਤ", + "ਗੁਨਾਹਗਾਰ", + 'અકમલ', 'ચીમા', 'ચૌધરી', 'હીરા', 'જસવીર', 'ખંડોવા', 'ખુલ્લર', 'કોહલી', 'મક્કર', 'મિયાં', 'રાણા', 'રંધાવા', 'સરના', + 'સેહગલ', 'સિંહ', 'સંધુ', 'તલવાર', 'ઠુકરાલ', 'વિર્ક', 'વિર્ક' +] +urdu_firstnames2 = ["Azhar", "Benazir", "Farahnaz", "Maliha", "Minoo", "Romana", "Sania", "Azhar", "Burhan", "Changezi", + "Faizan", "Fasih", "Fuad", "Hassim", "Jan", "Shoaib", ] +# translated from above +urdu_firstnames = ["ازہر", "بے نظیر", "فرحناز", "ملیحہ", "مینو", "رومانہ", "ثانیہ", "ازہر", "برہان", "تبدیلی", "فیضان", + "فسیح", "فود", "حسم", "جان", "شعیب"] +urdu_surnames2 = ["Abid", "Ahmad", "Akbar", "Akmal", "Alam", "Ayaz", "Bohra", "Bucha", "Bukhari", "Buksh", "Bux", + "Chandpuri", "Changezi", "Emani", "Farrukhabadi", "Farrukhi", "Fazail", "Hassim", "Hilaly", + "Hussaini ", "Brahmin", "Lucknawi", "Ludhianvi", "Matloob", "Omar", "Vaishya", "Rahimtoola", "Shafiq", + "Shoaib", "Siddiqui", "Siddiqui", "Tikka", "Yasser", ] +# translated from above +urdu_surnames = ["عابد", "احمد", "اکبر", "اکمل", "عالم", "ایاز", "بوہرہ", "بوچا", "بخاری", "بخش", "بک", "چاندپوری", + "چینزی", "ایمانی", "فرخ آبادی", "فرخی", "فضل", "حصیم", "ہلالی", "حسینی", "برہمن", "لکنوئی", "لدھیانوی", + "متلوب", "عمر", "واشیا", "رحیمتولہ", "شفیق", "شعیب", "صدیقی", "صدیقی", "ٹکا", "یاسر"] -urdu_firstnames2 = ["Azhar", "Benazir", "Farahnaz", "Maliha", "Minoo", "Romana", "Sania", "Azhar", "Burhan", "Changezi", "Faizan", "Fasih", "Fuad", "Hassim", "Jan", "Shoaib", ] -#translated from above -urdu_firstnames = ["ازہر", "بے نظیر", "فرحناز", "ملیحہ", "مینو", "رومانہ", "ثانیہ", "ازہر", "برہان", "تبدیلی", "فیضان", "فسیح", "فود", "حسم", "جان", "شعیب"] -urdu_surnames2 = ["Abid", "Ahmad", "Akbar", "Akmal", "Alam", "Ayaz", "Bohra", "Bucha", "Bukhari", "Buksh", "Bux", "Chandpuri", "Changezi", "Emani", "Farrukhabadi", "Farrukhi", "Fazail", "Hassim", "Hilaly", "Hussaini ", "Brahmin", "Lucknawi", "Ludhianvi", "Matloob", "Omar", "Vaishya", "Rahimtoola", "Shafiq", "Shoaib", "Siddiqui", "Siddiqui", "Tikka", "Yasser",] -#translated from above -urdu_surnames = [ "عابد", "احمد", "اکبر", "اکمل", "عالم", "ایاز", "بوہرہ", "بوچا", "بخاری", "بخش", "بک", "چاندپوری", "چینزی", "ایمانی", "فرخ آبادی", "فرخی", "فضل", "حصیم", "ہلالی", "حسینی", "برہمن", "لکنوئی", "لدھیانوی", "متلوب", "عمر", "واشیا", "رحیمتولہ", "شفیق", "شعیب", "صدیقی", "صدیقی", "ٹکا", "یاسر"] +# basque - use Spanish names for now -#basque - use Spanish names for now +yoruba_firstnames_male = [ + "Abayomrunkoje", "Abegunde", "Abeo", "Banjoko", "Bankole", "Esupofo", "Gbadebo", "Ifelewa", "Iles", "Inioluwa", + "Iranola", "Isamotu Olalekan", "Oba", "Obafemi", "Obasolape", "Obatotosinloluwa", "Rereloluwa", "Ropo", "Seriki", + "Seye", "Shakale", "Tadenikawo", "Tanimola", "Tantoluwa", "Tejumola" +] +yoruba_firstnames_female = [ + "Abebi", "Abidemi", "Adankwo", "Adaoma", "Bimpe", "Bmidele", "Bodunde", "Dideoluwakusidede", "Diekololaoluwalayemi", + "Doyinsola", "Ebunoluwa", "Emilohi", "Emiola", "Eniiyi", "Ibidolapo", "Ibidun", "Ibilola", "Ibironke", "Kehinde", + "Keyshia", "Kinfeosioluwa", "Kolawole", "Lanre", "Latorunwa", "Zoputan" +] +yoruba_surnames = [ + "Abayomi", "Aderinokun", "Adetokunbo", "Adebayo", "Babalola", "Bankole", "Falola", "Fashola", "Folarin", + "Folorunsho", "Kumuyi", "Ilesanmi", "Ladapo", "Ladipo", "Layeni", "Odegbami", "Oladipo", "Olumide", "Olumuyiwa", + "Omisore", "Onakoya", "Opeyemi", "Otedola", "Owolabi", "Rotimi", "Saraki", "Shagaya", "Taiwo", "Tejuosho", + "Yemisi" +] diff --git a/faker_manager.py b/faker_manager.py index dc212f9..5992429 100644 --- a/faker_manager.py +++ b/faker_manager.py @@ -153,7 +153,13 @@ def __init__( self.name_lists = [first_name_list_of_lists, surname_list_of_lists] self.name_lists_probabilities = [1.0, 1.0] assert len(self.name_lists) == len(self.name_lists_probabilities) - elif self.lang in ("mr", "yo", "sw","sn", "st", "ig", "ny", "xh", "zu"): + elif self.lang == "yo": + surname_list_of_lists: List[List[str]] = [yoruba_surnames] + first_name_list_of_lists: List[List[str]] = [yoruba_firstnames_male, yoruba_firstnames_female] + self.name_lists = [first_name_list_of_lists, surname_list_of_lists] + self.name_lists_probabilities = [1.0, 1.0] + assert len(self.name_lists) == len(self.name_lists_probabilities) + elif self.lang in ("mr", "sw", "sn", "st", "ig", "ny", "xh", "zu"): first_name_list_of_lists: List[List[str]] = [bantu_firstnames_male, bantu_firstnames_female] surname_list_of_lists: List[List[str]] = [bantu_surnames] self.name_lists = [first_name_list_of_lists, surname_list_of_lists] diff --git a/kenlm_manager.py b/kenlm_manager.py index 8f9d007..50514b8 100644 --- a/kenlm_manager.py +++ b/kenlm_manager.py @@ -34,8 +34,8 @@ 'en': {'wikipedia': [{'cutoff': 500, 'pattern': "{} (born"}], # in wikipedia, you often have: Lincoln (born .... ) 'oscar': [{'cutoff': 500, 'pattern': "{} was born"}], }, - 'yo': {'wikipedia': [{'cutoff': 500, 'pattern': "{} ni a bi lori"}], - 'oscar': [{'cutoff': 500, 'pattern': "{} ni a bi lori"}], + 'yo': {'wikipedia': [{'cutoff': 400, 'pattern': "{} ni a bi lori"}], + 'oscar': [{'cutoff': 400, 'pattern': "{} ni a bi lori"}], }, 'zu': {'wikipedia': [{'cutoff': 400, 'pattern': "{} wazalwa ngo"}], 'oscar': [{'cutoff': 400, 'pattern': "{} wazalwa ngo"}], diff --git a/test_threshold_cuttoff.py b/test_threshold_cuttoff.py new file mode 100644 index 0000000..6bbdc3e --- /dev/null +++ b/test_threshold_cuttoff.py @@ -0,0 +1,12 @@ +from kenlm_manager import * +import pytest + + +load_kenlm_model(src_lang='vi', pretrained_models=['wikipedia']) +wikipedia_kenml = KenlmModel(model_dataset="/root/.cache/wikipedia", language="yo") + + +@pytest.mark.parametrize("key, expected", + [("google", 6), ("youtube", 7)]) +def test_cache_value(web_cache, key, expected): + assert web_cache.get(key) == expected \ No newline at end of file