123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465 |
- language_code_to_name = {
- "afr": "Afrikaans",
- "amh": "Amharic",
- "arb": "Modern Standard Arabic",
- "ary": "Moroccan Arabic",
- "arz": "Egyptian Arabic",
- "asm": "Assamese",
- "ast": "Asturian",
- "azj": "North Azerbaijani",
- "bel": "Belarusian",
- "ben": "Bengali",
- "bos": "Bosnian",
- "bul": "Bulgarian",
- "cat": "Catalan",
- "ceb": "Cebuano",
- "ces": "Czech",
- "ckb": "Central Kurdish",
- "cmn": "Mandarin Chinese",
- "cmn_Hant": "Traditional Mandarin Chinese",
- "cym": "Welsh",
- "dan": "Danish",
- "deu": "German",
- "ell": "Greek",
- "eng": "English",
- "est": "Estonian",
- "eus": "Basque",
- "fin": "Finnish",
- "fra": "French",
- "gaz": "West Central Oromo",
- "gle": "Irish",
- "glg": "Galician",
- "guj": "Gujarati",
- "heb": "Hebrew",
- "hin": "Hindi",
- "hrv": "Croatian",
- "hun": "Hungarian",
- "hye": "Armenian",
- "ibo": "Igbo",
- "ind": "Indonesian",
- "isl": "Icelandic",
- "ita": "Italian",
- "jav": "Javanese",
- "jpn": "Japanese",
- "kam": "Kamba",
- "kan": "Kannada",
- "kat": "Georgian",
- "kaz": "Kazakh",
- "kea": "Kabuverdianu",
- "khk": "Halh Mongolian",
- "khm": "Khmer",
- "kir": "Kyrgyz",
- "kor": "Korean",
- "lao": "Lao",
- "lit": "Lithuanian",
- "ltz": "Luxembourgish",
- "lug": "Ganda",
- "luo": "Luo",
- "lvs": "Standard Latvian",
- "mai": "Maithili",
- "mal": "Malayalam",
- "mar": "Marathi",
- "mkd": "Macedonian",
- "mlt": "Maltese",
- "mni": "Meitei",
- "mya": "Burmese",
- "nld": "Dutch",
- "nno": "Norwegian Nynorsk",
- "nob": "Norwegian Bokm\u00e5l",
- "npi": "Nepali",
- "nya": "Nyanja",
- "oci": "Occitan",
- "ory": "Odia",
- "pan": "Punjabi",
- "pbt": "Southern Pashto",
- "pes": "Western Persian",
- "pol": "Polish",
- "por": "Portuguese",
- "ron": "Romanian",
- "rus": "Russian",
- "slk": "Slovak",
- "slv": "Slovenian",
- "sna": "Shona",
- "snd": "Sindhi",
- "som": "Somali",
- "spa": "Spanish",
- "srp": "Serbian",
- "swe": "Swedish",
- "swh": "Swahili",
- "tam": "Tamil",
- "tel": "Telugu",
- "tgk": "Tajik",
- "tgl": "Tagalog",
- "tha": "Thai",
- "tur": "Turkish",
- "ukr": "Ukrainian",
- "urd": "Urdu",
- "uzn": "Northern Uzbek",
- "vie": "Vietnamese",
- "xho": "Xhosa",
- "yor": "Yoruba",
- "yue": "Cantonese",
- "zlm": "Colloquial Malay",
- "zsm": "Standard Malay",
- "zul": "Zulu",
- "fuv": "Nigerian Fulfulde",
- "gle": "Irish",
- "sat": "Santali",
- "pbt": "Southern Pashto",
- "zsm": "Standard Malay",
- "xho": "Xhosa",
- "kea": "Kabuverdianu",
- }
- def get_language_name(language_code):
- return language_code_to_name[language_code]
- text_source_codes = [
- "afr",
- "amh",
- "arb",
- "ary",
- "arz",
- "asm",
- "azj",
- "bel",
- "ben",
- "bos",
- "bul",
- "cat",
- "ceb",
- "ces",
- "ckb",
- "cmn",
- "cmn_Hant",
- "cym",
- "dan",
- "deu",
- "ell",
- "eng",
- "est",
- "eus",
- "fin",
- "fra",
- "fuv",
- "gaz",
- "gle",
- "glg",
- "guj",
- "heb",
- "hin",
- "hrv",
- "hun",
- "hye",
- "ibo",
- "ind",
- "isl",
- "ita",
- "jav",
- "jpn",
- "kan",
- "kat",
- "kaz",
- "khk",
- "khm",
- "kir",
- "kor",
- "lao",
- "lit",
- "lug",
- "luo",
- "lvs",
- "mai",
- "mal",
- "mar",
- "mkd",
- "mlt",
- "mni",
- "mya",
- "nld",
- "nno",
- "nob",
- "npi",
- "nya",
- "ory",
- "pan",
- "pbt",
- "pes",
- "pol",
- "por",
- "ron",
- "rus",
- "slk",
- "slv",
- "sna",
- "snd",
- "som",
- "spa",
- "srp",
- "swe",
- "swh",
- "tam",
- "tel",
- "tgk",
- "tgl",
- "tha",
- "tur",
- "ukr",
- "urd",
- "uzn",
- "vie",
- "yor",
- "yue",
- "zsm",
- "zul",
- ]
- text_target_codes = [
- "afr",
- "amh",
- "arb",
- "ary",
- "arz",
- "asm",
- "azj",
- "bel",
- "ben",
- "bos",
- "bul",
- "cat",
- "ceb",
- "ces",
- "ckb",
- "cmn",
- "cmn_Hant",
- "cym",
- "dan",
- "deu",
- "ell",
- "eng",
- "est",
- "eus",
- "fin",
- "fra",
- "fuv",
- "gaz",
- "gle",
- "glg",
- "guj",
- "heb",
- "hin",
- "hrv",
- "hun",
- "hye",
- "ibo",
- "ind",
- "isl",
- "ita",
- "jav",
- "jpn",
- "kan",
- "kat",
- "kaz",
- "khk",
- "khm",
- "kir",
- "kor",
- "lao",
- "lit",
- "lug",
- "luo",
- "lvs",
- "mai",
- "mal",
- "mar",
- "mkd",
- "mlt",
- "mni",
- "mya",
- "nld",
- "nno",
- "nob",
- "npi",
- "nya",
- "ory",
- "pan",
- "pbt",
- "pes",
- "pol",
- "por",
- "ron",
- "rus",
- "slk",
- "slv",
- "sna",
- "snd",
- "som",
- "spa",
- "srp",
- "swe",
- "swh",
- "tam",
- "tel",
- "tgk",
- "tgl",
- "tha",
- "tur",
- "ukr",
- "urd",
- "uzn",
- "vie",
- "yor",
- "yue",
- "zsm",
- "zul",
- ]
- speech_source_codes = [
- "afr",
- "amh",
- "arb",
- "ary",
- "arz",
- "asm",
- "ast",
- "azj",
- "bel",
- "ben",
- "bos",
- "bul",
- "cat",
- "ceb",
- "ces",
- "ckb",
- "cmn",
- "cmn_Hant",
- "cym",
- "dan",
- "deu",
- "ell",
- "eng",
- "est",
- "eus",
- "fin",
- "fra",
- "fuv",
- "gaz",
- "gle",
- "glg",
- "guj",
- "heb",
- "hin",
- "hrv",
- "hun",
- "hye",
- "ibo",
- "ind",
- "isl",
- "ita",
- "jav",
- "jpn",
- "kam",
- "kan",
- "kat",
- "kaz",
- "kea",
- "khk",
- "khm",
- "kir",
- "kor",
- "lao",
- "lit",
- "ltz",
- "lug",
- "luo",
- "lvs",
- "mai",
- "mal",
- "mar",
- "mkd",
- "mlt",
- "mni",
- "mya",
- "nld",
- "nno",
- "nob",
- "npi",
- "nya",
- "oci",
- "ory",
- "pan",
- "pbt",
- "pes",
- "pol",
- "por",
- "ron",
- "rus",
- "slk",
- "slv",
- "sna",
- "snd",
- "som",
- "spa",
- "srp",
- "swe",
- "swh",
- "tam",
- "tel",
- "tgk",
- "tgl",
- "tha",
- "tur",
- "ukr",
- "urd",
- "uzn",
- "vie",
- "xho",
- "yor",
- "yue",
- "zlm",
- "zul",
- ]
- speech_target_codes = [
- "arb",
- "ben",
- "cat",
- "ces",
- "cmn",
- "cmn_Hant",
- "cym",
- "dan",
- "deu",
- "eng",
- "est",
- "fin",
- "fra",
- "hin",
- "ind",
- "ita",
- "jpn",
- "kor",
- "mlt",
- "nld",
- "pes",
- "pol",
- "por",
- "ron",
- "rus",
- "slk",
- "spa",
- "swe",
- "swh",
- "tel",
- "tgl",
- "tha",
- "tur",
- "ukr",
- "urd",
- "uzn",
- "vie",
- ]
- text_source_languages = [get_language_name(code) for code in text_source_codes]
- text_target_languages = [get_language_name(code) for code in text_target_codes]
- speech_source_languages = [get_language_name(code) for code in speech_source_codes]
- speech_target_languages = [get_language_name(code) for code in speech_target_codes]
|