language_code_to_name.py 6.7 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465
  1. language_code_to_name = {
  2. "afr": "Afrikaans",
  3. "amh": "Amharic",
  4. "arb": "Modern Standard Arabic",
  5. "ary": "Moroccan Arabic",
  6. "arz": "Egyptian Arabic",
  7. "asm": "Assamese",
  8. "ast": "Asturian",
  9. "azj": "North Azerbaijani",
  10. "bel": "Belarusian",
  11. "ben": "Bengali",
  12. "bos": "Bosnian",
  13. "bul": "Bulgarian",
  14. "cat": "Catalan",
  15. "ceb": "Cebuano",
  16. "ces": "Czech",
  17. "ckb": "Central Kurdish",
  18. "cmn": "Mandarin Chinese",
  19. "cmn_Hant": "Traditional Mandarin Chinese",
  20. "cym": "Welsh",
  21. "dan": "Danish",
  22. "deu": "German",
  23. "ell": "Greek",
  24. "eng": "English",
  25. "est": "Estonian",
  26. "eus": "Basque",
  27. "fin": "Finnish",
  28. "fra": "French",
  29. "gaz": "West Central Oromo",
  30. "gle": "Irish",
  31. "glg": "Galician",
  32. "guj": "Gujarati",
  33. "heb": "Hebrew",
  34. "hin": "Hindi",
  35. "hrv": "Croatian",
  36. "hun": "Hungarian",
  37. "hye": "Armenian",
  38. "ibo": "Igbo",
  39. "ind": "Indonesian",
  40. "isl": "Icelandic",
  41. "ita": "Italian",
  42. "jav": "Javanese",
  43. "jpn": "Japanese",
  44. "kam": "Kamba",
  45. "kan": "Kannada",
  46. "kat": "Georgian",
  47. "kaz": "Kazakh",
  48. "kea": "Kabuverdianu",
  49. "khk": "Halh Mongolian",
  50. "khm": "Khmer",
  51. "kir": "Kyrgyz",
  52. "kor": "Korean",
  53. "lao": "Lao",
  54. "lit": "Lithuanian",
  55. "ltz": "Luxembourgish",
  56. "lug": "Ganda",
  57. "luo": "Luo",
  58. "lvs": "Standard Latvian",
  59. "mai": "Maithili",
  60. "mal": "Malayalam",
  61. "mar": "Marathi",
  62. "mkd": "Macedonian",
  63. "mlt": "Maltese",
  64. "mni": "Meitei",
  65. "mya": "Burmese",
  66. "nld": "Dutch",
  67. "nno": "Norwegian Nynorsk",
  68. "nob": "Norwegian Bokm\u00e5l",
  69. "npi": "Nepali",
  70. "nya": "Nyanja",
  71. "oci": "Occitan",
  72. "ory": "Odia",
  73. "pan": "Punjabi",
  74. "pbt": "Southern Pashto",
  75. "pes": "Western Persian",
  76. "pol": "Polish",
  77. "por": "Portuguese",
  78. "ron": "Romanian",
  79. "rus": "Russian",
  80. "slk": "Slovak",
  81. "slv": "Slovenian",
  82. "sna": "Shona",
  83. "snd": "Sindhi",
  84. "som": "Somali",
  85. "spa": "Spanish",
  86. "srp": "Serbian",
  87. "swe": "Swedish",
  88. "swh": "Swahili",
  89. "tam": "Tamil",
  90. "tel": "Telugu",
  91. "tgk": "Tajik",
  92. "tgl": "Tagalog",
  93. "tha": "Thai",
  94. "tur": "Turkish",
  95. "ukr": "Ukrainian",
  96. "urd": "Urdu",
  97. "uzn": "Northern Uzbek",
  98. "vie": "Vietnamese",
  99. "xho": "Xhosa",
  100. "yor": "Yoruba",
  101. "yue": "Cantonese",
  102. "zlm": "Colloquial Malay",
  103. "zsm": "Standard Malay",
  104. "zul": "Zulu",
  105. "fuv": "Nigerian Fulfulde",
  106. "gle": "Irish",
  107. "sat": "Santali",
  108. "pbt": "Southern Pashto",
  109. "zsm": "Standard Malay",
  110. "xho": "Xhosa",
  111. "kea": "Kabuverdianu",
  112. }
  113. def get_language_name(language_code):
  114. return language_code_to_name[language_code]
  115. text_source_codes = [
  116. "afr",
  117. "amh",
  118. "arb",
  119. "ary",
  120. "arz",
  121. "asm",
  122. "azj",
  123. "bel",
  124. "ben",
  125. "bos",
  126. "bul",
  127. "cat",
  128. "ceb",
  129. "ces",
  130. "ckb",
  131. "cmn",
  132. "cmn_Hant",
  133. "cym",
  134. "dan",
  135. "deu",
  136. "ell",
  137. "eng",
  138. "est",
  139. "eus",
  140. "fin",
  141. "fra",
  142. "fuv",
  143. "gaz",
  144. "gle",
  145. "glg",
  146. "guj",
  147. "heb",
  148. "hin",
  149. "hrv",
  150. "hun",
  151. "hye",
  152. "ibo",
  153. "ind",
  154. "isl",
  155. "ita",
  156. "jav",
  157. "jpn",
  158. "kan",
  159. "kat",
  160. "kaz",
  161. "khk",
  162. "khm",
  163. "kir",
  164. "kor",
  165. "lao",
  166. "lit",
  167. "lug",
  168. "luo",
  169. "lvs",
  170. "mai",
  171. "mal",
  172. "mar",
  173. "mkd",
  174. "mlt",
  175. "mni",
  176. "mya",
  177. "nld",
  178. "nno",
  179. "nob",
  180. "npi",
  181. "nya",
  182. "ory",
  183. "pan",
  184. "pbt",
  185. "pes",
  186. "pol",
  187. "por",
  188. "ron",
  189. "rus",
  190. "slk",
  191. "slv",
  192. "sna",
  193. "snd",
  194. "som",
  195. "spa",
  196. "srp",
  197. "swe",
  198. "swh",
  199. "tam",
  200. "tel",
  201. "tgk",
  202. "tgl",
  203. "tha",
  204. "tur",
  205. "ukr",
  206. "urd",
  207. "uzn",
  208. "vie",
  209. "yor",
  210. "yue",
  211. "zsm",
  212. "zul",
  213. ]
  214. text_target_codes = [
  215. "afr",
  216. "amh",
  217. "arb",
  218. "ary",
  219. "arz",
  220. "asm",
  221. "azj",
  222. "bel",
  223. "ben",
  224. "bos",
  225. "bul",
  226. "cat",
  227. "ceb",
  228. "ces",
  229. "ckb",
  230. "cmn",
  231. "cmn_Hant",
  232. "cym",
  233. "dan",
  234. "deu",
  235. "ell",
  236. "eng",
  237. "est",
  238. "eus",
  239. "fin",
  240. "fra",
  241. "fuv",
  242. "gaz",
  243. "gle",
  244. "glg",
  245. "guj",
  246. "heb",
  247. "hin",
  248. "hrv",
  249. "hun",
  250. "hye",
  251. "ibo",
  252. "ind",
  253. "isl",
  254. "ita",
  255. "jav",
  256. "jpn",
  257. "kan",
  258. "kat",
  259. "kaz",
  260. "khk",
  261. "khm",
  262. "kir",
  263. "kor",
  264. "lao",
  265. "lit",
  266. "lug",
  267. "luo",
  268. "lvs",
  269. "mai",
  270. "mal",
  271. "mar",
  272. "mkd",
  273. "mlt",
  274. "mni",
  275. "mya",
  276. "nld",
  277. "nno",
  278. "nob",
  279. "npi",
  280. "nya",
  281. "ory",
  282. "pan",
  283. "pbt",
  284. "pes",
  285. "pol",
  286. "por",
  287. "ron",
  288. "rus",
  289. "slk",
  290. "slv",
  291. "sna",
  292. "snd",
  293. "som",
  294. "spa",
  295. "srp",
  296. "swe",
  297. "swh",
  298. "tam",
  299. "tel",
  300. "tgk",
  301. "tgl",
  302. "tha",
  303. "tur",
  304. "ukr",
  305. "urd",
  306. "uzn",
  307. "vie",
  308. "yor",
  309. "yue",
  310. "zsm",
  311. "zul",
  312. ]
  313. speech_source_codes = [
  314. "afr",
  315. "amh",
  316. "arb",
  317. "ary",
  318. "arz",
  319. "asm",
  320. "ast",
  321. "azj",
  322. "bel",
  323. "ben",
  324. "bos",
  325. "bul",
  326. "cat",
  327. "ceb",
  328. "ces",
  329. "ckb",
  330. "cmn",
  331. "cmn_Hant",
  332. "cym",
  333. "dan",
  334. "deu",
  335. "ell",
  336. "eng",
  337. "est",
  338. "eus",
  339. "fin",
  340. "fra",
  341. "fuv",
  342. "gaz",
  343. "gle",
  344. "glg",
  345. "guj",
  346. "heb",
  347. "hin",
  348. "hrv",
  349. "hun",
  350. "hye",
  351. "ibo",
  352. "ind",
  353. "isl",
  354. "ita",
  355. "jav",
  356. "jpn",
  357. "kam",
  358. "kan",
  359. "kat",
  360. "kaz",
  361. "kea",
  362. "khk",
  363. "khm",
  364. "kir",
  365. "kor",
  366. "lao",
  367. "lit",
  368. "ltz",
  369. "lug",
  370. "luo",
  371. "lvs",
  372. "mai",
  373. "mal",
  374. "mar",
  375. "mkd",
  376. "mlt",
  377. "mni",
  378. "mya",
  379. "nld",
  380. "nno",
  381. "nob",
  382. "npi",
  383. "nya",
  384. "oci",
  385. "ory",
  386. "pan",
  387. "pbt",
  388. "pes",
  389. "pol",
  390. "por",
  391. "ron",
  392. "rus",
  393. "slk",
  394. "slv",
  395. "sna",
  396. "snd",
  397. "som",
  398. "spa",
  399. "srp",
  400. "swe",
  401. "swh",
  402. "tam",
  403. "tel",
  404. "tgk",
  405. "tgl",
  406. "tha",
  407. "tur",
  408. "ukr",
  409. "urd",
  410. "uzn",
  411. "vie",
  412. "xho",
  413. "yor",
  414. "yue",
  415. "zlm",
  416. "zul",
  417. ]
  418. speech_target_codes = [
  419. "arb",
  420. "ben",
  421. "cat",
  422. "ces",
  423. "cmn",
  424. "cmn_Hant",
  425. "cym",
  426. "dan",
  427. "deu",
  428. "eng",
  429. "est",
  430. "fin",
  431. "fra",
  432. "hin",
  433. "ind",
  434. "ita",
  435. "jpn",
  436. "kor",
  437. "mlt",
  438. "nld",
  439. "pes",
  440. "pol",
  441. "por",
  442. "ron",
  443. "rus",
  444. "slk",
  445. "spa",
  446. "swe",
  447. "swh",
  448. "tel",
  449. "tgl",
  450. "tha",
  451. "tur",
  452. "ukr",
  453. "urd",
  454. "uzn",
  455. "vie",
  456. ]
  457. text_source_languages = [get_language_name(code) for code in text_source_codes]
  458. text_target_languages = [get_language_name(code) for code in text_target_codes]
  459. speech_source_languages = [get_language_name(code) for code in speech_source_codes]
  460. speech_target_languages = [get_language_name(code) for code in speech_target_codes]