question-answer#

Synthetic Malaysian QA#

Generated common QA using ChatGPT3 for,

  1. Agrobank

  2. Bank Negara Malaysia

  3. Bank Perusahaan Kecil dan Sederhana Malaysia

  4. Bank Rakyat

  5. Bank Simpanan Nasional

  6. Bursa Malaysia

  7. Dewan Bahasa dan Pustaka

  8. Institut Kesihatan Umum

  9. Institut Penyelidikan Perubatan

  10. Institut Penyelidikan Sains dan Teknologi Pertahanan

  11. Institut Penyelidikan Tingkahlaku Kesihatan

  12. Institut Penyelidikan dan Kemajuan Pertanian Malaysia

  13. Jabatan Akauntan Negara

  14. Jabatan Bomba dan Penyelamat Malaysia

  15. Jabatan Hal Ehwal Kesatuan Sekerja

  16. Jabatan Hal Ehwal Veteran

  17. Jabatan Imigresen Malaysia

  18. Jabatan Kastam Diraja Malaysia

  19. Jabatan Kebajikan Masyarakat

  20. Jabatan Kemajuan Orang Asli

  21. Jabatan Kerajaan Tempatan

  22. Jabatan Kerja Raya

  23. Jabatan Keselamatan Jalan Raya

  24. Jabatan Keselamatan dan Keselamatan Pekerjaan

  25. Jabatan Ketua Hakim Peguam

  26. Jabatan Landskap Negara

  27. Jabatan Latihan Khidmat Negara

  28. Jabatan Laut Malaysia

  29. Jabatan Pembangunan Wanita

  30. Jabatan Pendaftaran Pertubuhan Malaysia

  31. Jabatan Penerangan Malaysia

  32. Jabatan Pengangkutan Jalan

  33. Jabatan Pengurusan Sisa Pepejal Negara

  34. Jabatan Penilaian dan Perkhidmatan Negara

  35. Jabatan Penjara Malaysia

  36. Jabatan Perancangan Bandar dan Desa

  37. Jabatan Perdana Menteri Malaysia

  38. Jabatan Perhubungan Perusahaan

  39. Jabatan Perikanan Malaysia

  40. Jabatan Perkhidmatan Kuarantin dan Pemeriksaan Malaysia

  41. Jabatan Perkhidmatan Veterinar

  42. Jabatan Pertanian Malaysia

  43. Jabatan Perumahan Negara

  44. Jabatan Perumahan dan Pengurusan Strata

  45. Jabatan Sukarelawan Malaysia

  46. Jabatan Tenaga Kerja

  47. Jabatan Tenaga Kerja Manusia

  48. Khazanah Nasional

  49. Kolej Pertanian

  50. Kumpulan Wang Persaraan

  51. Kumpulan Wang Simpanan Pekerja

  52. Lembaga Hasil Dalam Negeri Malaysia

  53. Lembaga Kemajuan Ikan Malaysia

  54. Lembaga Kemajuan Pertanian Kemubu

  55. Lembaga Kemajuan Pertanian Muda

  56. Lembaga Pelabuhan Bintulu

  57. Lembaga Pelabuhan Johor

  58. Lembaga Pelabuhan Klang

  59. Lembaga Pelabuhan Kuantan

  60. Lembaga Pemasaran Pertanian Persekutuan

  61. Lembaga Pembangunan Pelaburan Malaysia

  62. Lembaga Pembiayaan Perumahan Sektor Awam

  63. Lembaga Penapisan Filem

  64. Lembaga Penduduk dan Pembangunan Keluarga Negara

  65. Lembaga Peperiksaan Malaysia

  66. Lembaga Perindustrian Nanas Malaysia

  67. Lembaga Perkhidmatan Kewangan Labuan

  68. Lembaga Pertubuhan Peladang

  69. Lembaga Promosi Kesihatan Malaysia

  70. Lembaga Totalisator Malaysia

  71. Pusat Pergigian Kanak-Kanak & Kolej Latihan Pergigian Malaysia

Synthetic Malaysian QA#

Generated common QA using ChatGPT4 for,

  1. politics

  2. socioeconomy

  3. culture

  4. gender

  5. religion

  6. sociology

  7. social class

  8. technology

  9. ethnicity

  10. infrastructure

  11. health

  12. education

  13. ecology

  14. party politics

  15. diplomacy

  16. history

  17. cuisine

  18. microeconomics

  19. business

  20. artificial intelligence

  21. law

  22. negeri johor

  23. negeri kedah

  24. negeri kelantan

  25. negeri melaka

  26. negeri negeri sembilan

  27. negeri pahang

  28. negeri perak

  29. negeri perlis

  30. negeri pulau pinang

  31. negeri selangor

  32. negeri terengganu

  33. negeri sabah

  34. negeri sarawak

  35. kuala lumpur

  36. negeri labuan

  37. putrajaya

  38. najib razak

  39. anwar ibrahim

  40. parti keadilan rakyat

  41. parti islam semalaysia

  42. dr mahathir mohamad

  43. barisan nasional

  44. constitutional monarchy

  45. parliamentary democracy

  46. political economy

  47. political dynamic

  48. empowerment of youths

  49. kebebasan bersuara

  50. sastera

  51. tatabahasa

  52. kesusasteraan melayu

  53. pantun

  54. sajak

  55. syair

  56. hadis

  57. hukum aqidah islam

  58. hukum fiqah islam

download#

Notes to myself#

  1. Filter short questions.

Natural Questions#

Original paper, https://research.google/pubs/pub47761/

download#

Data structure is like this,

Question <> Answer
  1. download train set here, https://f000.backblazeb2.com/file/malay-dataset/qa/natural/translated-train.json

  2. download validation set here, https://f000.backblazeb2.com/file/malay-dataset/qa/natural/translated-validation.json

Citation#

@article{47761,
title        = {Natural Questions: a Benchmark for Question Answering Research},
author       = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal      = {Transactions of the Association of Computational Linguistics}
}

SQUAD#

Thanks to `The Translate-Align-Retrieve (TAR) method for synthetic QA corpora generation <https://github.com/ccasimiro88/TranslateAlignRetrieve>`__ for steps to translate SQUAD dataset.

Original website, https://rajpurkar.github.io/SQuAD-explorer/

Original paper, https://arxiv.org/abs/1806.03822

Step to reproduce the translation at notebook.

Citation#

@article{DBLP:journals/corr/abs-1806-03822,
author    = {Pranav Rajpurkar and
Robin Jia and
Percy Liang},
title     = {Know What You Don't Know: Unanswerable Questions for SQuAD},
journal   = {CoRR},
volume    = {abs/1806.03822},
year      = {2018},
url       = {http://arxiv.org/abs/1806.03822},
archivePrefix = {arXiv},
eprint    = {1806.03822},
timestamp = {Mon, 13 Aug 2018 16:48:21 +0200},
biburl    = {https://dblp.org/rec/journals/corr/abs-1806-03822.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

Supervised#

We will share supervised answers from human in supervised.

how-to#

We use Malaya translation module to translate EN -> MS.

  1. Download alignment dataset from Malay-Dataset/alignment.

  2. Run notebooks.