chatbot ======= LLaVA-Pretrain -------------- Original repository, https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-LLaVA-Pretrain/resolve/main/blip_laion_cc_sbu_558k.translated.jsonl NSText2SQL ---------- Original repository, https://huggingface.co/datasets/NumbersStation/NSText2SQL Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-NSText2SQL/resolve/main/combine.jsonl Citation ~~~~~~~~ .. code:: bibtex @software{numbersstation2023NSText2SQL, author = {Numbers Station Labs}, title = {NSText2SQL: An Open Source Text-to-SQL Dataset for Foundation Model Training}, month = {July}, year = {2023}, url = {https://github.com/NumbersStationAI/NSQL}, } OIG --- Original repository, https://huggingface.co/datasets/laion/OIG Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-OIG/resolve/main/unified_abstract_infill.translated.jsonl 2. https://huggingface.co/datasets/mesolitica/google-translate-OIG/resolve/main/unified_chip2.translated.jsonl Cleaned Alpaca -------------- Original repository, https://github.com/tatsu-lab/stanford_alpaca, cleaned dataset at https://github.com/gururise/AlpacaDataCleaned#issues-with-the-original-dataset Translate using ChatGPT 3.5. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-alpaca-clean/resolve/main/translated-alpaca_data_cleaned.json Citation ~~~~~~~~ .. code:: bibtex @misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}}, } Blended Skill Talk ------------------ Original paper, https://arxiv.org/abs/2004.08449 download ~~~~~~~~ 1. blended_skill_talk.json.translate, https://f000.backblazeb2.com/file/malay-dataset/chatbot/blended-skill-talk/blended_skill_talk.json.translate Citation ~~~~~~~~ .. code:: bibtex @article{DBLP:journals/corr/abs-2004-08449, author = {Eric Michael Smith and Mary Williamson and Kurt Shuster and Jason Weston and Y{-}Lan Boureau}, title = {Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills}, journal = {CoRR}, volume = {abs/2004.08449}, year = {2020}, url = {https://arxiv.org/abs/2004.08449}, archivePrefix = {arXiv}, eprint = {2004.08449}, timestamp = {Sat, 23 Jan 2021 01:20:50 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2004-08449.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } Camel AI -------- Originally from https://huggingface.co/camel-ai, we only translate math, physics, chemistry and biology. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-camel-ai/resolve/main/biology.translated.jsonl 2. https://huggingface.co/datasets/mesolitica/google-translate-camel-ai/resolve/main/chemistry.translated.jsonl 3. https://huggingface.co/datasets/mesolitica/google-translate-camel-ai/resolve/main/math.translated.jsonl 4. https://huggingface.co/datasets/mesolitica/google-translate-camel-ai/resolve/main/physics.translated.jsonl Chat Alpaca ----------- Originally from https://github.com/cascip/ChatAlpaca download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-chatalpaca/resolve/main/chatalpaca_texts.jsonl ChatGPT4 Code Instruct ---------------------- Originally from https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1, translate and answer using ChatGPT4. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt4-code-instruct/resolve/main/synthetic-codealpaca-v1-chatgpt4.jsonl Code Context ------------ Original repository, https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/camel/code_context.json download ~~~~~~~~ 1. Translate using ChatGPT3.5, https://huggingface.co/datasets/mesolitica/translated-code-context/resolve/main/combine.translated.jsonl 2. Translate using Malaya T5, https://huggingface.co/datasets/mesolitica/translated-code-context/blob/main/code_context.jsonl.t5.translated Code Instruct Multiturn ----------------------- Originally from https://huggingface.co/datasets/TokenBender/glaive_coder_raw_text, use Ultrachat template to generate multiturn using ChatGPT3.5 download ~~~~~~~~ 1. one turn only, https://huggingface.co/datasets/mesolitica/chatgpt-malay-instructions/resolve/main/synthetic-glaive_coder_raw_text.jsonl 2. multiturn, https://huggingface.co/datasets/mesolitica/chatgpt-code-instruct-multiturn/resolve/main/ultrachat-glaive_coder_raw_text.jsonl Code Instructions 122k ---------------------- Original repository, https://huggingface.co/datasets/TokenBender/code_instructions_122k_alpaca_style Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-code-instructions-122k/resolve/main/code_instructions_120k.jsonl.requested Code Instructions ----------------- Original repository, https://huggingface.co/datasets/sahil2801/code_instructions_120k Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-code-instructions/resolve/main/code-instructions.translated.jsonl commitpackft ------------ Original repository, https://huggingface.co/datasets/bigcode/commitpackft Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-commitpackft/resolve/main/commitpackft.jsonl.translated competition_math ---------------- Original repository, https://huggingface.co/datasets/competition_math Translate using Translateer download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-competition_math/resolve/main/gather-competition-math.jsonl ConvAI2 ------- Original website, https://parl.ai/projects/convai2/ Original paper, https://arxiv.org/abs/1902.00098? download ~~~~~~~~ 1. convai2-0.json.translate, https://f000.backblazeb2.com/file/malay-dataset/chatbot/convai2/convai2-0.json.translate 2. convai2-100000.json.translate, https://f000.backblazeb2.com/file/malay-dataset/chatbot/convai2/convai2-100000.json.translate Citation ~~~~~~~~ .. code:: bibtex @article{DBLP:journals/corr/abs-1902-00098, author = {Emily Dinan and Varvara Logacheva and Valentin Malykh and Alexander H. Miller and Kurt Shuster and Jack Urbanek and Douwe Kiela and Arthur Szlam and Iulian Serban and Ryan Lowe and Shrimai Prabhumoye and Alan W. Black and Alexander I. Rudnicky and Jason Williams and Joelle Pineau and Mikhail S. Burtsev and Jason Weston}, title = {The Second Conversational Intelligence Challenge (ConvAI2)}, journal = {CoRR}, volume = {abs/1902.00098}, year = {2019}, url = {http://arxiv.org/abs/1902.00098}, archivePrefix = {arXiv}, eprint = {1902.00098}, timestamp = {Sat, 23 Jan 2021 01:11:58 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1902-00098.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } DialoGPT -------- Original website, https://github.com/microsoft/DialoGPT Original paper, https://arxiv.org/abs/1911.00536 Download ~~~~~~~~ jsonl format, check `download.txt `__. Citation ~~~~~~~~ .. code:: bibtex @article{DBLP:journals/corr/abs-1911-00536, author = {Yizhe Zhang and Siqi Sun and Michel Galley and Yen{-}Chun Chen and Chris Brockett and Xiang Gao and Jianfeng Gao and Jingjing Liu and Bill Dolan}, title = {DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation}, journal = {CoRR}, volume = {abs/1911.00536}, year = {2019}, url = {http://arxiv.org/abs/1911.00536}, archivePrefix = {arXiv}, eprint = {1911.00536}, timestamp = {Tue, 05 Jan 2021 15:06:52 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1911-00536.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } Dolly15k -------- Original repository, https://github.com/databrickslabs/dolly Translate using ChatGPT 3.5. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-dolly15k/resolve/main/translated-dolly-15k.json Citation ~~~~~~~~ .. code:: bibtex @misc{gpt4all, author = {databrickslabs}, title = {Dolly}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/databrickslabs/dolly}}, } Evol instruction Function Call ------------------------------ Evolve https://huggingface.co/datasets/glaiveai/glaive-function-calling-v2, thanks to https://github.com/aisyahrzk and https://github.com/KamarulAdha for finding the best prompts to evolve. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-malay-function-call/resolve/main/function-calls.jsonl 2. https://huggingface.co/datasets/mesolitica/chatgpt-malay-function-call/resolve/main/function-calls-complex.jsonl Evolution instructions ---------------------- Originally from https://github.com/nlpxucan/WizardLM/tree/main/Evol_Instruct, added some prompts to become malaysian context. Generated using ChatGPT3.5. We use base prompts from, 1. https://github.com/gururise/AlpacaDataCleaned/blob/main/alpaca_data_cleaned.json 2. https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k/resolve/main/WizardLM_evol_instruct_V2_143k.json 3. https://huggingface.co/datasets/TokenBender/unnatural_code_instructions_20M/resolve/main/unnatural_training_data_unique.jsonl download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-malay-instructions/resolve/main/synthetic-alpaca_data_cleaned.jsonl glaive-code-assistant-v2 ------------------------ Original repository, https://huggingface.co/datasets/glaiveai/glaive-code-assistant-v2 Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-glaive-code-assistant-v2/resolve/main/glaive_code_assistant_v2.translated.jsonl glaive_coder_raw_text --------------------- Original repository, https://huggingface.co/datasets/TokenBender/glaive_coder_raw_text Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-glaive_coder_raw_text/resolve/main/glaive_coder_raw_text.jsonl.requested 2. https://huggingface.co/datasets/mesolitica/translated-glaive_coder_raw_text/resolve/main/glaive_dataset_recreated.translated.jsonl glaive-function-calling ----------------------- Original repository, https://huggingface.co/datasets/glaiveai/glaive-function-calling Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-glaive-function-call/resolve/main/function-call.translated.jsonl?download=true GPT4ALL-v1.3 ------------ Original repository, https://github.com/nomic-ai/gpt4all Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-gpt4all-v1.3/resolve/main/translated-gpt4all-filtered-noncode.jsonl Citation ~~~~~~~~ .. code:: bibtex @misc{gpt4all, author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar}, title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/nomic-ai/gpt4all}}, } GPT4ALL ------- Original repository, https://github.com/nomic-ai/gpt4all Translate using ChatGPT 3.5. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/chatgpt-gpt4all/resolve/main/translated-gpt4all-code.json 2. https://huggingface.co/datasets/mesolitica/chatgpt-gpt4all/resolve/main/translated-gpt4all.json Citation ~~~~~~~~ .. code:: bibtex @misc{gpt4all, author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar}, title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/nomic-ai/gpt4all}}, } Lamini ------ Original repository, https://github.com/mbzuai-nlp/LaMini-LM Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-lamini-lm/resolve/main/translated-lamini-lm-filtered-noncode.jsonl Citation ~~~~~~~~ .. code:: bibtex @article{lamini-lm, author = {Minghao Wu and Abdul Waheed and Chiyu Zhang and Muhammad Abdul-Mageed and Alham Fikri Aji }, title = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions}, journal = {CoRR}, volume = {abs/2304.14402}, year = {2023}, url = {https://arxiv.org/abs/2304.14402}, eprinttype = {arXiv}, eprint = {2304.14402} } LLaVA-Instruct-150K ------------------- Original repository, https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-LLaVA-Instruct-150K/resolve/main/conversation_58k.translated.jsonl 2. https://huggingface.co/datasets/mesolitica/translated-LLaVA-Instruct-150K/resolve/main/complex_reasoning_77k.translated.jsonl 3. https://huggingface.co/datasets/mesolitica/translated-LLaVA-Instruct-150K/resolve/main/detail_23k.translated.jsonl Ultrachat like using Malaysian context -------------------------------------- Prepare multiturn dialogue between user and assistant for malaysian context, 1. Astroawani, https://huggingface.co/datasets/malaysia-ai/crawl-astroawani 2. Crossref ``melayu`` papers, https://huggingface.co/datasets/mesolitica/crawl-my-website/resolve/main/melayu-pdf.jsonl 3. Epenerbitan, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/e-penerbitan.jsonl 4. gov.my pdf, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/gov.my.jsonl 5. JurnalDBP, https://github.com/mesolitica/malaysian-dataset/tree/master/crawl/jurnaldbp 6. lom.agc.gov.my.jsonl, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/lom.agc.gov.my.jsonl 7. MS Wikipedia, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/wikipedia-2023-10-01.jsonl 8. Hansard, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/hansard.jsonl 9. Textbooks, https://huggingface.co/datasets/open-phi/textbooks 10. https://maktabahalbakri.com/ 11. https://muftiwp.gov.my/ms/ Example of data, .. code:: json [{'role': 'context', 'content': 'LIGA\xa0Malaysia (Liga-M) terus menerima tamparan hebat apabila UiTM FC sah menarik diri daripada saingan Liga Super musim ini bagi menyusuli jejak Petaling Jaya City.\n\n\n\r\nPerkara itu disahkan sendiri oleh Presiden The Lion Troops, Profesor Dr. Sazili Shahibi, selepas dua musim beraksi di pentas Liga Super.\n\n\n\r\nSelain masalah kewangan, Dr Sazili menjelaskan ada punca lain mengapa pihak pengurusan mengibarkan bendera putih.\n\n\n \n \n\r\n"Ahli Lembaga Pengarah UiTM telah bermesyuarat dan (kami mengambil) keputusan untuk menarik diri daripada liga pada musim depan.\n\n\n\r\n"Kewangan adalah salah faktornya, tapi kami rasa daripada segi kemampuan, ia tidak sesuai buat pemain-pemain kami," katanya ketika dihubungi \nAstro Arena\n\xa0pada Rabu.\n\n\n\r\nSazili juga berhasrat memaklumkan UiTM bakal beralih ke saingan Liga M3 musim ini.\n\n\n\r\nUntuk rekod, UiTM muncul pasukan berstatus universiti pertama yang layak beraksi dalam Liga Super.\n\n\n\r\nDalam pada itu, Liga Bolasepak Malaysia (MFLhanya akan menjelaskan situasi berkenaan menerusi kenyataan rasmi bakal dalam masa terdekat selepas hanya 14 pasukan yang akan bertanding di pentas Liga Super musim ini. -\nStadium Astro', 'content_ms': None, 'indon': False}, {'role': 'user', 'content': 'What are the reasons given by UiTM FC for withdrawing from Liga Malaysia?', 'content_ms': 'Apakah alasan yang diberikan oleh UiTM FC kerana menarik diri daripada Liga Malaysia?', 'indon': False}, {'role': 'assistant', 'content': 'Menurut Presiden UiTM FC, Profesor Dr. Sazili Shahibi, mereka mengambil keputusan untuk menarik diri daripada Liga Malaysia musim ini atas beberapa sebab. Salah satu sebab utamanya adalah masalah kewangan yang dihadapi oleh pasukan. Selain itu, beliau juga menyebut bahawa kemampuan pasukan UiTM tidak sesuai untuk bersaing dalam Liga Super. Selain masalah ini, tidak ada sebab lain yang diberikan dalam laporan tersebut.', 'content_ms': 'Menurut Presiden UiTM FC, Profesor Dr. Sazili Shahibi, mereka membuat keputusan untuk menarik diri daripada Liga Malaysia musim ini atas beberapa sebab. Salah satu sebab utama ialah masalah kewangan yang dihadapi oleh pasukan. Selain itu, beliau juga menyatakan bahawa keupayaan pasukan UiTM tidak sesuai untuk bersaing dalam Liga Super. Selain masalah ini, tiada sebab lain diberikan dalam laporan tersebut.', 'indon': False}, {'role': 'user', 'content': 'Alamak, memang sedihlah tengok UiTM FC tarik diri dari Liga Malaysia. Macam mana pula dengan penonton setia yang selalu sokong pasukan tu? Harap-harap ada jalan penyelesaian untuk masalah kewangan mereka.', 'content_ms': 'Alamak, memang sedih tengok UiTM FC menarik diri dari Liga Malaysia. Bagaimana pula dengan penonton setia yang selalu menyokong pasukan itu? Harap-harap ada jalan penyelesaian untuk masalah kewangan mereka.', 'indon': False}, {'role': 'assistant', 'content': 'Ya, memang sedih melihat UiTM FC menarik diri dari Liga Malaysia. Bagi penonton setia yang sentiasa menyokong pasukan tersebut, tentu mereka juga berasa kecewa. Kami juga berharap ada jalan penyelesaian untuk masalah kewangan yang dihadapi oleh UiTM FC. Mungkin pihak pengurusan boleh mencari sponsor atau menyusun semula strategi kewangan untuk membolehkan pasukan tersebut terus beraksi dalam liga pada masa hadapan. Semoga mereka dapat menemui penyelesaian yang baik dan kembali bersaing di pentas bola sepak Malaysia.', 'content_ms': 'Ya, memang sedih melihat UiTM FC menarik diri dari Liga Malaysia. Bagi penonton setia yang sentiasa menyokong pasukan tersebut, tentu mereka juga berasa kecewa. Kami juga berharap ada jalan penyelesaian untuk masalah kewangan yang dihadapi oleh UiTM FC. Mungkin pihak pengurusan boleh mencari penaja atau menyusun semula strategi kewangan untuk membolehkan pasukan tersebut terus beraksi dalam liga pada masa hadapan. Semoga mereka dapat menemui penyelesaian yang baik dan kembali bersaing di pentas bola sepak Malaysia.', 'indon': False}, {'role': 'user', 'content': 'Ya betul tu, banyak peminat setia UiTM FC yang akan kecewa dengan keputusan mereka tarik diri dari Liga Malaysia. Harapnya pihak pengurusan dapat cari jalan penyelesaian secepat mungkin supaya pasukan tu masih dapat beraksi dalam liga. Saya pun tak sabar nak tengok prestasi UiTM FC lagi musim hadapan. Semoga ada berita baik dalam masa terdekat.', 'content_ms': 'Ya, betul tu. Banyak peminat setia UiTM FC yang akan kecewa dengan keputusan mereka menarik diri dari Liga Malaysia. Harapnya pihak pengurusan dapat mencari jalan penyelesaian secepat mungkin supaya pasukan itu masih dapat beraksi dalam liga. Saya pun tak sabar nak tengok prestasi UiTM FC lagi musim depan. Semoga ada berita baik dalam masa terdekat.', 'indon': False}, {'role': 'assistant', 'content': 'Saya juga setuju dengan anda. Semoga pihak pengurusan UiTM FC dapat mencari jalan penyelesaian secepat mungkin agar pasukan tersebut masih dapat berlaga dalam Liga Malaysia. Benar, banyak peminat yang ingin melihat prestasi UiTM FC musim hadapan. Mari kita nantikan berita baik daripada mereka dalam masa terdekat. Harapnya mereka dapat mengatasi masalah kewangan dan kembali membanggakan para penyokong. Kita terus sokong UiTM FC!', 'content_ms': 'Saya juga bersetuju dengan anda. Semoga pihak pengurusan UiTM FC dapat mencari jalan penyelesaian secepat mungkin supaya pasukan tersebut masih dapat bersaing dalam Liga Malaysia. Benar, ramai peminat yang ingin melihat prestasi UiTM FC musim depan. Mari kita nantikan berita baik daripada mereka dalam masa terdekat. Harapnya mereka dapat mengatasi masalah kewangan dan kembali membanggakan para penyokong. Kita terus sokong UiTM FC!', 'indon': False}, {'role': 'user', 'content': 'Ya lah, harapnya UiTM FC dapat dapat mencari penyelesaian yang cepat. Penyokong setia UiTM FC mesti excited nak tengok pasukan beraksi lagi musim hadapan. Semoga ada berita gembira dalam masa terdekat!', 'content_ms': 'Ya lah, harapnya UiTM FC dapat mencari penyelesaian yang cepat. Penyokong setia UiTM FC mesti teruja untuk melihat pasukan beraksi lagi musim depan. Semoga ada berita gembira dalam masa terdekat!', 'indon': False}, {'role': 'assistant', 'content': 'Betul tu, penyokong setia UiTM FC pasti sangat teruja melihat pasukan beraksi di musim hadapan. Kita harap pihak pengurusan dapat mencari penyelesaian dengan pantas supaya pasukan dapat kembali ke gelanggang. Kita tunggu berita gembira yang akan datang dan terus menyokong UiTM FC dengan penuh semangat. Biar bola sepak Malaysia sentiasa berwarna dengan kehadiran pasukan hebat seperti UiTM FC!', 'content_ms': 'Betul tu, penyokong setia UiTM FC pasti sangat teruja melihat pasukan beraksi pada musim depan. Kita harap pihak pengurusan dapat mencari penyelesaian dengan pantas supaya pasukan dapat kembali ke gelanggang. Kita tunggu berita gembira yang akan datang dan terus menyokong UiTM FC dengan penuh semangat. Biar bola sepak Malaysia sentiasa berwarna dengan kehadiran pasukan hebat seperti UiTM FC!', 'indon': False}, {'role': 'user', 'content': 'Ya betul tu, memang berharap pasukan UiTM FC dapat segera mencari jalan penyelesaian. Setiap pasukan memang perlu sokongan dan kami sebagai penyokong setia akan terus memberikan sokongan kepada pasukan kesayangan kami. Semoga ada berita gembira yang akan datang!', 'content_ms': 'Ya, betul tu. Memang berharap pasukan UiTM FC dapat segera mencari jalan penyelesaian. Setiap pasukan memang perlukan sokongan dan kami sebagai penyokong setia akan terus memberikan sokongan kepada pasukan kesayangan kami. Semoga ada berita gembira yang akan datang!', 'indon': False}, {'role': 'assistant', 'content': 'Setiap pasukan memang memerlukan sokongan daripada penyokong setia seperti anda. Anda adalah aset berharga bagi pasukan UiTM FC. Teruskan menyokong dengan penuh semangat dan harapan. Kita berdoa agar pihak pengurusan dapat mencari jalan penyelesaian dengan segera. Bersama-sama, mari kita nantikan berita gembira yang akan datang dan terus memberikan sokongan kepada pasukan kesayangan kita. UiTM FC pasti akan bangkit dan menyampaikan prestasi yang cemerlang musim hadapan!', 'content_ms': 'Setiap pasukan memang memerlukan sokongan daripada penyokong setia seperti anda. Anda adalah aset berharga bagi pasukan UiTM FC. Teruskan menyokong dengan penuh semangat dan harapan. Kita berdoa agar pihak pengurusan dapat mencari jalan penyelesaian dengan segera. Bersama-sama, mari kita nantikan berita gembira yang akan datang dan terus memberikan sokongan kepada pasukan kesayangan kita. UiTM FC pasti akan bangkit dan menyampaikan prestasi yang cemerlang musim depan!', 'indon': False}] Malaysian Youtube Audio Instructions ------------------------------------ Convert from speech to text using Whisper Large V3 after that generate multiturn using Mixtral Instruct, example data, :: {'context': 'anda tahu keuntungan boleh lebih tinggi daripada keuntungan kewangan rumah maka saya tidak akan mencari dalam akaun saya akan mencari ke dalam ethereum atau beberapa crypto punks bergantung pada faktor risiko anda kerana rumah kajang dihantar tidak mengganggu dsr saya sejauh ini jadi sekarang apa posisi saya untuk mendapatkan kewangan ketiga jadi mungkin setelah melihat sekeliling saya menemui seorang penjual yang dapat menutupi perhubungan tetapi bank hanya menerima 70% dari itu saya boleh membayar perbezaan dengan menggunakan wang ini kerana sekali lagi ia menyusahkan saya dan aset tetapi jika anda tidak selesa dengan mencari', 'chat': [{'role': 'user', 'content': 'Why might someone consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate?', 'content_ms': 'Mengapakah seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah?'}, {'role': 'assistant', 'content': 'There are several reasons why someone might consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate:\n\n1. Potential for higher returns: Cryptocurrencies have the potential for much higher returns compared to traditional financial investments. While the real estate market can be profitable, the potential for exponential growth in the cryptocurrency market is significantly higher.\n2. Diversification: Investing in cryptocurrencies can provide a diversification benefit to an investment portfolio. By investing in a variety of assets, including cryptocurrencies, investors can spread their risk and potentially increase their overall returns.\n3. Liquidity: Cryptocurrencies are generally more liquid than real estate investments. It is easier to buy and sell cryptocurrencies, and they can be quickly converted into cash.\n4. Accessibility: Investing in cryptocurrencies is generally more accessible than investing in real estate. There are fewer barriers to entry, and it is easier to get started with a smaller amount of money.\n5. Decentralization: Cryptocurrencies are decentralized, meaning they are not controlled by any government or financial institution. This can provide a level of independence and autonomy that is not possible with traditional financial investments.\n\nHowever, it is important to note that investing in cryptocurrencies is also riskier than traditional financial investments. The value of cryptocurrencies can be highly volatile, and there is a risk of losing all or a significant portion of the investment. Therefore, it is important to carefully consider your own risk tolerance and financial situation before investing in cryptocurrencies.', 'content_ms': 'Terdapat beberapa sebab mengapa seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah:\n\n1. Potensi untuk pulangan yang lebih tinggi: Mata wang kripto mempunyai potensi untuk pulangan yang lebih tinggi berbanding dengan pelaburan kewangan tradisional. Walaupun pasaran hartanah boleh menguntungkan, potensi pertumbuhan eksponen dalam pasaran mata wang kripto adalah jauh lebih tinggi.\n2. Kepelbagaian: Melabur dalam mata wang kripto boleh memberikan manfaat kepelbagaian kepada portfolio pelaburan. Dengan melabur dalam pelbagai aset, termasuk mata wang kripto, pelabur boleh menyebarkan risiko mereka dan berpotensi meningkatkan pulangan keseluruhan mereka.\n3. Kecairan: Mata wang kripto biasanya lebih cair daripada pelaburan hartanah. Lebih mudah untuk membeli dan menjual mata wang kripto, dan ia boleh ditukar dengan cepat kepada wang tunai.\n4. Kebolehcapaian: Melabur dalam mata wang kripto secara umumnya lebih mudah diakses daripada melabur dalam hartanah. Terdapat lebih sedikit halangan untuk masuk, dan lebih mudah untuk bermula dengan jumlah wang yang lebih kecil.\n5. Desentralisasi: Mata wang kripto adalah terdesentralisasi, bermakna ia tidak dikawal oleh mana-mana kerajaan atau institusi kewangan. Ini boleh memberikan tahap kebebasan dan autonomi yang tidak mungkin dilakukan dengan pelaburan kewangan tradisional.\n\nWalau bagaimanapun, adalah penting untuk ambil perhatian bahawa melabur dalam mata wang kripto juga lebih berisiko daripada pelaburan kewangan tradisional. Nilai mata wang kripto boleh menjadi sangat tidak menentu, dan terdapat risiko kehilangan semua atau sebahagian besar pelaburan. Oleh itu, adalah penting untuk mempertimbangkan dengan teliti toleransi risiko dan keadaan kewangan anda sendiri sebelum melabur dalam mata wang kripto.'}, {'role': 'user', 'content': 'mengapa orang menggunakan blockchain untuk mengurus siasia digital', 'content_ms': 'mengapa orang menggunakan blockchain untuk menguruskan sisa digital'}, {'role': 'assistant', 'content': 'There are several reasons why people use blockchain technology to manage digital assets:\n\n1. Security: Blockchain technology provides a high level of security for managing digital assets. The decentralized nature of blockchain makes it difficult for hackers to manipulate or steal digital assets.\n2. Transparency: Blockchain provides a transparent record of all transactions related to a digital asset. This makes it easier to track ownership and verify the authenticity of the asset.\n3. Accessibility: Blockchain technology allows for the easy transfer and management of digital assets, making them accessible to anyone with an internet connection.\n4. Immutability: Once data is recorded on a blockchain, it cannot be altered or deleted. This ensures that the record of ownership and transactions related to a digital asset is permanent and cannot be tampered with.\n5. Programmability: Blockchain technology allows for the creation of smart contracts, which are self-executing contracts with the terms of the agreement directly written into code. This enables automatic and secure transfer of digital assets based on predefined conditions.\n6. Interoperability: Blockchain technology enables the interoperability of different digital assets and systems, allowing for seamless transfer and exchange of value.\n\nOverall, the use of blockchain technology for managing digital assets provides a secure, transparent, and decentralized system that is accessible to anyone with an internet connection. This makes it an attractive solution for managing various types of digital assets, including cryptocurrencies, digital art, and other digital assets.', 'content_ms': 'Terdapat beberapa sebab mengapa orang menggunakan teknologi blockchain untuk mengurus aset digital:\n\n1. Keselamatan: Teknologi Blockchain menyediakan tahap keselamatan yang tinggi untuk mengurus aset digital. Sifat blockchain yang tidak berpusat menyukarkan penggodam untuk memanipulasi atau mencuri aset digital.\n2. Ketelusan: Blockchain menyediakan rekod yang telus bagi semua transaksi yang berkaitan dengan aset digital. Ini memudahkan untuk menjejak pemilikan dan mengesahkan ketulenan aset.\n3. Kebolehcapaian: Teknologi Blockchain membolehkan pemindahan dan pengurusan aset digital dengan mudah, menjadikannya boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet.\n4. Ketidakbolehubahan: Setelah data direkodkan pada rantaian blok, ia tidak boleh diubah atau dipadamkan. Ini memastikan rekod pemilikan dan transaksi yang berkaitan dengan aset digital adalah kekal dan tidak boleh diusik.\n5. Kebolehprograman: Teknologi Blockchain membolehkan penciptaan kontrak pintar, yang merupakan kontrak yang dilaksanakan sendiri dengan syarat perjanjian yang ditulis terus ke dalam kod. Ini membolehkan pemindahan aset digital secara automatik dan selamat berdasarkan syarat yang telah ditetapkan.\n6. Saling kendali: Teknologi Blockchain membolehkan kesalingoperasian aset dan sistem digital yang berbeza, membolehkan pemindahan dan pertukaran nilai yang lancar.\n\nSecara keseluruhannya, penggunaan teknologi blockchain untuk mengurus aset digital menyediakan sistem yang selamat, telus dan terpencar yang boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet. Ini menjadikannya penyelesaian yang menarik untuk mengurus pelbagai jenis aset digital, termasuk mata wang kripto, seni digital dan aset digital lain.'}], 'filename': 'output-audio/1-0-0.mp3'} download ~~~~~~~~ All dataset uploaded at https://huggingface.co/datasets/mesolitica/malaysian-youtube-audio-instructions Minimath -------- Original repository, https://huggingface.co/datasets/TIGER-Lab/MathInstruct Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-MathInstruct/resolve/main/math-instruct.jsonl Minimath -------- Original repository, https://huggingface.co/datasets/math_qa Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-math_qa/resolve/main/math-qa.jsonl.translated MetaMathQA ---------- Original repository, https://huggingface.co/datasets/meta-math/MetaMathQA Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-MetaMathQA/resolve/main/metamathqa.jsonl Minimath -------- Original repository, https://huggingface.co/datasets/aloobun/mini-math23k-v1 Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-mini-math23k-v1/resolve/main/mini-math23k.jsonl.requested Mixtral Magicoder: Source Code Is All You Need on various programming languages ------------------------------------------------------------------------------- We sampled programming languages from https://huggingface.co/datasets/bigcode/the-stack-dedup and pushed to https://huggingface.co/datasets/malaysia-ai/starcoderdata-sample After that, we use `Magicoder: Source Code Is All You Need on various programming languages `__ template, we target at least 10k rows for each programming languages. 1. C++, 10747 rows 2. C#, 10193 rows 3. CUDA, 13843 rows 4. Dockerfile, 13286 rows 5. Go, 10143 rows 6. Java, 11221 rows 7. JavaScript, 11758 rows 8. Kotlin, 12790 rows 9. PHP, 10176 rows 10. Python, other than ``pandas`` and ``sklearn`` and ``matplotlib`` and ``plotly``, 10925 rows 11. Python, must have ``pandas`` or ``sklearn`` or ``matplotlib`` or ``plotly``, focused on data analytics, 53959 rows 12. Ruby, 10201 rows 13. Rust, 10271 rows 14. Scala, 10017 rows 15. Shell, 10848 rows 16. SQL, 27668 rows 17. Swift, 10187 rows 18. TypeScript, 14248 rows precaution ~~~~~~~~~~ 1. There is no validation for the output generated. 2. Always filter short answers. download ~~~~~~~~ Entire dataset at https://huggingface.co/datasets/mesolitica/mixtral-magicoder Mixtral Malaysian Chat ---------------------- Generate using Mixtral Instruct. download ~~~~~~~~ All dataset at https://huggingface.co/datasets/mesolitica/mixtral-malaysian-general-qa Notes to myself ~~~~~~~~~~~~~~~ 1. Filter short questions. Mixtral Malaysian RAG --------------------- Generate using Mixtral Instruct. download ~~~~~~~~ All dataset uploaded at https://huggingface.co/datasets/mesolitica/mixtral-malaysian-rag Notes to myself ~~~~~~~~~~~~~~~ 1. Filter short questions. oasst1 ------ Original repository, https://huggingface.co/datasets/OpenAssistant/oasst1 Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-oasst1/resolve/main/oasst1-ms.jsonl 2. https://huggingface.co/datasets/mesolitica/google-translate-oasst1/resolve/main/oasst1-others.jsonl Citation ~~~~~~~~ .. code:: bibtex @misc{köpf2023openassistant, title={OpenAssistant Conversations -- Democratizing Large Language Model Alignment}, author={Andreas Köpf and Yannic Kilcher and Dimitri von Rütte and Sotiris Anagnostidis and Zhi-Rui Tam and Keith Stevens and Abdullah Barhoum and Nguyen Minh Duc and Oliver Stanley and Richárd Nagyfi and Shahul ES and Sameer Suri and David Glushkov and Arnav Dantuluri and Andrew Maguire and Christoph Schuhmann and Huu Nguyen and Alexander Mattick}, year={2023}, eprint={2304.07327}, archivePrefix={arXiv}, primaryClass={cs.CL} } OpenOrca -------- Original repository, https://huggingface.co/datasets/Open-Orca/OpenOrca Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-openorca/resolve/main/1M-GPT4-Augmented.translated.parquet Citation ~~~~~~~~ .. code:: bibtex @misc{mukherjee2023orca, title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4}, author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah}, year={2023}, eprint={2306.02707}, archivePrefix={arXiv}, primaryClass={cs.CL} } sql-create-context ------------------ Original repository, https://huggingface.co/datasets/TokenBender/python_evol_instruct_51k Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-python-evol-instruct-51k/resolve/main/python_evol_instruct_51k.jsonl.requested router-switch-instruct ---------------------- Original repository, https://huggingface.co/datasets/engkufizz/router-switch-instruct Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-router-switch-instruct/resolve/main/instructions.translated.jsonl ShareGPT -------- Original repository, https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered and https://huggingface.co/datasets/theblackcat102/sharegpt-english Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-sharegpt/resolve/main/ShareGPT_V3_unfiltered_cleaned_split_no_imsorry.translated.jsonl 2. https://huggingface.co/datasets/mesolitica/google-translate-sharegpt/resolve/main/gather-ShareGPT_V3_unfiltered_cleaned_split.jsonl 3. https://huggingface.co/datasets/mesolitica/google-translate-sharegpt/resolve/main/gather-theblackcat102.jsonl Python evol instruct 51k ------------------------ Original repository, https://huggingface.co/datasets/TokenBender/python_evol_instruct_51k Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-python-evol-instruct-51k/resolve/main/python_evol_instruct_51k.jsonl.requested Taskmaster ---------- Original website, https://github.com/google-research-datasets/Taskmaster Original paper, https://research.google/pubs/pub48484/ Download ~~~~~~~~ 1. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/food-ordering-ms.json 2. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/flights-ms.json 3. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/movies-ms.json 4. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/music.json 5. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/restaurant-search.json 6. https://f000.backblazeb2.com/file/malay-dataset/chatbot/taskmaster/sports.json Citation ~~~~~~~~ .. code:: bibtex @inproceedings{48484, title = {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, year = {2019} } UltraChat --------- Original repository, https://github.com/thunlp/UltraChat Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_0.jsonl.translated 2. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_1.jsonl.translated 3. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_3.jsonl.translated 4. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_4.jsonl.translated 5. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_5.jsonl.translated 6. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_6.jsonl.translated 7. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_7.jsonl.translated 8. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_8.jsonl.translated 9. https://huggingface.co/datasets/mesolitica/google-translate-ultrachat/resolve/main/train_9.jsonl.translated UltraChat 200K -------------- Original repository, https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k Translate using Translateer. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-ultrachat_200k/resolve/main/test_sft-00000-of-00001-f7dfac4afe5b93f4.jsonl 2. https://huggingface.co/datasets/mesolitica/translated-ultrachat_200k/resolve/main/train_sft-00000-of-00003-a3ecf92756993583.jsonl 3. https://huggingface.co/datasets/mesolitica/translated-ultrachat_200k/resolve/main/train_sft-00001-of-00003-0a1804bcb6ae68c6.jsonl 4. https://huggingface.co/datasets/mesolitica/translated-ultrachat_200k/resolve/main/train_sft-00002-of-00003-ee46ed25cfae92c6.jsonl UltraFeedback ------------- Original repository, https://huggingface.co/datasets/openbmb/UltraFeedback Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-UltraFeedback/resolve/main/ultrafeedback.translated.jsonl Unnatural Code -------------- Original repository, https://huggingface.co/datasets/TokenBender/unnatural_code_instructions_20M Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-unnatural_code_instructions_20M/resolve/main/unnatural-instructions.jsonl.requested Wizard of Wikipedia ------------------- Original paper, https://arxiv.org/abs/1811.01241 download ~~~~~~~~ dialog ^^^^^^ 1. dialogs.translate, https://f000.backblazeb2.com/file/malay-dataset/wiki-wizard/dialogs.translate information ^^^^^^^^^^^ 1. informations-0.json.translate, https://f000.backblazeb2.com/file/malay-dataset/wiki-wizard/informations-0.json.translate 2. informations-100000.json.translate, https://f000.backblazeb2.com/file/malay-dataset/wiki-wizard/informations-100000.json.translate 3. informations-200000.json.translate, https://f000.backblazeb2.com/file/malay-dataset/wiki-wizard/informations-200000.json.translate Citation ~~~~~~~~ .. code:: bibtex @article{DBLP:journals/corr/abs-1811-01241, author = {Emily Dinan and Stephen Roller and Kurt Shuster and Angela Fan and Michael Auli and Jason Weston}, title = {Wizard of Wikipedia: Knowledge-Powered Conversational agents}, journal = {CoRR}, volume = {abs/1811.01241}, year = {2018}, url = {http://arxiv.org/abs/1811.01241}, archivePrefix = {arXiv}, eprint = {1811.01241}, timestamp = {Sat, 23 Jan 2021 01:19:39 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1811-01241.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } Unnatural Code -------------- Original repository, https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k Translate using Malaya. download ~~~~~~~~ 1. https://huggingface.co/datasets/mesolitica/translated-WizardLM_evol_instruct_V2_196k/resolve/main/WizardLM_evol_instruct_V2_143k.translated.jsonl