chatbot#

NSText2SQL#

Original repository, https://huggingface.co/datasets/NumbersStation/NSText2SQL

Translate using Translateer.

Citation#

@software{numbersstation2023NSText2SQL,
author    = {Numbers Station Labs},
title     = {NSText2SQL: An Open Source Text-to-SQL Dataset for Foundation Model Training},
month     = {July},
year      = {2023},
url       = {https://github.com/NumbersStationAI/NSQL},
}

Cleaned Alpaca#

Original repository, https://github.com/tatsu-lab/stanford_alpaca, cleaned dataset at https://github.com/gururise/AlpacaDataCleaned#issues-with-the-original-dataset

Translate using ChatGPT 3.5.

Citation#

@misc{alpaca,
author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
title = {Stanford Alpaca: An Instruction-following LLaMA model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}},
}

Blended Skill Talk#

Original paper, https://arxiv.org/abs/2004.08449

Citation#

@article{DBLP:journals/corr/abs-2004-08449,
author    = {Eric Michael Smith and
Mary Williamson and
Kurt Shuster and
Jason Weston and
Y{-}Lan Boureau},
title     = {Can You Put it All Together: Evaluating Conversational Agents' Ability
to Blend Skills},
journal   = {CoRR},
volume    = {abs/2004.08449},
year      = {2020},
url       = {https://arxiv.org/abs/2004.08449},
archivePrefix = {arXiv},
eprint    = {2004.08449},
timestamp = {Sat, 23 Jan 2021 01:20:50 +0100},
biburl    = {https://dblp.org/rec/journals/corr/abs-2004-08449.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

ConvAI2#

Original website, https://parl.ai/projects/convai2/

Original paper, https://arxiv.org/abs/1902.00098?

Citation#

@article{DBLP:journals/corr/abs-1902-00098,
author    = {Emily Dinan and
Varvara Logacheva and
Valentin Malykh and
Alexander H. Miller and
Kurt Shuster and
Jack Urbanek and
Douwe Kiela and
Arthur Szlam and
Iulian Serban and
Ryan Lowe and
Shrimai Prabhumoye and
Alan W. Black and
Alexander I. Rudnicky and
Jason Williams and
Joelle Pineau and
Mikhail S. Burtsev and
Jason Weston},
title     = {The Second Conversational Intelligence Challenge (ConvAI2)},
journal   = {CoRR},
volume    = {abs/1902.00098},
year      = {2019},
url       = {http://arxiv.org/abs/1902.00098},
archivePrefix = {arXiv},
eprint    = {1902.00098},
timestamp = {Sat, 23 Jan 2021 01:11:58 +0100},
biburl    = {https://dblp.org/rec/journals/corr/abs-1902-00098.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

DialoGPT#

Original website, https://github.com/microsoft/DialoGPT

Original paper, https://arxiv.org/abs/1911.00536

Download#

jsonl format, check download.txt.

Citation#

@article{DBLP:journals/corr/abs-1911-00536,
author    = {Yizhe Zhang and
Siqi Sun and
Michel Galley and
Yen{-}Chun Chen and
Chris Brockett and
Xiang Gao and
Jianfeng Gao and
Jingjing Liu and
Bill Dolan},
title     = {DialoGPT: Large-Scale Generative Pre-training for Conversational Response
Generation},
journal   = {CoRR},
volume    = {abs/1911.00536},
year      = {2019},
url       = {http://arxiv.org/abs/1911.00536},
archivePrefix = {arXiv},
eprint    = {1911.00536},
timestamp = {Tue, 05 Jan 2021 15:06:52 +0100},
biburl    = {https://dblp.org/rec/journals/corr/abs-1911-00536.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}

Dolly15k#

Original repository, https://github.com/databrickslabs/dolly

Translate using ChatGPT 3.5.

Citation#

@misc{gpt4all,
author = {databrickslabs},
title = {Dolly},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/databrickslabs/dolly}},
}

GPT4ALL-v1.3#

Original repository, https://github.com/nomic-ai/gpt4all

Translate using Translateer.

Citation#

@misc{gpt4all,
author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar},
title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/nomic-ai/gpt4all}},
}

GPT4ALL#

Original repository, https://github.com/nomic-ai/gpt4all

Translate using ChatGPT 3.5.

Citation#

@misc{gpt4all,
author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar},
title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/nomic-ai/gpt4all}},
}

Lamini#

Original repository, https://github.com/mbzuai-nlp/LaMini-LM

Translate using Translateer.

Citation#

@article{lamini-lm,
author       = {Minghao Wu and
Abdul Waheed and
Chiyu Zhang and
Muhammad Abdul-Mageed and
Alham Fikri Aji
},
title        = {LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions},
journal      = {CoRR},
volume       = {abs/2304.14402},
year         = {2023},
url          = {https://arxiv.org/abs/2304.14402},
eprinttype   = {arXiv},
eprint       = {2304.14402}
}

Ultrachat like using Malaysian context#

Prepare multiturn dialogue between user and assistant for malaysian context,

  1. Astroawani, https://huggingface.co/datasets/malaysia-ai/crawl-astroawani

  2. Crossref melayu papers, https://huggingface.co/datasets/mesolitica/crawl-my-website/resolve/main/melayu-pdf.jsonl

  3. Epenerbitan, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/e-penerbitan.jsonl

  4. gov.my pdf, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/gov.my.jsonl

  5. JurnalDBP, https://github.com/mesolitica/malaysian-dataset/tree/master/crawl/jurnaldbp

  6. lom.agc.gov.my.jsonl, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/lom.agc.gov.my.jsonl

  7. MS Wikipedia, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/wikipedia-2023-10-01.jsonl

  8. Hansard, https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset/resolve/main/hansard.jsonl

  9. Textbooks, https://huggingface.co/datasets/open-phi/textbooks

  10. https://maktabahalbakri.com/

  11. https://muftiwp.gov.my/ms/

Example of data,

[{'role': 'context',
'content': 'LIGA\xa0Malaysia (Liga-M) terus menerima tamparan hebat apabila UiTM FC sah menarik diri daripada saingan Liga Super musim ini bagi menyusuli jejak Petaling Jaya City.\n\n\n\r\nPerkara itu disahkan sendiri oleh Presiden The Lion Troops, Profesor Dr. Sazili Shahibi, selepas dua musim beraksi di pentas Liga Super.\n\n\n\r\nSelain masalah kewangan, Dr Sazili menjelaskan ada punca lain mengapa pihak pengurusan mengibarkan bendera putih.\n\n\n \n \n\r\n"Ahli Lembaga Pengarah UiTM telah bermesyuarat dan (kami mengambil) keputusan untuk menarik diri daripada liga pada musim depan.\n\n\n\r\n"Kewangan adalah salah faktornya, tapi kami rasa daripada segi kemampuan, ia tidak sesuai buat pemain-pemain kami," katanya ketika dihubungi \nAstro Arena\n\xa0pada Rabu.\n\n\n\r\nSazili juga berhasrat memaklumkan UiTM bakal beralih ke saingan Liga M3 musim ini.\n\n\n\r\nUntuk rekod, UiTM muncul pasukan berstatus universiti pertama yang layak beraksi dalam Liga Super.\n\n\n\r\nDalam pada itu, Liga Bolasepak Malaysia (MFLhanya akan menjelaskan situasi berkenaan menerusi kenyataan rasmi bakal dalam masa terdekat selepas hanya 14 pasukan yang akan bertanding di pentas Liga Super musim ini. -\nStadium Astro',
'content_ms': None,
'indon': False},
{'role': 'user',
'content': 'What are the reasons given by UiTM FC for withdrawing from Liga Malaysia?',
'content_ms': 'Apakah alasan yang diberikan oleh UiTM FC kerana menarik diri daripada Liga Malaysia?',
'indon': False},
{'role': 'assistant',
'content': 'Menurut Presiden UiTM FC, Profesor Dr. Sazili Shahibi, mereka mengambil keputusan untuk menarik diri daripada Liga Malaysia musim ini atas beberapa sebab. Salah satu sebab utamanya adalah masalah kewangan yang dihadapi oleh pasukan. Selain itu, beliau juga menyebut bahawa kemampuan pasukan UiTM tidak sesuai untuk bersaing dalam Liga Super. Selain masalah ini, tidak ada sebab lain yang diberikan dalam laporan tersebut.',
'content_ms': 'Menurut Presiden UiTM FC, Profesor Dr. Sazili Shahibi, mereka membuat keputusan untuk menarik diri daripada Liga Malaysia musim ini atas beberapa sebab. Salah satu sebab utama ialah masalah kewangan yang dihadapi oleh pasukan. Selain itu, beliau juga menyatakan bahawa keupayaan pasukan UiTM tidak sesuai untuk bersaing dalam Liga Super. Selain masalah ini, tiada sebab lain diberikan dalam laporan tersebut.',
'indon': False},
{'role': 'user',
'content': 'Alamak, memang sedihlah tengok UiTM FC tarik diri dari Liga Malaysia. Macam mana pula dengan penonton setia yang selalu sokong pasukan tu? Harap-harap ada jalan penyelesaian untuk masalah kewangan mereka.',
'content_ms': 'Alamak, memang sedih tengok UiTM FC menarik diri dari Liga Malaysia. Bagaimana pula dengan penonton setia yang selalu menyokong pasukan itu? Harap-harap ada jalan penyelesaian untuk masalah kewangan mereka.',
'indon': False},
{'role': 'assistant',
'content': 'Ya, memang sedih melihat UiTM FC menarik diri dari Liga Malaysia. Bagi penonton setia yang sentiasa menyokong pasukan tersebut, tentu mereka juga berasa kecewa. Kami juga berharap ada jalan penyelesaian untuk masalah kewangan yang dihadapi oleh UiTM FC. Mungkin pihak pengurusan boleh mencari sponsor atau menyusun semula strategi kewangan untuk membolehkan pasukan tersebut terus beraksi dalam liga pada masa hadapan. Semoga mereka dapat menemui penyelesaian yang baik dan kembali bersaing di pentas bola sepak Malaysia.',
'content_ms': 'Ya, memang sedih melihat UiTM FC menarik diri dari Liga Malaysia. Bagi penonton setia yang sentiasa menyokong pasukan tersebut, tentu mereka juga berasa kecewa. Kami juga berharap ada jalan penyelesaian untuk masalah kewangan yang dihadapi oleh UiTM FC. Mungkin pihak pengurusan boleh mencari penaja atau menyusun semula strategi kewangan untuk membolehkan pasukan tersebut terus beraksi dalam liga pada masa hadapan. Semoga mereka dapat menemui penyelesaian yang baik dan kembali bersaing di pentas bola sepak Malaysia.',
'indon': False},
{'role': 'user',
'content': 'Ya betul tu, banyak peminat setia UiTM FC yang akan kecewa dengan keputusan mereka tarik diri dari Liga Malaysia. Harapnya pihak pengurusan dapat cari jalan penyelesaian secepat mungkin supaya pasukan tu masih dapat beraksi dalam liga. Saya pun tak sabar nak tengok prestasi UiTM FC lagi musim hadapan. Semoga ada berita baik dalam masa terdekat.',
'content_ms': 'Ya, betul tu. Banyak peminat setia UiTM FC yang akan kecewa dengan keputusan mereka menarik diri dari Liga Malaysia. Harapnya pihak pengurusan dapat mencari jalan penyelesaian secepat mungkin supaya pasukan itu masih dapat beraksi dalam liga. Saya pun tak sabar nak tengok prestasi UiTM FC lagi musim depan. Semoga ada berita baik dalam masa terdekat.',
'indon': False},
{'role': 'assistant',
'content': 'Saya juga setuju dengan anda. Semoga pihak pengurusan UiTM FC dapat mencari jalan penyelesaian secepat mungkin agar pasukan tersebut masih dapat berlaga dalam Liga Malaysia. Benar, banyak peminat yang ingin melihat prestasi UiTM FC musim hadapan. Mari kita nantikan berita baik daripada mereka dalam masa terdekat. Harapnya mereka dapat mengatasi masalah kewangan dan kembali membanggakan para penyokong. Kita terus sokong UiTM FC!',
'content_ms': 'Saya juga bersetuju dengan anda. Semoga pihak pengurusan UiTM FC dapat mencari jalan penyelesaian secepat mungkin supaya pasukan tersebut masih dapat bersaing dalam Liga Malaysia. Benar, ramai peminat yang ingin melihat prestasi UiTM FC musim depan. Mari kita nantikan berita baik daripada mereka dalam masa terdekat. Harapnya mereka dapat mengatasi masalah kewangan dan kembali membanggakan para penyokong. Kita terus sokong UiTM FC!',
'indon': False},
{'role': 'user',
'content': 'Ya lah, harapnya UiTM FC dapat dapat mencari penyelesaian yang cepat. Penyokong setia UiTM FC mesti excited nak tengok pasukan beraksi lagi musim hadapan. Semoga ada berita gembira dalam masa terdekat!',
'content_ms': 'Ya lah, harapnya UiTM FC dapat mencari penyelesaian yang cepat. Penyokong setia UiTM FC mesti teruja untuk melihat pasukan beraksi lagi musim depan. Semoga ada berita gembira dalam masa terdekat!',
'indon': False},
{'role': 'assistant',
'content': 'Betul tu, penyokong setia UiTM FC pasti sangat teruja melihat pasukan beraksi di musim hadapan. Kita harap pihak pengurusan dapat mencari penyelesaian dengan pantas supaya pasukan dapat kembali ke gelanggang. Kita tunggu berita gembira yang akan datang dan terus menyokong UiTM FC dengan penuh semangat. Biar bola sepak Malaysia sentiasa berwarna dengan kehadiran pasukan hebat seperti UiTM FC!',
'content_ms': 'Betul tu, penyokong setia UiTM FC pasti sangat teruja melihat pasukan beraksi pada musim depan. Kita harap pihak pengurusan dapat mencari penyelesaian dengan pantas supaya pasukan dapat kembali ke gelanggang. Kita tunggu berita gembira yang akan datang dan terus menyokong UiTM FC dengan penuh semangat. Biar bola sepak Malaysia sentiasa berwarna dengan kehadiran pasukan hebat seperti UiTM FC!',
'indon': False},
{'role': 'user',
'content': 'Ya betul tu, memang berharap pasukan UiTM FC dapat segera mencari jalan penyelesaian. Setiap pasukan memang perlu sokongan dan kami sebagai penyokong setia akan terus memberikan sokongan kepada pasukan kesayangan kami. Semoga ada berita gembira yang akan datang!',
'content_ms': 'Ya, betul tu. Memang berharap pasukan UiTM FC dapat segera mencari jalan penyelesaian. Setiap pasukan memang perlukan sokongan dan kami sebagai penyokong setia akan terus memberikan sokongan kepada pasukan kesayangan kami. Semoga ada berita gembira yang akan datang!',
'indon': False},
{'role': 'assistant',
'content': 'Setiap pasukan memang memerlukan sokongan daripada penyokong setia seperti anda. Anda adalah aset berharga bagi pasukan UiTM FC. Teruskan menyokong dengan penuh semangat dan harapan. Kita berdoa agar pihak pengurusan dapat mencari jalan penyelesaian dengan segera. Bersama-sama, mari kita nantikan berita gembira yang akan datang dan terus memberikan sokongan kepada pasukan kesayangan kita. UiTM FC pasti akan bangkit dan menyampaikan prestasi yang cemerlang musim hadapan!',
'content_ms': 'Setiap pasukan memang memerlukan sokongan daripada penyokong setia seperti anda. Anda adalah aset berharga bagi pasukan UiTM FC. Teruskan menyokong dengan penuh semangat dan harapan. Kita berdoa agar pihak pengurusan dapat mencari jalan penyelesaian dengan segera. Bersama-sama, mari kita nantikan berita gembira yang akan datang dan terus memberikan sokongan kepada pasukan kesayangan kita. UiTM FC pasti akan bangkit dan menyampaikan prestasi yang cemerlang musim depan!',
'indon': False}]

Malaysian Youtube Audio Instructions#

Convert from speech to text using Whisper Large V3 after that generate multiturn using Mixtral Instruct, example data,

{'context': 'anda tahu keuntungan boleh lebih tinggi daripada keuntungan kewangan rumah maka saya tidak akan mencari dalam akaun saya akan mencari ke dalam ethereum atau beberapa crypto punks bergantung pada faktor risiko anda kerana rumah kajang dihantar tidak mengganggu dsr saya sejauh ini jadi sekarang apa posisi saya untuk mendapatkan kewangan ketiga jadi mungkin setelah melihat sekeliling saya menemui seorang penjual yang dapat menutupi perhubungan tetapi bank hanya menerima 70% dari itu saya boleh membayar perbezaan dengan menggunakan wang ini kerana sekali lagi ia menyusahkan saya dan aset tetapi jika anda tidak selesa dengan mencari',
'chat': [{'role': 'user',
'content': 'Why might someone consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate?',
'content_ms': 'Mengapakah seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah?'},
{'role': 'assistant',
'content': 'There are several reasons why someone might consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate:\n\n1. Potential for higher returns: Cryptocurrencies have the potential for much higher returns compared to traditional financial investments. While the real estate market can be profitable, the potential for exponential growth in the cryptocurrency market is significantly higher.\n2. Diversification: Investing in cryptocurrencies can provide a diversification benefit to an investment portfolio. By investing in a variety of assets, including cryptocurrencies, investors can spread their risk and potentially increase their overall returns.\n3. Liquidity: Cryptocurrencies are generally more liquid than real estate investments. It is easier to buy and sell cryptocurrencies, and they can be quickly converted into cash.\n4. Accessibility: Investing in cryptocurrencies is generally more accessible than investing in real estate. There are fewer barriers to entry, and it is easier to get started with a smaller amount of money.\n5. Decentralization: Cryptocurrencies are decentralized, meaning they are not controlled by any government or financial institution. This can provide a level of independence and autonomy that is not possible with traditional financial investments.\n\nHowever, it is important to note that investing in cryptocurrencies is also riskier than traditional financial investments. The value of cryptocurrencies can be highly volatile, and there is a risk of losing all or a significant portion of the investment. Therefore, it is important to carefully consider your own risk tolerance and financial situation before investing in cryptocurrencies.',
'content_ms': 'Terdapat beberapa sebab mengapa seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah:\n\n1. Potensi untuk pulangan yang lebih tinggi: Mata wang kripto mempunyai potensi untuk pulangan yang lebih tinggi berbanding dengan pelaburan kewangan tradisional. Walaupun pasaran hartanah boleh menguntungkan, potensi pertumbuhan eksponen dalam pasaran mata wang kripto adalah jauh lebih tinggi.\n2. Kepelbagaian: Melabur dalam mata wang kripto boleh memberikan manfaat kepelbagaian kepada portfolio pelaburan. Dengan melabur dalam pelbagai aset, termasuk mata wang kripto, pelabur boleh menyebarkan risiko mereka dan berpotensi meningkatkan pulangan keseluruhan mereka.\n3. Kecairan: Mata wang kripto biasanya lebih cair daripada pelaburan hartanah. Lebih mudah untuk membeli dan menjual mata wang kripto, dan ia boleh ditukar dengan cepat kepada wang tunai.\n4. Kebolehcapaian: Melabur dalam mata wang kripto secara umumnya lebih mudah diakses daripada melabur dalam hartanah. Terdapat lebih sedikit halangan untuk masuk, dan lebih mudah untuk bermula dengan jumlah wang yang lebih kecil.\n5. Desentralisasi: Mata wang kripto adalah terdesentralisasi, bermakna ia tidak dikawal oleh mana-mana kerajaan atau institusi kewangan. Ini boleh memberikan tahap kebebasan dan autonomi yang tidak mungkin dilakukan dengan pelaburan kewangan tradisional.\n\nWalau bagaimanapun, adalah penting untuk ambil perhatian bahawa melabur dalam mata wang kripto juga lebih berisiko daripada pelaburan kewangan tradisional. Nilai mata wang kripto boleh menjadi sangat tidak menentu, dan terdapat risiko kehilangan semua atau sebahagian besar pelaburan. Oleh itu, adalah penting untuk mempertimbangkan dengan teliti toleransi risiko dan keadaan kewangan anda sendiri sebelum melabur dalam mata wang kripto.'},
{'role': 'user',
'content': 'mengapa orang menggunakan blockchain untuk mengurus siasia digital',
'content_ms': 'mengapa orang menggunakan blockchain untuk menguruskan sisa digital'},
{'role': 'assistant',
'content': 'There are several reasons why people use blockchain technology to manage digital assets:\n\n1. Security: Blockchain technology provides a high level of security for managing digital assets. The decentralized nature of blockchain makes it difficult for hackers to manipulate or steal digital assets.\n2. Transparency: Blockchain provides a transparent record of all transactions related to a digital asset. This makes it easier to track ownership and verify the authenticity of the asset.\n3. Accessibility: Blockchain technology allows for the easy transfer and management of digital assets, making them accessible to anyone with an internet connection.\n4. Immutability: Once data is recorded on a blockchain, it cannot be altered or deleted. This ensures that the record of ownership and transactions related to a digital asset is permanent and cannot be tampered with.\n5. Programmability: Blockchain technology allows for the creation of smart contracts, which are self-executing contracts with the terms of the agreement directly written into code. This enables automatic and secure transfer of digital assets based on predefined conditions.\n6. Interoperability: Blockchain technology enables the interoperability of different digital assets and systems, allowing for seamless transfer and exchange of value.\n\nOverall, the use of blockchain technology for managing digital assets provides a secure, transparent, and decentralized system that is accessible to anyone with an internet connection. This makes it an attractive solution for managing various types of digital assets, including cryptocurrencies, digital art, and other digital assets.',
'content_ms': 'Terdapat beberapa sebab mengapa orang menggunakan teknologi blockchain untuk mengurus aset digital:\n\n1. Keselamatan: Teknologi Blockchain menyediakan tahap keselamatan yang tinggi untuk mengurus aset digital. Sifat blockchain yang tidak berpusat menyukarkan penggodam untuk memanipulasi atau mencuri aset digital.\n2. Ketelusan: Blockchain menyediakan rekod yang telus bagi semua transaksi yang berkaitan dengan aset digital. Ini memudahkan untuk menjejak pemilikan dan mengesahkan ketulenan aset.\n3. Kebolehcapaian: Teknologi Blockchain membolehkan pemindahan dan pengurusan aset digital dengan mudah, menjadikannya boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet.\n4. Ketidakbolehubahan: Setelah data direkodkan pada rantaian blok, ia tidak boleh diubah atau dipadamkan. Ini memastikan rekod pemilikan dan transaksi yang berkaitan dengan aset digital adalah kekal dan tidak boleh diusik.\n5. Kebolehprograman: Teknologi Blockchain membolehkan penciptaan kontrak pintar, yang merupakan kontrak yang dilaksanakan sendiri dengan syarat perjanjian yang ditulis terus ke dalam kod. Ini membolehkan pemindahan aset digital secara automatik dan selamat berdasarkan syarat yang telah ditetapkan.\n6. Saling kendali: Teknologi Blockchain membolehkan kesalingoperasian aset dan sistem digital yang berbeza, membolehkan pemindahan dan pertukaran nilai yang lancar.\n\nSecara keseluruhannya, penggunaan teknologi blockchain untuk mengurus aset digital menyediakan sistem yang selamat, telus dan terpencar yang boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet. Ini menjadikannya penyelesaian yang menarik untuk mengurus pelbagai jenis aset digital, termasuk mata wang kripto, seni digital dan aset digital lain.'}],
'filename': 'output-audio/1-0-0.mp3'}

Mixtral Magicoder: Source Code Is All You Need on various programming languages#

We sampled programming languages from https://huggingface.co/datasets/bigcode/the-stack-dedup and pushed to https://huggingface.co/datasets/malaysia-ai/starcoderdata-sample

After that, we use Magicoder: Source Code Is All You Need on various programming languages template, we target at least 10k rows for each programming languages.

  1. C++, 10747 rows

  2. C#, 10193 rows

  3. CUDA, 13843 rows

  4. Dockerfile, 13286 rows

  5. Go, 10143 rows

  6. Java, 11221 rows

  7. JavaScript, 11758 rows

  8. Kotlin, 12790 rows

  9. PHP, 10176 rows

  10. Python, other than pandas and sklearn and matplotlib and plotly, 10925 rows

  11. Python, must have pandas or sklearn or matplotlib or plotly, focused on data analytics, 53959 rows

  12. Ruby, 10201 rows

  13. Rust, 10271 rows

  14. Scala, 10017 rows

  15. Shell, 10848 rows

  16. SQL, 27668 rows

  17. Swift, 10187 rows

  18. TypeScript, 14248 rows

precaution#

  1. There is no validation for the output generated.

  2. Always filter short answers.

Mixtral Malaysian Chat#

Generate using Mixtral Instruct.

Notes to myself#

  1. Filter short questions.

Mixtral Malaysian RAG#

Generate using Mixtral Instruct.

Notes to myself#

  1. Filter short questions.

oasst1#

Original repository, https://huggingface.co/datasets/OpenAssistant/oasst1

Translate using Translateer.

Citation#

@misc{köpf2023openassistant,
title={OpenAssistant Conversations -- Democratizing Large Language Model Alignment},
author={Andreas Köpf and Yannic Kilcher and Dimitri von Rütte and Sotiris Anagnostidis and Zhi-Rui Tam and Keith Stevens and Abdullah Barhoum and Nguyen Minh Duc and Oliver Stanley and Richárd Nagyfi and Shahul ES and Sameer Suri and David Glushkov and Arnav Dantuluri and Andrew Maguire and Christoph Schuhmann and Huu Nguyen and Alexander Mattick},
year={2023},
eprint={2304.07327},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

OpenOrca#

Original repository, https://huggingface.co/datasets/Open-Orca/OpenOrca

Translate using Translateer.

Citation#

@misc{mukherjee2023orca,
title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4},
author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah},
year={2023},
eprint={2306.02707},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Wizard of Wikipedia#

Original paper, https://arxiv.org/abs/1811.01241

Citation#

@article{DBLP:journals/corr/abs-1811-01241,
author    = {Emily Dinan and
Stephen Roller and
Kurt Shuster and
Angela Fan and
Michael Auli and
Jason Weston},
title     = {Wizard of Wikipedia: Knowledge-Powered Conversational agents},
journal   = {CoRR},
volume    = {abs/1811.01241},
year      = {2018},
url       = {http://arxiv.org/abs/1811.01241},
archivePrefix = {arXiv},
eprint    = {1811.01241},
timestamp = {Sat, 23 Jan 2021 01:19:39 +0100},
biburl    = {https://dblp.org/rec/journals/corr/abs-1811-01241.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}