NANA NANI Belajar AI
Hari selasa yang lalu, kami bertiga; Mas Muhammad Fikri Atfi, Kang Sendy Ardiansyah, dan saya, beraktivitas seharian penuh di pesantren Emaky Al-Ma’soem Lembang. Kami didapuk untuk mengisi kelas yang berjudul Quantum Muthmainah. Tentu dalam 3 sesi kelas di pesantren tersebut banyak hal yang kami bahas. Di bagian saya, kelas membahas shirah Nabawiyah, nahwu sharaf, sedikit menyinggung asal-usul tajwid, dan sejarah masuknya Islam ke Nusantara.
Mas Fikri kebagian menghangatkan suasana kelas, beraneka permainan kelompok beliau ajarkan, mulai dari senam otak sampai permainan konsentrasi seperti Nana-Nani hasil kreasi inovatif beliaupun dimainkan. Seru dan ramai sekali, suasana kelas menjadi sangat hidup dan penuh dengan dinamika sebagaimana yang kami harapkan.
Sementara Akang Sendy yang merupakan warga lama perumahan Antapani, sempat dikejutkan oleh kehadiran dua peserta yang ternyata langsung mengenalinya sebagai putra Pak Haji Tukimin, ketua DKM masjid Asy-Syifa Antapani. Perjumpaan yang tak diduga tapi amat berkesan.
Pak Sendy hari itu bertugas mengajar AI atau akal imitasi, wa bil khusus generative AI atau large language model, dan secara lebih spesifik, langsung praktek pada pemanfaatannya bagi para peserta yang seluruhnya adalah ibu dan bapak dengan rerata usia di atas 6 dasawarsa.
Tujuannya sederhana, AI dapat dimanfaatkan oleh para peserta pesantren usia keemasan ini untuk mencari referensi terbaik terkait berbagai persoalan agama yang terkadang amat mereka butuhkan sebagai bagian dari proses belajar secara berkesinambungan. AI juga dapat membantu mengevaluasi foto makanan yang akan mereka konsumsi; berapa kalorinya, apa saja komposisi nutrisinya, sesuai tidak dengan kebutuhan mereka sejalan dengan nasehat dan arahan dokter yang telah diberikan dll.
AI, khususnya generative AI juga dapat membantu mereka membuat gambar, video, dan lagu yang menjadi media pengasah kreativitas dan jika dimanfaatkan dengan baik, akan memberikan dampak konstruktif sebagai sarana untuk terus produktif dan bermanfaat bagi sesama di usia yang telah memasuki fase senja.
Setelah sesi penuh inspirasi tersebut, timbul sebuah pertanyaan menarik di benak saya; bagaimana sebuah generative AI dapat melakukan begitu banyak hal, mulai dari menyusun teks hingga menciptakan gambar, video, bahkan lagu?
Sejarah generative AI tak terlepas dari perkembangan teknik machine learning dan deep learning. Istilah Deep Learning sendiri pertama kali populer ketika jaringan saraf tiruan (artificial neural networks) mulai digunakan secara luas, terutama setelah pelbagai riset menunjukkan hasil menakjubkan di berbagai bidang seperti pengenalan citra, pengenalan suara, dan pemrosesan bahasa alami (Goodfellow et al., 2016).
Di bidang pemrosesan bahasa alami (Natural Language Processing – NLP), generative AI mulai mendapat atensi khusus setelah munculnya model-model berbasis transformer (Vaswani et al., 2017). Kemajuan ini kemudian diikuti dengan rilis berbagai large language model, seperti BERT (Devlin et al., 2019), GPT (Radford et al., 2019; Brown et al., 2020), dan seterusnya hingga era ChatGPT (OpenAI, 2022).
Ada hal yang menarik dalam konteks generative AI ini, sebagaimana kerja otak manusia, maka model yang satu ini juga punya algoritma kognitif yang unik, yaitu antara lain adalah adanya konsep parameter, dataset, dan proses pembelajaran mesin yang sangat sistematis.
Dalam deep learning, istilah parameter merujuk pada bobot (weights) dan bias yang digunakan dalam jaringan saraf tiruan untuk memetakan input ke output secara optimal (Goodfellow et al., 2016). Semakin besar model—seperti halnya GPT yang memiliki ratusan miliar parameter (Brown et al., 2020), maka semakin kompleks kemampuan representasi dan generalisasinya.
Untuk mempelajari pola bahasa, model-model LLM membutuhkan dataset teks berukuran sangat besar, kadang mencakup miliaran token. Dataset ini diambil dari beragam sumber, seperti buku digital, artikel ilmiah, laman web, hingga media sosial (OpenAI, 2022). Kualitas dan keragaman dataset amat berpengaruh terhadap keluaran model.
Proses pembelajaran model generatif dapat dirangkum dalam beberapa tahapan seperti; Inisialisasi Parameter, di mana parameter diinisialisasi dengan nilai acak. Lalu diikuti proses Forward Pass, yaitu input (berupa teks) diproses melewati susunan lapisan transformer, hingga menghasilkan output logits.
Selanjutnya ada Perhitungan Loss, di mana perbedaan antara output logitsbdengan target (kata yang benar) diukur menggunakan fungsi loss seperti cross-entropy. Kemudian dilakukan tahapan Backward Pass, di mana error yang terukur di tahap sebelumnya digunakan untuk memperbarui parameter melalui algoritma gradient descent.
Kalau melihat betapa canggihnya model-model AI generatif yang digunakan Sendy untuk membuat gambar-gambar cantik sebagai contoh kepada peserta pesantren AI di Emaky kemarin (Bing Image Creator dll), saya yang terpesona dan takjub jadi merenung dan bertanya, how come ?
Bagaimana cara sebuah mmodel generative AI dapat berkreasi dan mencipta teks, gambar, video, atau bahkan lagu? Inti mekanismenya terletak pada kemampuan mempelajari representasi dan pola dari sekumpulan data yang luas, kemudian mensintesis output baru yang statistika polanya mirip dengan data asal.
Pada konteks penyusunan teks, proses generatif dapat disederhanakan sebagai:
P(kalimat) = P(kata₁, kata₂, …, kataₙ) = ∏ (dari i=1 hingga n) P(kataᵢ | kata₁, kata₂, …, kataᵢ₋₁)
Probabilitas keseluruhan sebuah kalimat merupakan hasil perkalian dari probabilitas setiap kata, dengan mempertimbangkan kata-kata sebelumnya.
Untuk membuat gambar, model generative AI seperti DALL-E (Ramesh et al., 2021) maupun Stable Diffusion (Rombach et al., 2022) mempelajari korelasi antara teks (deskripsi) dan citra, lalu dapat mensintesis citra baru berdasarkan deskripsi teks yang dimasukkan.
Demikian pula untuk mengkreasikan sebuah tayangan video, prinsipnya serupa dengan generasi gambar, namun model seperti Sora atau VEO2, berusaha memahami rangkaian frame dan konten temporalnya.
Sedangkan dalam proses penciptaan dan mengkomposisi lagu, model generative AI seperti Suno, menggunakan pendekatan generatif model berbasis data audio, model dapat mempelajari struktur nada, harmoni, hingga lirik, lalu menghasilkan komposisi baru.
Secara praktis dan agar Lara peserta pesantren usia emas dapat langsung memanfaatkan berbagaj aplikasi dari model generative AI secara optimal, Kang Sendy Ardiansyah yang alumni UIN Sunan Gunung Djati dan MBA Telkom University ini, memperkenalkan model gen AI yang dapat difungsikan di gawai atau piranti seluler dari para peserta. Maklumat meski usia sudah mulai memasuki senja, soal kecanggihan piranti teknologi rupanya para peserta tak kalah canggih dengan para cucunya.
Walhasil dengan mudah Kang Sendy dapat membantu menginstalasi aplikasi beberapa model gen AI dan mengajarkan cara untuk menggunakannya secara praktis dan mudah dengan harapan dapat mendapatkan hasil yang optimal.
Adapun model gen AI yang kemarin kami coba perkenalkan antara lain adalah; ChatGPT (OpenAI, 2022) mulai dari GPT-3.5 versi gratis, hingga GPT-4.0, serta versi o1 yang saya pakai, GPT unggul dalam kemampuan memahami konteks percakapan, menjawab pertanyaan, dan menyediakan berbagai informasi dengan bahasa yang natural.
Kang Sendy juga mengajarkan penggunaan Perplexity yang merupakan search engine berbasis AI yang tidak hanya menyediakan rangkuman jawaban, tetapi juga menunjukkan sumber referensi, sehingga pengguna dapat menelusuri kredibilitas informasi, serta punya sistematika berjenjang yang menyediakan tautan informasi lanjutan hingga data yang didapatkan bisa amat komprehensif dan mendalam.
Lalu kami juga memperkenalkan dan mencontohkan penggunaan model Gemini (Google DeepMind, 2023), yang merupakan proyek LLM tingkat lanjut yang menggabungkan kapabilitas deep reinforcement learning dengan transformer, dengan tujuan untuk menghadirkan kecerdasan yang lebih holistik atau komprehensif.
Terakhir Kang Sendy juga memperkenalkan Meta AI by LLaMA (Touvron et al., 2023), sebuah large language model terbuka (open-source) yang dirancang untuk riset dan pengembangan. LLaMA menunjukkan performa kompetitif meskipun ukurannya relatif lebih efisien. Maka tak heran jika Mark Zuckerberg dari META, mengintegrasikan Meta AI dengan engine LLAMA di aplikasi perpesanan sosial WA. Kini dengan sangat mudahnya, pengguna WA dapat mencari informasi dari Meta AI di kolom chat dan mengirimkannya sebagai pesan. Hal ini juga berlaku di percakapan grup (WAG), menarik dan asyik bukan?
Tak lama kelaspun riuh dengan celotehan-celotehan kegembiraan lara ibu dan bapak senior, yang asyik masyuk mengulik dan mengekspresikan kreativitasnya dengan bantuan model geneative AI pilihan masing-masing.
Kami bertiga saling melempar senyum, tampaknya kehadiran kami di kelas sudah tidak terlalu lagi dibutuhkan. Karena bahkan sebagian peserta sudah dapat mengonfirmasi validitas informasi yah seharian tadi kami ajarkan, dengan meminta AI untuk menampilkan berbagai topik tadi melalui bantuan proses prompting dengan menggunakan bahasan topik-topik tadi sebagai pemantik.
Maka asyiklah seisi kelas membaca-baca dan bahkan bertukar cerita melalui fitur obrolan suara dengan AI. Mereka sibuk bertanya soal Sunan Giri, sejarah ilmu tajwid, kisah perjalanan Bujangga Manik, proses nidasi dalam rahim dll, yang semuanya adalah materi yang tadi saya sampaikan. Tinggallah saya berdiri mematung di depan kelas bersimbah keringat dingin, dan rasa panik pun mulai menyerang…. Saya seolah sedang dihakimi dan dikonfirmasi; benar tidak apa yang tadi telah disampaikan ? Waduuuuuh, AI, AI, kau buat daku bingung, haruskah daku mengucap AI love You, atau AI hate You, karena telah membuat saya sebagai guru tak bisa lagi menggantang angan para murid dengan racikan kata lewat diksi dan kalimat berima dari mulut yang berbusa-busa tapi tak didukung data dan fakta. 🫣🙏🏾🙏🏾
Bahan Bacaan NANA NANI
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems, 33.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics.
Google DeepMind. (2023). Gemini: The Next Generation of Large Language Models. [Whitepaper]
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
OpenAI. (2022). ChatGPT: Optimizing Language Models for Dialogue. [Online] Tersedia: https://openai.com
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Ramesh, A., Pavlov, M., Goh, G., Gray, S., & Agarwal, S. (2021). Zero-Shot Text-to-Image Generation. [Preprint arXiv:2102.12092]
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M., Lacroix, T., … & Joulin, A. (2023). LLaMA: Open and Efficient Foundation Language Models. [Preprint arXiv:2302.13971]
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems, 30.