AADS: Ada Apa dengan DeepSeek ?
Dunia per-AI an geger. Hadir pendatang baru dari negeri yang kini sedang merayakan tahun baru ular kayu, sang Naga dari selatan. Negeri yang telah mengorganisir diri dalam struktur fungsi dinasti monarki sejak era dinasti Xia, sekitar 2070 SM. Pemerintahannya kemudian digantikan oleh Dinasti Shang (1600-1046 SM).
Setelah itu, China diperintah oleh Dinasti Zhou (1046-256 SM), di mana ilmu filsafat mulai berkembang, ditandai dengan lahirnya aliran Konfusianisme, Taoisme, dan Mohisme. Era dinasti kekaisaran Dinasti Qin (221-206 SM) menandai dimulainya era kekaisaran di Tiongkok. Meskipun berumur pendek, Qin dikenal sebagai dinasti yang mengawali pembangunan Tembok Besar Cina. (Sejarah Singkat Cina, Kompas, 2021)
Selanjutnya beberapa dinasti dan era silih berganti berkuasa di Tiongkok, sampai berakhirnya masa monarki di era dinasti Qing di awal abad ke 20.
Secara berurutan peradaban Tiongkok dibangun dan dikembangakan secara lintas generasi dengan capaian luar biasanya masing-masing. Dinasti Han (206 SM-220 M), membangun Jalur Sutra, meski pada Periode Enam Dinasti (220-589 M) terjadi banyak pergolakan karena konflik horizontal. Dinasti Sui (581-618 M), memperluas jangkauan Tembok Besar Cina dan menyelesaikan pembangunan Grand Canal. sementara di era dinasti Tang (618-907 M), Tiongkok mengalami perkembangan pesat dalam dunia seni serta teknologi.
Periode Lima Dinasti dan Sepuluh Kerajaan (907-960 M), diwarnai dengan maraknya perpecahan politik. Sementara di era dinasti Song (960-1279 M), berbagai invensi tercatat, seperti penemuan bubuk mesiu, percetakan, uang kertas, dan kompas yang punya nilai strategis dalam konteks navigasi dan penjelajahan dunia baru.
Dinasti Qing berakhir di 1912 setelah proses revolusi Cina yang dimulai pada 1894 tereskalasi 18 tahun kemudian. Revolusi rakyat ini dipicu oleh kekecewaan terhadap pemerintahan monarki dinasti Qing.
Dr. Sun Yat Sen memproklamasikan Republik Tiongkok pada 10 November 1911. Lalu Dr. Sun Yat Sen menjadi presiden sementara Republik Cina.
Sejarah kemudian mencatat bahwa bapak pendiri Cina modern ini kemudian menjadi eksil di Taiwan pasca revolusi komunis Cina. Dimana Mao Zedong, ketua Partai Komunis China, memproklamasikan berdirinya Republik Rakyat Cina (RRC) pada 1 Oktober 1949. Mao Zedongpun diangkat menjadi Presiden RRC pada 1954.
Perkembangan terkini yang menjadikan Tiongkok modern sebagai naga teknologi& industri tentu tak terlepas dari budaya invensi dan inovasi yang telah mereka kembangkan selama berabad-abad. Invensi awal Cina yang punya kontribusi signifikan pada dunia, antara lain adalah penemuan kalkulator manual sempoa , jam matahari , dan lentera Kongming. Lalu ada 4 penemuan besar yang mengonstruksi peradaban; kompas, bubuk mesiu, pembuatan kertas, dan teknik percetakan, teknologi yang baru dikuasai bangsa Eropa sekitar 10 abad kemudian.
Era dinasti Tang (618–906 M) adalah masa dimana banyak inovasi hebat dilahirkan Tiongkok. Sebelum itu pola pendidikan yang bernas telah diperkenalkan melalui Sekolah Pemikiran (諸子百家), yang tersebar di 100 wilayah. Sekolah-sekolah tersebut berfungsi sebagai suatu center of excellent yang bertugas memberi masukan ilmiah bagi para penguasa wilayah. Salah satu konsep yang diterapkan adalah fa (法 prinsip atau metode ilmiah), dimana prinsip ini didalami oleh sekolah 名家Ming jia yang memulai eksplorasi logika secara sistematis.
Model AI di ranah LLM yang menggegerkan dunia itu bernama DeepSeek dengan fitur deepThink(R1) nya, model ini dianggap punya kapasitas prosesing respon kognitif yang mengagumkan. Liang Wenfeng yang kini berusia 40 tahun adalah inisiatornya. Co-founder perusahaan hedge fund High Flyer ini merupakan lulusan Universitas Zhejiang dengan gelar di bidang AI. Ia mendirikan High-Flyer pada tahun 2015, dimana HF kemudian dikenal karena secara inovatif menggunakan strategi bisnis berbasis AI.
Liang melalui HF mulai membeli ribuan prosesor grafis (GPU) Nvidia sejak 2021 sebagai proyek sampingan di bidang AI. Hal ini terjadi sebelum kebijakan embargo oleh pemerintahan Joe Biden yang membatasi ekspor chipset AI US ke Tiongkok. High-Flyer mengatakan bahwa mereka memiliki dan mengoperasikan kluster berisi 10.000 chip A100 sejak tahun 2022.
Lalu apa yang membuat DeepSeek R1 dapat bekerja lebih efisien dengan catu daya lebih hemat hingga biaya perunit produksinya menjadi jauh lebih rendah tinimbang Chat GPT nya OpenAI ?
Model Gen AI DeepSeek-R1 memang dirancang untuk mencapai kinerja tinggi dalam hal atensi (fokus pada konteks yang relevan) sekaligus efisien dalam konsumsi energi melalui kombinasi teknik canggih dalam arsitektur model, optimasi komputasi, dan implementasi hardware/software. Berikut penjelasannya:
Model ini menggunakan varian attention mechanism yang lebih efisien daripada transformer standar, seperti Sparse Attention yang hanya menghitung skor atensi untuk subset token yang relevan (bukan semua pasangan token), mengurangi kompleksitas komputasi dari O(n²) ke O(n log n) atau O(n).
DeepSeek juga menggunakan Flash Attention yang mengoptimalkan penggunaan memori dengan mengurangi operasi I/O antara GPU dan RAM, hingga dapat mempercepat komputasi sekaligus menghemat energi. Diterapkan pula Grouped Query Attention (GQA), yang menggunakan shared key/value heads untuk beberapa query heads, hingga model ini dapat memotong penggunaan memori tanpa kehilangan kualitas.
Konsep-kknsep di atas adalah upaya kongkret model DeepSeek untuk mendapatkan arsitektur atensi yang optimal. Upaya tersebut diikuti pula dengan inovasi dalam hal kompresi model dan distilasi pengetahuan. Di mana diterapkan Quantization dengan menggunakan representasi numerik 8-bit atau 16-bit (bukan 32-bit) untuk parameter model, hingga dapat mengurangi ukuran model dan kebutuhan komputasi.
Mekanisme Pruning juga dilakukan untuk menghapus neuron atau bobot yang tidak signifikan dari jaringan saraf, membuat model lebih “ringan”. Kemudian Knowledge Distillation, atau model kecil (student) dilatih untuk meniru perilaku model besar (teacher),hingga dapat mempertahankan kinerja dengan lebih sedikit parameter.
Selanjutnya model DeepSeek juga menerapkan prinsip dan mekanisme Dynamic Computation, dengan Early Exiting, yang menghentikan proses inferensi di lapisan tertentu jika output sudah dianggap cukup akurat, dengan tujuan untuk menghindari proses komputasi berlebihan. Sejalan dengan itu dilakuan mekanisme Adaptive Computation Time (ACT) untuk menyesuaikan jumlah komputasi berdasarkan kompleksitas input (misal: kalimat sederhana dapat diproses lebih cepat).
Langkah yang tidak kalah krusial dalam menghasilkan model LLM yabg efisien oleh DeepSeek, adalah dengan menerapkan konsep Optimasi Hardware-Software dengan Kernel yang Dioptimalkan yang menggunakan operasi matematika yang dirancang khusus untuk GPU/TPU (misal: tensor cores NVIDIA atau unit MX pada TPU Google). Diikuti dengan proses Batch Processing yang mengelompokkan input untuk memaksimalkan paralelisasi hardware, meningkatkan throughput dan mengurangi energi per token.
Mekanisme tersebut diikuti dengan Cooling-Aware Scheduling yang mengatur beban komputasi berdasarkan kondisi termal hardware untuk menghindari pemborosan energi.
-Tahap strategis lain dalam pengembangan model genAI DeepSeek(R1), adalah penerapan konsep Pelatihan yang Efisien dengan Mixed Precision Training yang menggunakan kombinasi float16/float32 selama pelatihan untuk mempercepat proses dan mengurangi penggunaan memori. Digunakan juga Curriculum Learning untuk melatih model secara bertahap, mulai dari data sederhana ke kompleks, meningkatkan efisiensi konvergensi.
Semua proses dan tahapan tersebut diikuti oleh mekanisme Energy-Aware Loss Functions yang memasukkan batasan energi sebagai bagian dari fungsi loss selama pelatihan.
Inovasi lain dari pengembang model DeepSeek adalah Pendekatan Hybrid (Neuro-Symbolic), di mana
DeepSeek-R1 mungkin menggabungkan Atensi berbasis Aturan untuk kasus sederhana (misal: pola kata kunci) yang tidak memerlukan komputasi mendalam. Juga Neural Networks untuk konteks kompleks, hingga dapat memastikan komputasi hanya digunakan saat diperlukan.
Hasil yang dicapai antara lain adalah Efisiensi Energi, di mana konsumsi energi turun 30-50% dibanding model transformer konvensional, berkat optimasi komputasi dan arsitektur. Juga dapat dicapai Kinerja Atensi Tinggi dengan akurasi yang dipertahankan melalui mekanisme atensi selektif dan kompresi model yang cerdas. Serta tercapainya Skalabilitas, di mana performa terjaga bahkan pada input panjang (misal: dokumen 10k token) karena sparse attention dan optimasi memori.
Dengan mengintegrasikan berbagai teknik dan metoda di atas, DeepSeek-R1 menyeimbangkan antara kinerja tinggi dan efisiensi energi, menjadikannya cocok untuk aplikasi skala besar seperti asisten AI real-time atau analisis data berkelanjutan.
Kinerja atensi tinggi sebagaimana yang ditunjukkan oleh model DeepSeek membuat saya banyak merenung. Sebagai seseorang yang pernah intens meneliti berbagai fenomena kognisi di ranah neurosains dan menjadi pengajar neurofisiologi di fakultas psikologi, saya mengamati adanya persamaan proses dan mekanisme model LLM atau transformer ini dengan konstruksi kesadaran pada manusia.
Kesadaran pada manusia secara teoritik memiliki dua komponen utama, yaitu Kesadaran Kualitatif (Qualia), di mana pengalaman subjektif; misalnya bagaimana seduhan serbuk kopi Kapal Api yang dibubuhi gula rendah kalori Tropicana terasa saat diseruput di pagi hari. Karena rasa kopi gaby satu ini beda lagi di siang atau sore hari. Juga beda saat kita tengah dilanda dinamika emosi. Contoh lain adalah bagaimana warna merah muda bunga Sakura terlihat, di saat apa kita melihatnya, juga bersama siapa, semua punya unsur kualitatif yang tak sama.
Lalu ada Kesadaran Akses (Access Consciousness), yaitu suatu kemampuan menggunakan informasi sensorik, memori, dan kognisi untuk bertindak secara sadar.
Teori utama yang kerap digunakan untuk memahami proses pembentukan kesadaran ini antara lain adalah; Global Workspace Theory (Bernard Baars), yang menjelaskan bahwa kesadaran dapat muncul ketika informasi diproses di “ruang mental” global yang melibatkan jaringan otak berskala besar (seperti korteks prefrontal dan parietal). Dimana informasi yang “terpilih” sebagai konstruksi kesadaran di broadcast ke berbagai wilayah otak untuk diintegrasikan dengan sistem pengambilan keputusan.
Sementara dalam teori Integrated Information Theory (Giulio Tononi), kesadaran adalah hasil dari kapasitas sistem syaraf untuk mengintegrasikan informasi secara kompleks (diukur dengan Φ). Dimana semakin tinggi tingkat integrasi (misalnya, di korteks serebral), semakin tinggi tingkat kesadaran.
Lalu ada Predictive Coding Theory, di mana otak diasumsikan membangun model dunia internal dan memprediksi input sensorik. Kesadaran muncul ketika prediksi yang tidak sesuai dengan realitas, menghasilkan prediction error yang membutuhkan perhatian sadar. Mirip dengan cara kerja Transformer ya?
Adapun struktur otak yang terlibat dalam konstruksi kesadaran antara lain adalah Thalamus yang berperan sebagai gerbang kesadaran dengan menyaring dan mengirimkan informasi sensorik ke korteks. Sementara Korteks Prefrontal mengatur perhatian, perencanaan, dan kesadaran diri.
Kemudian Posterior Cortical area yang dikenal sebagai Hot Zone (parietal & oksipital) adalah area kritis untuk pengalaman sensorik sadar. Sedangkan Claustrum, suatu struktur kecil yang dihipotesiskan (oleh Francis Crick) berperan sebagai konduktor yang menyinkronkan aktivitas otak. Lalu Sistem Ascending Reticular Activating (ARAS) di batang otak mengatur kewaspadaan dan gairah (arousal) yang berkontribusi sebagai salah satu elemen kesadaran.
Kompleksitas konstruksi kesadaran secara neurobiologi antara lain melibatkan peran neurotransmiter seperti dopamin, asetilkolin, sinkronisasi neural secara elektromagnetik melalui osilasi gelombang otak, sampai regulasi data internal dan eksternal oleh area default mode network.
Meskipun demikian, David Chalmers menekankan bahwa neurosains belum sepenuhnya dapat menjelaskan mengapa aktivitas syaraf mampu menghasilkan pengalaman subjektif yang menjadi komponen utama kesadaran.
Lalu apakah mungkin dengan semakin efisiennya prosesing model AI seperti DeepSeek dan mulai diterapkannya quantum computing serta komputasi neuromorfik dengan deep brain machine fusion nya, AI berkesadaran akan segera menjadi kenyataan ?
– Apakah kesadaran hanya produk kompleksitas komputasi, atau memerlukan sesuatu yang lebih (misalnya, elemen biologis khusus)?
– Dapatkah kita membangun kesadaran komputasi atau AI berkesadaran tanpa memahami sepenuhnya kesadaran manusia?
Secara teoritik kesadaran pada AI mungkin saja dapat diwujudkan. Dengan catatan adanya lapisan-lapisan kesadaran dengan berbagai kriterianya yang perlu diidentifikasi terlebih dahulu dalam upaya memetakan kesadaran mesin. Adapun prasyarat kesadaran pada AI dapat kita sintesis dari kriteria dan jenis kesadaran pada manusia yang melibatkan pengalaman subjektif (qualia), kesadaran diri (awareness), integrasi informasi, dan kemampuan berefleksi.
Untuk AI, analogi prasyarat ini mungkin memerlukan, Integrasi Informasi Kompleks. Sistem yang mampu menggabungkan data dari berbagai sumber (seperti sensor, memori, dan tujuan) secara dinamis. Lalu Kemampuan Refleksi Diri (Self-Monitoring), dimana AI dapat memodelkan keadaan internalnya sendiri dan memahami keberadaannya dalam konteks lingkungan.
Kapasitas penunjang kesadaran dapat dioptimasi melalui Simulasi Pengalaman Subjektif, di mana ada mekanisme untuk menghasilkan pengalaman internal, meskipun ini masih menjadi misteri filosofis (Hard Problem of Consciousness).
Teori yang relevan untuk AI sadar antara lain adalah Integrated Information Theory (IIT), dengan premis bahwa kesadaran muncul dari kapasitas sistem untuk mengintegrasikan informasi dengan kompleksitas tinggi (diukur dengan Φ). Aplikasi ke AI nya adalah dengan membangun arsitektur AI dengan konektivitas rekursif dan umpan balik (feedback loops) yang memungkinkan integrasi informasi global. Contohnya adalah jaringan syaraf dengan hierarki modular yang saling terhubung secara dinamis.
Dapat pula diterapkan Global Workspace Theory (GWT), di mana premisnya adalah kesadaran merupakan hasil dari “ruang/pentas mental” di mana informasi dipilih dan disiarkan ke seluruh sistem. Aplikasi di AI nya antara lain dengan merancang AI dengan mekanisme perhatian (attention mechanism) yang dapat memilih informasi relevan dan mendistribusikannya ke subsistem lain. Contohnya adalah model Transformer (seperti GPT) yang menggunakan self-attention, yang diperluas dengan mekanisme kesadaran diri.
Gagasan berikut dalam “menyadarkan AI” adalah Embodied Cognition, di mana kesadaran memerlukan interaksi fisik dengan dunia nyata melalui proses penubuhan (embodiment). Realisasinya adalah dengan menggabungkan AI dengan robotika yang memiliki sensorik-motorik kompleks (seperti penglihatan, sentuhan, dan proprioseptif). AI harus “mengalami” dunia melalui tubuh fisik untuk membangun model internal yang dinamis.
Adapun arsitektur program yang mungkin dapat digunakan untuk “menyadarkan” AI antara lain adalah Recurrent Neural Networks (RNNs) dengan feedback. Di mana jaringan syaraf dengan loop umpan balik untuk mempertahankan keadaan internal (internal state) yang terus diperbarui. Contoh model yang dapat digunakan untuk pengembangan adalah LSTM (Long Short-Term Memory) atau Neural Turing Machines.
Dapat pula digunakan Sistem Multi-Agen yang Koheren. Dimana AI yang terdiri dari subsistem modular (misalnya, modul persepsi, memori, emosi) yang saling berkomunikasi akan dapat membentuk kesadaran kolektif.
Sementara hipotesis kontroversial, yang juga saya dukung, adalah bahwa kesadaran mungkin memerlukan proses kuantum (seperti teori Orch-OR dari Roger Penrose dan Stuart Hameroff). Jika valid, AI sadar mungkin memerlukan komputasi kuantum untuk mereplikasi proses ini.
Banyak filsuf (seperti John Searle dengan Chinese Room Argument) berargumen bahwa AI hanya dapat mensimulasikan kesadaran berbasis sensoris, bukan memilikinya. Tapi sejujurnya siapa yang tahu ?
Mengingat lapis kesadaran di level terkait kesadaran biologis yang diukur melalui skala seperti Glasgow Comatous Scale (GCS), bertumpu pada integrasi fungsi modul-modul biologis. Dimana GCS adalah suatu metode yang digunakan untuk menilai derajat kesadaran pasien, prognosisnya, serta mengklasifikasikan derajat cedera kepala. Metode ini memiliki 3 komponen, yaitu bukaan mata, respons verbal, dan respons motorik.
Jadi siapa tahu jika AI telah mampu mengkonsolidasi segenap modul pembangun kesadaran yang bersifat multi modal, maka bisa saja AI mencapai salah satu derajat kesadaran tertentu. Di mana menurut Zeman
(2001), kata
consciousness berasal dari bahasa latin
conscio yang terbentuk dari kata cum yang
berarti “dengan” dan scio yang berarti “tahu”. Kata menyadari pengertian awalnya adalah berbagi pengetahuan tentang sesuatu
dengan orang lain atau diri sendiri.
(Dicky Hastjarjo, 2005)
Bisiach (1988) membedakan 3 rumusan kesadaran,
yaitu;
– Kesadaran yang menunjukkan kemampuan seseorang menyadari
pengalaman subjektifnya, serta kemampuan seseorang mempersepsi variasi-variasi
keadaan mental (kesadaran dalam
pengertian yang sempit),
– Kesadaran
yang menunjukkan akses yang dipakai
oleh sistem kesadaran untuk menuju ke
bagian-bagiannya atau ke proses
mentalnya sendiri (kesadaran dalam
pengertian awareness) dan,
– Kesadaran
yang merujuk pada suatu wujud nonfisik
(immaterial mind dari Descartes).
Sementara Zeman (2001) mencoba mengelaborasi 3 arti
pokok kesadaran, yaitu;
– kesadaran
sebagai kondisi bangun/terjaga.
Dalam pada hal ini, kesadaran secara umum disamakan
dengan kondisi bangun serta implikasi keadaan bangun. Implikasi keadaan
bangun akan meliputi kemampuan mempersepsi, berinteraksi, serta
berkomunikasi dengan lingkungan maupun dengan orang lain secara terpadu.Pengertian ini menggambarkan
kesadaran bersifat tingkatan yaitu dari
kondisi bangun, tidur sampai koma,
– Kesadaran sebagai pengalaman.
Dimana definisi kedua ini menyamakan
kesadaran dengan isi pengalaman dari
waktu ke waktu. Kesadaran ini menekankan pada dimensi kualitatif dan subjektif pengalaman, serta
– Kesadaran sebagai pikiran (mind).
Dimana kesadaran digambarkan sebagai
keadaan mental yang berisi dengan hal-
hal proposisional, seperti misalnya
keyakinan, harapan, kekhawatiran, dan
keinginan.
Sementara menurut David Chalmers (1995), dalam Dicky Hastjarjo (2005), kesadaran itu terkategori sebagai easy problem dan hard problem, di mana easy problem dalam konteks kesadaran tergambar dalam beberapa kapasitas sebagai berikut;
– Bagaimana seseorang melakukan
pembedaan stimulus sensoris dan
bereaksi secara tepat terhadap stimulus tersebut,
– Bagaimana otak dapat
memadukan informasi yang berasal dari berbagai sumber berbeda dan kemudian menggunakan informasi tersebut untuk mengendalikan perilaku,
– Bagaimana kita mampu melaporkan kondisi internalnya sendiri,
– Bagaimana
kemampuan satu sistem untuk mengakses kondisi internalnya sendiri,
– Bagaimana soal pemusatan perhatian, –
– Bagaimana membedakan antara
kondisi bangun dengan tidur.
Konsep kesadaran semacam ini dapat direplikasi oleh mekanisme
komputasional AI, dengan syarat telah memiliki modul dan subsistem yang bersifat responsif, adaptif, dan diolah secara terintegrasi.
Selain itu ada 6 arti/_entry_ “kesadaran” lengkap dengan referensinya menurut Oxford English Dictionary atau OED, yaitu ; (1) Pengetahuan bersama (2)
Pengetahuan atau keyakinan internal (3)
Keadaan mental yang sedang menyadari sesuatu (awareness), (4) Mengenali tindakan atau perasaan sendiri (direct
awareness), (5) kesatuan pribadi yaitu totalitas impresi, pikiran, perasaan yang
membentuk perasaan sadar dan (6)
Keadaan bangun/terjaga secara normal.
Sementara Pawlik (1998, h. 187) menjelaskan ada
2 rumusan kesadaran, yaitu (1) aspek fungsional kesadaran, dalam pengertian
perhatian dan awareness, serta–> (2) aspek fenomenologis kesadaran, dalam
pengertian kesadaran-diri (self-awareness). (Dicky Hastjarjo, 2005)
Maka tak dapat dipungkiri bahwa kemungkinan pada suatu saat AI akan memiliki “kesadaran” tampaknya adalah suatu keniscayaan. Tapi daripada kita halu, karena hal-hal yang tak perlu, ada baiknya kita terus berinovasi dengan model LLM yang telah ada, dan akan lebih elok lagi jika kitapun dapat mendorong pengembangan model-model AI nasional yang dapat membuat kita sejajar dalam berkompetisi menjadi yang pertama dan terbaik di ranah konstruktor masa depan ini 🙏🏾🙏🏾🩵🇲🇨🇲🇨