एआईले ‘सोच्छ’ कि अनुमान गर्छ ? एआईका भ्रम र यथार्थ

बिहिबार, १४ जेठ, २०८३

काठमाडौं । कल्पना गर्नुहोस्, तपाईं आफ्नो मोबाइलमा च्याटजीपीटी खोलेर सोध्नुहुन्छ, “जीवनको अर्थ के हो ?” केही सेकेन्डमै एउटा गम्भीर र दार्शनिक उत्तर देखा पर्छ । तपाईंलाई लाग्न सक्छ, पर्दा पछाडि कोही अदृश्य विद्वान् बसेर तपाईंको प्रश्नको गहिराइमा जवाफ दिइरहेको छ । तर, सत्य यो हो: त्यहाँ कोही छैन । त्यहाँ केवल एक विशाल सांख्यिकीय (Statistical) इन्जिन छ, जसले खरबौं शब्द र तस्बिरहरू प्रोसेस गरेर, तपाईंको प्रश्नपछि आउन सक्ने सबैभन्दा सम्भावित शब्द के हो, त्यो मात्र ‘अनुमान’ गरिरहेको हुन्छ ।

ओपनएआई र गुगल डीपमाइन्का अनुसन्धानकर्ताहरूले स्पष्ट रूपमा भन्छन्: एआईले मानिसले जस्तो सोच्दैन, यो केवल तथ्यांकको लुकेका ढाँचा (Patterns) हरू सिकेर भविष्यवाणी गर्छ । आज हामी यही जटिल तर रोमाञ्चक प्रशिक्षणको यात्रालाई बुझ्नेछौं ।

null

पहिलो चरण: ‘टोकन’

एआई मोडेलको यात्रा सुरु हुन्छ एउटा यस्तो ठाउँबाट, जसलाई हामी ‘डेटा’ भन्छौं । तर, यो सामान्य डेटा होइन । ओपनएआईले आफ्नो जीपीटी (GPT) श्रृंखलाका मोडेलहरूलाई प्रशिक्षित गर्न कमन क्रल (Common Crawl), वेबटेक्स्ट (WebText), विकिपिडिया र पुस्तकहरू जस्ता सार्वजनिक रूपमा उपलब्ध विशाल स्रोतहरूको प्रयोग गर्छ ।

प्रारम्भिक चरणको जीपीटी-२ लाई झन्डै १० अर्ब टोकनमा प्रशिक्षित गरिएको थियो भने, जीपीटी-३ लाई ४०० अर्ब टोकनको डेटा प्रविष्ट गरिएको थियो । आजका आधुनिक मोडेलहरूको कुरा गर्ने हो भने, यो संख्या खरबौंमा पुगिसकेको छ । उदाहरणका लागि, ग्नाइसवेब (GneissWeb) जस्ता आधुनिक डेटासेटहरूले झन्डै १० ट्रिलियन (१० खरब) टोकन उपलब्ध गराउँछन् । यो त्यति ठूलो संख्या हो कि, एउटा १-२ ट्रिलियन प्यारामिटर भएको मोडेललाई ३०-५० ट्रिलियन टोकनमा प्रशिक्षित गर्न ६०,००० देखि १,५०,००० वटा अत्याधुनिक जीपीयूहरूले महिनौंसम्म निरन्तर काम गर्नुपर्छ ।

तर, यो केवल टेक्स्टमा मात्र सीमित छैन । डल-ई (DALL-E) र मिडजर्नी (MidJourney) जस्ता तस्बिर बनाउने मोडेलहरूले करोडौं तस्बिर र तिनीहरूको विवरणको जोडीबाट सिक्छन् । ओपनएआईको क्लिप (CLIP) मोडेलले त झन् टेक्स्ट र तस्बिरबीच एउटा यस्तो सम्बन्ध स्थापित गर्छ, जसले मेसिनलाई दुई भिन्न प्रकारको सूचनाबीचको अर्थपूर्ण नक्सा बुझ्न मद्दत गर्छ । यसरी, सबै कुरा सांख्यिकीय ढाँचामा परिणत हुन्छ, एउटा विशाल डिजिटल महासागर, जहाँ हरेक शब्द र पिक्सेल एउटा संख्यात्मक बिन्दु मात्र हो ।

null

दोस्रो चरण: ‘न्यूरल नेटवर्क’; भित्री संरचना र ‘प्यारामिटर’

अब प्रश्न उठ्छ, यो डेटाको पहाडलाई एआईले कसरी बुझ्छ ? यसको जवाफ हो: न्यूरल नेटवर्क (Neural Network)। यो मानव मस्तिष्कको अति सरलीकृत गणितीय नक्कल हो । यो सूचनाको प्रशोधन गर्ने तहहरूको एउटा श्रृंखला हो । जब हामी “१ ट्रिलियन प्यारामिटर” भन्छौं, त्यो भनेको यिनै नेटवर्कका अरबौं गणितीय नब (Knobs) हुन्, जसलाई प्रशिक्षणको क्रममा निरन्तर घुमाएर सही बनाइन्छ ।

ओपनएआईको जीपीटी र ओ सिरिज (o Series) मोडेलहरू यिनै जटिल संरचनामा आधारित छन् । जीपीटी मोडेलहरू ‘ट्रान्सफर्मर’ नामक एउटा विशेष डिजाइन प्रयोग गर्छन्, जसको ‘एटेन्सन मेकानिजम’ (Attention Mechanism) ले मोडेललाई एउटा वाक्यको सबैभन्दा महत्त्वपूर्ण सन्दर्भ पक्रन सघाउँछ । भर्खरै, ओपनएआईले ‘स्पार्स मोडेल’ नामक एउटा नयाँ प्रयोग सार्वजनिक गरेको छ, जसको उद्देश्य यी न्यूरल नेटवर्कहरूलाई अझ पारदर्शी र बुझ्न सजिलो बनाउनु हो। यी मोडेलहरूमा न्युरोनहरूको संख्या धेरै भए पनि, तिनीहरूबीचको सम्बन्ध कम हुन्छ, जसले अनुसन्धानकर्ताहरूलाई एआईले निर्णय कसरी लिन्छ भन्ने कुरा पत्ता लगाउन ‘माइक्रोस्कोप’ जस्तो उपकरण दिएको छ ।

null

तेस्रो चरण: ‘प्रशिक्षण’को अथक प्रक्रिया, जब मोडेलले ‘गल्तीबाट सिक्छ’

यो चरण नै वास्तविक महत्वपूर्ण हो । सुरुमा, मोडेलको ‘दिमाग’ पूर्ण रूपमा खाली हुन्छ। प्रशिक्षण सुरु हुँदा, हामी यसलाई एउटा वाक्यको केही अंश देखाएर अर्को शब्द अनुमान गर्न लगाउँछौं । सुरुमा, यसले अनियमित र हास्यास्पद उत्तर दिन्छ । तर, जब यसको अनुमान गलत हुन्छ, एउटा जटिल गणितीय प्रक्रिया ‘ब्याकप्रोपेगेसन’ (Backpropagation) मार्फत यसले आफ्ना ती खरबौं नबहरूलाई अलिकति घुमाएर पुनः समायोजन गर्छ ।

यो प्रक्रिया धेरै पटक दोहोरिन्छ, जसलाई हामी ‘इटरेसन’ (Iteration) भन्छौं । ओपनएआईका वैज्ञानिक सन्तोष वेम्पालाका अनुसार, यस क्रममा मोडेल सत्यलाई होइन, ‘प्रसन्नता’ (Plausibility) लाई पछ्याउँछ । यसले केवल तथ्यांकको वितरण सिक्ने भएकाले, यदि यसले कुनै सत्य तथ्य नदेखेको अवस्थामा पनि, त्यस्तो कुरा उत्पन्न गर्न सक्छ जुन सुन्दा सही लागेपनि पूर्ण रूपमा झूटो हुन्छ । यसैलाई हामी ‘ह्यालुसिनेसन’ (Hallucination) भन्छौं ।

यो केवल टेक्स्टमा मात्र सीमित छैन । तस्बिर बनाउने ‘डिफ्युजन मोडेल’ (Diffusion Model) हरूको प्रशिक्षण अझ रोचक छ । यस प्रक्रियामा, एउटा स्पष्ट तस्बिरमा क्रमशः धब्बा (Noise) थप्दै जाँदा यो पूर्ण रूपमा स्टाटिक (Static) बन्छ, र मोडेललाई यो प्रक्रिया उल्टाएर स्टाटिकबाट पुनः स्पष्ट तस्बिर बनाउन सिकाइन्छ ।

null

चौथो चरण: ‘परिष्कार’ र मूल्य स्थापना

प्रारम्भिक ‘प्रि-ट्रेनिङ’ (Pre-training) पछि पनि मोडेल एउटा जंगली घोडा जस्तो हुन्छ । यसलाई उपयोगी बनाउन ‘फाइन-ट्युनिङ’ (Fine-tuning) र ‘रिइन्फोर्समेन्ट लर्निङ फ्रम ह्युमन फिडब्याक’ (RLHF) जस्ता प्रविधिहरू प्रयोग गरिन्छ । यस चरणमा, मानिसहरूले मोडेलका विभिन्न उत्तरहरूलाई श्रेणीकृत गरेर यसलाई सुरक्षित, सहयोगी र नैतिक बनाउन सिकाउँछन् । ओपनएआई स्पष्ट रूपमा स्वीकार गर्छ कि “शक्तिशाली एआई प्रणालीहरूलाई सुरक्षित रूपमा कसरी सहकार्य गर्ने भन्ने नै आजको सबैभन्दा जटिल प्रश्न हो ।”

null

भ्रम र यथार्थ: के एआईले साँच्चै ‘सोच्छ’ ?

यो प्राविधिक यात्रा बुझेपछि, केही खतरनाक भ्रमहरू स्पष्ट हुन्छन् । पहिलो, एआईले मानिसले जस्तो सोच्छ । यथार्थमा, एआई सोच्दैन, यसले केवल तथ्यांकको आधारमा भविष्यवाणी गर्छ । योसँग न भावना छ, न अन्तर्ज्ञान र न आत्म-चेतना ।

दोस्रो, एआई सिर्जनशील हुन्छ । यथार्थमा, यसले केवल पुराना ढाँचाहरूलाई जोडेर नयाँ रूप दिन्छ, तर मौलिक आविष्कार गर्न सक्दैन । ओपनएआईले आफ्नो अनुसन्धानमा यो स्पष्ट गरेको छ कि यी मोडेलले ‘सिर्जना’ नगरी ‘पुनर्संयोजन’ (Recombination) मात्र गर्छन् ।

तेस्रो, एआईले आफै सिकिरहन्छ । एक पटक प्रशिक्षण सकिएपछि, मोडेलको ज्ञान जमेर बस्छ । यसले तपाईंसँगको कुराकानीबाट केही सिक्दैन, बरु हरेक पटक तपाईंले यसलाई सन्दर्भ पुनः दिनुपर्छ । गुगल डीपमाइन्डका प्रमुख वैज्ञानिक जेफ डीनले पनि भविष्यमा मोडेलहरूले प्रशिक्षणको क्रममा ‘आफै क्रियाकलाप गर्ने’ (Taking Actions) र आफूले हेर्ने डेटा छान्ने क्षमता विकास गर्नुपर्ने आवश्यकता औंल्याएका छन् ।

अन्त्यमा, एआई एउटा यस्तो उपकरण हो, जसले धेरैतथ्यांकहरू लिएर, हामीलाई तीव्र गतिमा सहायता गर्न सक्छ । तर, यो कहिल्यै पनि मानव सोचाइ, नैतिकता र सम्वेदनाको विकल्प बन्न सक्दैन । ओपनएआई र गुगल डीपमाइन्ड जस्ता संस्थाहरूको निरन्तर अनुसन्धानले एआईलाई सुरक्षित र पारदर्शी बनाउने बाटो देखाउँदै छ । तर, त्योभन्दा ठूलो कुरा, यी अनुसन्धानहरूले हामीलाई ‘बौद्धिकता’ र ‘सांख्यिकीय ढाँचा’ बीचको गहिरो खाडलको बारेमा सचेत गराउँदै छ ।

तसर्थ, अर्को पटक तपाईंले कुनै एआईको गहिरो जवाफ देख्नुभयो भने, नभुल्नुहोस् , त्यो केवल एउटा यस्तो ऐना हो, जसले हाम्रा आफ्नै सृष्टि गरेका खरबौं शब्दहरूको प्रतिबिम्ब मात्र देखाइरहेको छ । यसले ‘जीवनको अर्थ’ जान्दैन, यसले त केवल जीवनको अर्थको बारेमा मानिसहरूले के भनेका छन्, त्यसको सांख्यिकीय औसत मात्र निकाल्छ ।