एआई मस्तिष्क के अंदर: एजेंट गोल्डन ट्रैजेक्टरी के माध्यम से कैसे सीखते हैं

हम चैटबॉट के युग से आगे बढ़ चुके हैं। हम अब एजेंटिक एआई (Agentic AI) के युग में प्रवेश कर रहे हैं—कृत्रिम बुद्धिमत्ता जो न केवल आपसे बात करती है, बल्कि वास्तव में टूल का उपयोग करती है, कोड लिखती है, और जटिल कार्यों को स्वायत्त रूप से पूरा करने के लिए वेब नेविगेट करती है।

लेकिन आप एक एआई को सिर्फ अगला शब्द अनुमान लगाने के बजाय वास्तव में कुछ करने के लिए कैसे प्रशिक्षित करते हैं?

रहस्य गोल्डन ट्रैजेक्टरी (Golden Trajectories) नामक अवधारणा में निहित है। इन प्रणालियों की वास्तुकला को देखने वाले एक पॉलीमैथ के रूप में, जिस तरह से हम एआई को प्रशिक्षित करते हैं, वह आश्चर्यजनक रूप से इस बात के समान है कि एक मास्टर शिल्पकार एक प्रशिक्षु (apprentice) को कैसे प्रशिक्षित करता है।

पारंपरिक एलएलएम (LLMs) के साथ समस्या

एक मानक लार्ज लैंग्वेज मॉडल (LLM) को पूरे इंटरनेट पर प्रशिक्षित किया जाता है। यह एक अविश्वसनीय स्वतः पूर्ण (autocomplete) इंजन है। यदि आप इससे कोई प्रश्न पूछते हैं, तो यह भविष्यवाणी करता है कि कोई इंसान आगे क्या कहेगा।

लेकिन एक एजेंट को वेब ब्राउज़र का उपयोग करने, एक विशिष्ट बटन पर क्लिक करने, आउटपुट पढ़ने, यह महसूस करने की आवश्यकता होती है कि उसने कोई गलती की है, टर्मिनल खोलें, बैश कमांड चलाएँ, और बग को ठीक करें।

आप केवल विकिपीडिया पढ़कर इस व्यवहार को प्रशिक्षित नहीं कर सकते। एआई को समय के साथ कार्यों और तर्कों को सीखने की आवश्यकता है।

प्रवेश करें: गोल्डन ट्रैजेक्टरी

एक एजेंट को प्रशिक्षित करने के लिए, एआई शोधकर्ता गोल्डन ट्रैजेक्टरी द्वारा संचालित इमिटेशन लर्निंग (Imitation Learning) नामक तकनीक का उपयोग करते हैं।

कल्पना कीजिए कि आप एक विशिष्ट वेबसाइट पर टोक्यो के लिए सबसे सस्ती उड़ान खोजने के लिए एआई को प्रशिक्षित करना चाहते हैं। एक मानव विशेषज्ञ बैठ जाएगा और हर एक कदम को रिकॉर्ड करते हुए इस कार्य को मैन्युअल रूप से करेगा।

चरण 1: ब्राउज़र खोलें। (विचार: "मुझे ट्रैवल साइट पर जाने की जरूरत है।")
चरण 2: एक्सपीडिया (Expedia) पर नेविगेट करें। (विचार: "पृष्ठ लोड हो गया।")
चरण 3: 'फ्लाइट्स' टैब पर क्लिक करें।
चरण 4: गंतव्य बॉक्स में "टोक्यो" टाइप करें।

मानव के कार्यों की इस संपूर्ण, चरण-दर-चरण रिकॉर्डिंग, जिसमें स्क्रीन की स्थिति और प्रत्येक क्रिया के बीच तार्किक विचार शामिल हैं, को गोल्डन ट्रैजेक्टरी कहा जाता है। यह एक कार्य का एक आदर्श, निर्दोष निष्पादन है।

प्रशिक्षु (Apprentice) की फाइन-ट्यूनिंग

एक बार जब शोधकर्ता विभिन्न कार्यों (कोडिंग, ब्राउज़िंग, डेटा विश्लेषण) के लिए इनमें से हजारों गोल्डन ट्रैजेक्टरी एकत्र कर लेते हैं, तो वे उन्हें मॉडल में फीड करते हैं।

वे एआई से कहने के लिए पर्यवेक्षित फाइन-ट्यूनिंग (supervised fine-tuning) का उपयोग करते हैं: "जब आप इस विशिष्ट स्थिति में होते हैं, इस विशिष्ट लक्ष्य के साथ, तो आपको यह सटीक कार्रवाई करनी चाहिए, ठीक वैसे ही जैसे मानव विशेषज्ञ ने किया था।"

एआई एक मास्टर शिल्पकार के कंधे पर खड़े एक प्रशिक्षु की तरह काम करता है। हजारों परिपूर्ण उदाहरणों का अध्ययन करके, एआई सफल निष्पादन के पैटर्न सीखता है।

सुदृढीकरण सीखना (Reinforcement Learning) (अंतिम चमक)

गोल्डन ट्रैजेक्टरी एआई को मूल बातें सिखाती है। लेकिन इसे अलौकिक बनाने के लिए, शोधकर्ता रीइन्फोर्समेंट लर्निंग का उपयोग करते हैं।

वे एआई को एक सैंडबॉक्स में रखते हैं और उसे एक लक्ष्य देते हैं। यदि वह लक्ष्य प्राप्त कर लेता है, तो उसे एक गणितीय "इनाम" मिलता है। यदि यह विफल हो जाता है, तो इसे दंडित किया जाता है। चूंकि एआई ने पहले ही गोल्डन ट्रैजेक्टरी से मूल बातें सीख ली हैं, इसलिए यह लक्ष्यहीन रूप से नहीं भटकता है। यह प्रयोग करने के लिए अपनी नींव का उपयोग करता है, अंततः इसे प्रशिक्षित करने वाले मानव विशेषज्ञ की तुलना में समस्याओं को हल करने के लिए तेज़, अधिक कुशल तरीके खोजता है।

एजेंटिक एआई कोई जादू नहीं है। यह केवल एक मास्टर के वर्कफ़्लो का गणितीय अनुकूलन है, जिसे अनंत तक बढ़ाया गया है।