एआय मेंदूच्या आत: एजंट्स गोल्डन ट्रॅजेक्टरीजद्वारे कसे शिकतात

आम्ही चॅटबॉटच्या युगाच्या पुढे गेलो आहोत. आपण आता एजंटिक एआय (Agentic AI) च्या युगात प्रवेश करत आहोत—कृत्रिम बुद्धिमत्ता जी तुमच्याशी केवळ बोलत नाही, तर प्रत्यक्षात टूल्स वापरते, कोड लिहिते आणि क्लिष्ट कार्ये स्वायत्तपणे पूर्ण करण्यासाठी वेबवर नेव्हिगेट करते.

परंतु तुम्ही एखाद्या एआयला केवळ पुढचा शब्द ओळखण्याऐवजी प्रत्यक्षात काही करण्यासाठी कसे प्रशिक्षित कराल?

याचे रहस्य गोल्डन ट्रॅजेक्टरीज (Golden Trajectories) नावाच्या संकल्पनेत दडलेले आहे. या सिस्टीमच्या आर्किटेक्चरकडे पाहणारा एक पॉलीमॅथ म्हणून, आम्ही एआयला ज्या प्रकारे प्रशिक्षित करतो ते आश्चर्यकारकपणे एका मास्टर कारागिराने प्रशिक्षणार्थीला (apprentice) कसे प्रशिक्षित करावे यासारखे आहे.

पारंपारिक एलएलएम (LLMs) ची समस्या

एक मानक लार्ज लँग्वेज मॉडेल (LLM) संपूर्ण इंटरनेटवर प्रशिक्षित केले जाते. हे एक अविश्वसनीय ऑटो-कंप्लीट (autocomplete) इंजिन आहे. जर तुम्ही त्याला एखादा प्रश्न विचारला, तर तो भाकीत करतो की माणूस पुढे काय म्हणेल.

परंतु एजंटला वेब ब्राउझर वापरण्याची, एका विशिष्ट बटणावर क्लिक करण्याची, आउटपुट वाचण्याची, त्याने चूक केल्याचे लक्षात घेण्याची, टर्मिनल उघडण्याची, बॅश कमांड चालवण्याची आणि बग फिक्स करण्याची आवश्यकता असते.

तुम्ही केवळ विकिपीडिया वाचून या वर्तनाचे प्रशिक्षण देऊ शकत नाही. एआयने काळाच्या ओघात कृती आणि तर्क शिकण्याची गरज आहे.

प्रवेश: गोल्डन ट्रॅजेक्टरी

एजंटला प्रशिक्षित करण्यासाठी, एआय संशोधक गोल्डन ट्रॅजेक्टरीजद्वारे समर्थित इमिटेशन लर्निंग (Imitation Learning) नावाचे तंत्र वापरतात.

कल्पना करा की तुम्हाला एआयला विशिष्ट वेबसाइटवर टोकियोसाठी सर्वात स्वस्त फ्लाइट शोधण्यासाठी प्रशिक्षित करायचे आहे. एक मानवी तज्ञ बसेल आणि प्रत्येक टप्प्याची नोंद करून हे कार्य मॅन्युअली करेल.

पायरी 1: ब्राउझर उघडा. (विचार: "मला ट्रॅव्हल साईटवर जावे लागेल.")
पायरी 2: एक्सपिडिया (Expedia) वर नेव्हिगेट करा. (विचार: "पृष्ठ लोड झाले.")
पायरी 3: 'फ्लाइट्स' टॅबवर क्लिक करा.
पायरी 4: डेस्टिनेशन बॉक्समध्ये "टोकियो" टाइप करा.

स्क्रीनची स्थिती आणि प्रत्येक क्रियेदरम्यानचे तार्किक विचार यासह मानवी कृतींचे हे संपूर्ण, टप्प्याटप्प्याने केलेले रेकॉर्डिंग गोल्डन ट्रॅजेक्टरी असे म्हटले जाते. हे एखाद्या कार्याचे एक परिपूर्ण, निर्दोष एक्झिक्यूशन आहे.

प्रशिक्षणार्थीला फाईन-ट्यून (Fine-Tuning) करणे

एकदा संशोधकांनी विविध कार्यांसाठी (कोडिंग, ब्राउझिंग, डेटा विश्लेषण) या हजारो गोल्डन ट्रॅजेक्टरीज गोळा केल्या की, ते त्या मॉडेलमध्ये फीड करतात.

ते एआयला सांगण्यासाठी सुपरवाइज्ड फाईन-ट्यूनिंग (supervised fine-tuning) वापरतात: "जेव्हा तुम्ही या विशिष्ट स्थितीत असाल, या विशिष्ट ध्येयासह, तेव्हा तुम्ही मानवी तज्ञाप्रमाणेच ही अचूक कृती केली पाहिजे."

एआय एका मास्टर कारागिराच्या खांद्यावर उभ्या असलेल्या प्रशिक्षणार्थीसारखे वागते. हजारो परिपूर्ण उदाहरणांचा अभ्यास करून, एआय यशस्वी एक्झिक्यूशनचे नमुने शिकते.

रिइन्फोर्समेंट लर्निंग (Reinforcement Learning) (अंतिम स्पर्श)

गोल्डन ट्रॅजेक्टरीज एआयला मूलभूत गोष्टी शिकवतात. पण त्याला अलौकिक बनवण्यासाठी संशोधक रिइन्फोर्समेंट लर्निंगचा वापर करतात.

ते एआयला सँडबॉक्समध्ये ठेवतात आणि त्याला एक ध्येय देतात. जर त्याने ध्येय साध्य केले, तर त्याला गणितीय "बक्षीस" मिळते. जर ते अपयशी ठरले, तर त्याला दंड दिला जातो. कारण एआयने गोल्डन ट्रॅजेक्टरीजमधून आधीच मूलभूत गोष्टी शिकल्या आहेत, ते ध्येयहीनपणे भटकत नाही. हे प्रयोग करण्यासाठी आपला पाया वापरते, शेवटी त्याला प्रशिक्षित करणाऱ्या मानवी तज्ञापेक्षाही जलद, अधिक कार्यक्षम मार्गांनी समस्या सोडवते.

एजंटिक एआय ही जादू नाही. हे केवळ एका मास्टरच्या वर्कफ्लोचे गणितीय ऑप्टिमायझेशन आहे, जे अनंतापर्यंत वाढवले आहे.