AI மூளைக்குள்: ஏஜெண்டுகள் கோல்டன் ட்ராஜெக்டரிகள் மூலம் எவ்வாறு கற்றுக்கொள்கின்றன
மேம்பட்ட AI ஏஜெண்டுகள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன என்பதை விளக்குதல். இது மேஜிக் அல்ல, இது இமிடேஷன் லேர்னிங் (imitation learning) மற்றும் கோல்டன் ட்ராஜெக்டரிகள் (golden trajectories).
சாட்போட்களின் சகாப்தத்தை நாம் கடந்துவிட்டோம். நாம் இப்போது ஏஜென்டிக் AI (Agentic AI) சகாப்தத்தில் நுழைகிறோம்—இது உங்களுடன் பேசுவது மட்டுமல்லாமல், கருவிகளைப் பயன்படுத்துகிறது, குறியீட்டை எழுதுகிறது மற்றும் சிக்கலான பணிகளைத் தன்னிச்சையாக நிறைவேற்ற வலையை (web) வழிநடத்துகிறது.
ஆனால் அடுத்த வார்த்தையை மட்டும் கணிப்பதற்குப் பதிலாக உண்மையில் விஷயங்களைச் செய்ய ஒரு AI க்கு நீங்கள் எப்படிப் பயிற்சி அளிப்பீர்கள்?
இதன் ரகசியம் கோல்டன் ட்ராஜெக்டரிகள் (Golden Trajectories) என்ற கருத்தில் உள்ளது. இந்த அமைப்புகளின் கட்டமைப்பைப் பார்க்கும் ஒரு பாலிமாத் (polymath) என்ற முறையில், நாம் AI க்கு பயிற்சி அளிக்கும் விதம், ஒரு திறமையான கைவினைஞர் (master craftsman) ஒரு பயிற்சியாளருக்குப் (apprentice) பயிற்சி அளிக்கும் விதத்திற்கு அதிர்ச்சியூட்டும் வகையில் ஒத்திருக்கிறது.
பாரம்பரிய LLM-களில் உள்ள சிக்கல்
ஒரு நிலையான லார்ஜ் லாங்குவேஜ் மாடல் (LLM) முழு இணையத்திலும் பயிற்சியளிக்கப்படுகிறது. இது நம்பமுடியாத ஆட்டோகம்பிளீட் (autocomplete) எஞ்சின். நீங்கள் ஒரு கேள்வியைக் கேட்டால், ஒரு மனிதன் அடுத்து என்ன சொல்வான் என்று அது கணிக்கிறது.
ஆனால் ஒரு ஏஜென்ட் வெப் பிரவுசரைப் பயன்படுத்த வேண்டும், ஒரு குறிப்பிட்ட பட்டனைக் கிளிக் செய்ய வேண்டும், வெளியீட்டைப் படிக்க வேண்டும், தான் செய்த தவற்றை உணர வேண்டும், ஒரு டெர்மினலைத் திறக்க வேண்டும், பாஷ் கட்டளையை இயக்க வேண்டும் மற்றும் பக்-கை (bug) சரிசெய்ய வேண்டும்.
விக்கிபீடியாவைப் படிப்பதன் மூலம் மட்டும் இந்தப் பயிற்சி அளிக்க முடியாது. AI செயல்களையும் காலப்போக்கில் பகுத்தறிவையும் (reasoning) கற்றுக்கொள்ள வேண்டும்.
உள்ளிடவும்: கோல்டன் ட்ராஜெக்டரி
ஒரு ஏஜென்டுக்கு பயிற்சி அளிக்க, AI ஆராய்ச்சியாளர்கள் கோல்டன் ட்ராஜெக்டரிகளால் இயக்கப்படும் இமிடேஷன் லேர்னிங் (Imitation Learning) என்ற நுட்பத்தைப் பயன்படுத்துகின்றனர்.
ஒரு குறிப்பிட்ட இணையதளத்தில் டோக்கியோவிற்கான மலிவான விமானத்தைக் கண்டறிய AI-க்கு நீங்கள் பயிற்சியளிக்க விரும்புகிறீர்கள் என்று கற்பனை செய்து பாருங்கள். ஒரு மனித நிபுணர் அமர்ந்து ஒவ்வொரு படியையும் பதிவு செய்து இந்த பணியை கைமுறையாக (manually) செய்வார்.
- படி 1: பிரவுசரைத் திறக்கவும். (எண்ணம்: "நான் பயண தளத்திற்குச் செல்ல வேண்டும்.")
- படி 2: எக்ஸ்பீடியாவிற்கு (Expedia) செல்லவும். (எண்ணம்: "பக்கம் ஏற்றப்பட்டது.")
- படி 3: 'விமானங்கள்' (Flights) தாவலைக் கிளிக் செய்யவும்.
- படி 4: இலக்கு பெட்டியில் "டோக்கியோ" என டைப் செய்யவும்.
திரையின் நிலை மற்றும் ஒவ்வொரு செயலுக்கும் இடையிலான தர்க்கரீதியான எண்ணங்கள் உட்பட மனிதனின் செயல்களின் முழுமையான, படிப்படியான பதிவு கோல்டன் ட்ராஜெக்டரி என்று அழைக்கப்படுகிறது. இது ஒரு பணியின் சரியான, குறைபாடற்ற செயலாக்கமாகும்.
பயிற்சியாளரை ஃபைன்-டியூனிங் (Fine-Tuning) செய்தல்
பல்வேறு பணிகளுக்கு (குறியீட்டு முறை, உலாவுதல், தரவு பகுப்பாய்வு) ஆயிரக்கணக்கான கோல்டன் ட்ராஜெக்டரிகளை ஆராய்ச்சியாளர்கள் சேகரித்தவுடன், அவர்கள் அவற்றை மாடலில் (model) வழங்குகிறார்கள்.
AI-யிடம் சொல்ல மேற்பார்வையிடப்பட்ட ஃபைன்-டியூனிங்கை (supervised fine-tuning) அவர்கள் பயன்படுத்துகிறார்கள்: "நீங்கள் இந்த குறிப்பிட்ட இலக்குடன், இந்த குறிப்பிட்ட நிலையில் இருக்கும்போது, மனித நிபுணர் செய்ததைப் போலவே நீங்கள் இந்த சரியான நடவடிக்கையை எடுக்க வேண்டும்."
ஒரு கைவினைஞரின் தோளுக்கு மேல் நிற்கும் ஒரு பயிற்சியாளரைப் போல AI செயல்படுகிறது. ஆயிரக்கணக்கான சரியான எடுத்துக்காட்டுகளைப் படிப்பதன் மூலம், வெற்றிகரமான செயலாக்கத்தின் வடிவங்களை AI கற்றுக்கொள்கிறது.
ரீஇன்ஃபோர்ஸ்மென்ட் லேர்னிங் (Reinforcement Learning) (இறுதி மெருகூட்டல்)
கோல்டன் ட்ராஜெக்டரிகள் AI க்கு அடிப்படைகளைக் கற்பிக்கின்றன. ஆனால் அதை மனிதனுக்கு அப்பாற்பட்டதாக மாற்ற, ஆராய்ச்சியாளர்கள் ரீஇன்ஃபோர்ஸ்மென்ட் லேர்னிங்-ஐப் பயன்படுத்துகின்றனர்.
அவர்கள் AI ஐ ஒரு சாண்ட்பாக்ஸில் வைத்து ஒரு இலக்கைக் கொடுக்கிறார்கள். அது இலக்கை அடைந்தால், அதற்கு கணிதரீதியான "வெகுமதி" கிடைக்கும். தோல்வியுற்றால், அபராதம் விதிக்கப்படும். AI ஏற்கனவே கோல்டன் ட்ராஜெக்டரிகளிலிருந்து அடிப்படைகளைக் கற்றுக்கொண்டதால், அது குறிக்கோளற்ற முறையில் அலைவதில்லை. சோதனைகளைச் செய்ய இது அதன் அடித்தளத்தைப் பயன்படுத்துகிறது, இறுதியில் அதற்குப் பயிற்சி அளித்த மனித நிபுணரை விட சிக்கல்களைத் தீர்ப்பதற்கான விரைவான, திறமையான வழிகளைக் கண்டறிகிறது.
ஏஜென்டிக் AI என்பது மாயாஜாலம் அல்ல. இது முடிவிலிக்கு அளவிடப்பட்ட, ஒரு மாஸ்டரின் பணிப்பாய்வுகளின் (workflow) கணித உகப்பாக்கம் மட்டுமே.