मस्तिष्क कैसे इनाम पाना सीखता है, इसका पता लगा : शोध
मस्तिष्क कैसे इनाम पाना सीखता है, इसका पता लगा : शोध

नई दिल्ली। अध्ययन इस बात पर प्रकाश डालता है कि मस्तिष्क कैसे इनाम पाना सीखता है, व्यवहार को आकार देने और सीखने में डोपामाइन की भूमिका का खुलासा किया गया है। एक नए अध्ययन से पता चला है कि पुरस्कारों का हमारे व्यवहार को आकार देने पर गहरा प्रभाव पड़ता है। ठीक उसी तरह जैसे किसी कुत्ते को खेलने के लिए प्रशिक्षित करना, हमारा दिमाग लगातार यह समझने के लिए काम कर रहा है कि किन कार्यों से सकारात्मक परिणाम मिलते हैं। यह प्रक्रिया, जिसे “क्रेडिट असाइनमेंट समस्या” के रूप में जाना जाता है, ने वैज्ञानिकों को लंबे समय से हैरान कर दिया है।
डोपामाइन मस्तिष्क में एक रासायनिक संदेशवाहक, इस सीखने की प्रक्रिया में एक महत्वपूर्ण भूमिका निभाता है। हालाँकि, सटीक तंत्र जिसके माध्यम से विशिष्ट क्रियाएं डोपामाइन रिलीज से जुड़ी होती हैं, अब तक मायावी बनी हुई है। एलन इंस्टीट्यूट, कोलंबिया यूनिवर्सिटी, चंपालीमौद सेंटर फॉर द अननोन और सिएटल चिल्ड्रेन्स रिसर्च इंस्टीट्यूट के शोधकर्ताओं द्वारा नेचर में प्रकाशित एक अभूतपूर्व अध्ययन ने इस रहस्य पर नई रोशनी डाली है। डोपामाइन न केवल इनाम का संकेत देता है, बल्कि यह जानवरों को उन व्यवहारों को इंगित करने के लिए भी मार्गदर्शन करता है जो परीक्षण और त्रुटि के माध्यम से इन पुरस्कारों की ओर ले जाते हैं। अध्ययन के सबसे दिलचस्प निष्कर्षों में से एक यह है कि मस्तिष्क की इनाम प्रणाली किसी जानवर की गतिविधियों और व्यवहारों की पूरी श्रृंखला को गतिशील रूप से बदल सकती है। इसका मतलब यह है कि व्यवहार को न केवल सुदृढ़ किया जाता है बल्कि अनुभव के माध्यम से सक्रिय रूप से आकार और परिष्कृत किया जाता है।
अनुसंधान टीम ने एक अद्वितीय “बंद लूप” प्रणाली विकसित करने के लिए इंजीनियरों और न्यूरोवैज्ञानिकों के साथ सहयोग किया, जिससे उन्हें चूहों द्वारा विशिष्ट क्रियाओं को वास्तविक समय में डोपामाइन रिलीज से जोड़ने की अनुमति मिली। चूहों को वायरलेस सेंसर से सुसज्जित करके और मशीन लर्निंग एल्गोरिदम का उपयोग करके, शोधकर्ता उनके कार्यों को वर्गीकृत करने और डोपामाइन न्यूरॉन्स को उत्तेजित करने में सक्षम थे जब चूहों ने पूर्वनिर्धारित “लक्ष्य क्रियाएं” कीं। उन्होंने पाया कि डोपामाइन रिलीज के जवाब में चूहों ने तेजी से अपना व्यवहार बदल दिया। उन्होंने न केवल लक्ष्य कार्रवाई की आवृत्ति में वृद्धि की, बल्कि उन्होंने समान क्रियाओं को भी बढ़ाया और जो डोपामाइन रिलीज से कुछ समय पहले हुई थीं। इसके विपरीत, लक्ष्य से भिन्न कार्रवाइयां तेजी से कम हुईं। समय के साथ, चूहे अधिक सटीक हो गए, और केवल उस सटीक क्रिया पर ध्यान केंद्रित किया जिसके कारण डोपामाइन जारी हुआ।
अध्ययन में यह भी पता लगाया गया कि चूहे किस प्रकार क्रियाओं की एक श्रृंखला सीखते हैं, जिससे समय को रिवाइंड करने जैसी एक आकर्षक प्रक्रिया का पता चलता है। जब डोपामाइन को ट्रिगर करने वाली क्रियाएं लंबे अंतराल के साथ हुईं, तो चूहों ने अधिक धीरे-धीरे सीखा। इससे पता चलता है कि कार्यों के बीच कम प्रतीक्षा से चूहों के लिए अनुक्रम को इनाम के साथ जोड़ना आसान हो जाता है। “रिवाइंडिंग” द्वारा, चूहे अपने व्यवहार को मजबूत करते हैं और उत्तरोत्तर सटीक क्रियाओं और अनुक्रमों की पहचान करते हैं जो इनाम देते हैं। इन निष्कर्षों का मस्तिष्क की इनाम प्रणाली को समझने से परे व्यापक प्रभाव है। वे शिक्षा और कृत्रिम बुद्धिमत्ता (एआई) जैसे क्षेत्रों को प्रभावित कर सकते हैं। इन अंतर्दृष्टियों को कक्षाओं में लागू करने से हमारे मस्तिष्क की प्राकृतिक सीखने की प्रक्रियाओं के साथ तालमेल बिठाते हुए अन्वेषण, गलतियों और क्रमिक परिशोधन की अनुमति मिल सकती है। एआई के दायरे में जैविक शिक्षण प्रक्रियाओं की नकल करने से अधिक परिष्कृत और कुशल शिक्षण प्रणालियाँ बन सकती हैं जो नए डेटा और स्थितियों के अनुकूल होती हैं।
मुख्य लेखक जोनाथन टैंग ने इन जटिलताओं में गहराई से जाने के महत्व पर जोर देते हुए कहा, चीजें कैसे काम करती हैं, इसके बारे में हम क्रेडिट असाइनमेंट सहित बहुत सी चीजों को हल्के में लेते हैं, लेकिन जब आप वास्तव में इसमें गोता लगाना शुरू करते हैं तो आपको जटिलता का एहसास होता है। यही कारण है कि लोग मामले की सच्चाई जानने के लिए विज्ञान का सहारा लेते हैं।