Save as PDF
Opens your browser print dialog — select "Save as PDF" to download.
AD-802 (B) (GS)
B.Tech., VIII Semester
Examination, June 2025
Grading System (GS)
Reinforcement Learning
Note: i) Attempt any five questions.
किन्हीं पाँच प्रश्नों को हल कीजिए।
ii) All questions carry equal marks.
सभी प्रश्नों के समान अंक हैं।
iii) In any case of doubt or dispute the English version shall be treated as final.
किसी भी प्रकार के संदेह अथवा विवाद की स्थिति में अंग्रेजी भाषा के प्रश्न को अंतिम माना जायेगा।
रीइन्फोर्समेंट लर्निंग क्या है? वास्तविक जीवन का एक उपयुक्त उदाहरण बताइए।
रीइन्फोर्समेंट लर्निंग को लागू करने के विभिन्न तरीकों की व्याख्या करें।
रीइन्फोर्समेंट लर्निंग और पर्यवेक्षित लर्निंग के बीच अंतर बताइए।
रीइन्फोर्समेंट लर्निंग के संदर्भ में बैंडिट एल्गोरिदम का मुख्य उद्देश्य क्या है?
4-आर्म बैंडिट समस्या पर लागू UCB 1 एल्गोरिथम के 12 पुनरावृतियों के बाद, हमारे पास n₁ = 3, n₂ = 3, n₃ = 2 और Q₁₂(1) = 0.55, Q₁₂(2) = 0.63, Q₁₂(3) = 0.61, Q₁₂(4) = 0.40 है। आगे कौन सा आर्म खेला जाना चाहिए?
निष्क्रिय और सक्रिय रीइन्फोर्समेंट लर्निंग का क्या मतलब है और हम दोनों की तुलना कैसे करते हैं?
मीडियन एलिमिनेशन
अपर कॉन्फिडेंस बाउंड (UCB) एल्गोरिदम
प्रोबेबली एप्रोक्सीमेटली करेक्ट (PAC)
Q-फ़ंक्शन और Q-लर्निंग एल्गोरिथम की व्याख्या करें।
अधिकतम लाइक्लीहुड एवं लीस्ट स्क्वायर एरर हाइपोथीसिस पर चर्चा करें।
फिटेड-Q और डीप Q-लर्निंग समस्याओं की व्याख्या करें।
किसी एक एडवांस्ड Q-लर्निंग एल्गोरिदम की व्याख्या करें।
इमिटेटिंग ऑप्टिमल कंट��रोलर्स का अनुकरण करके लर्निंग की नीतियों की व्याख्या करें।
इनवर्स रीइन्फोर्समेंट लर्निंग को समझाइये।
DQN और पॉलिसी ग्रेडिएंट
हाइरार्किकल RL
POMDPs