Reinforcement Learning - RGPV 2025 Question Paper

Save as PDF

Opens your browser print dialog — select "Save as PDF" to download.

Roll No.

AD-802 (B) (GS)

B.Tech., VIII Semester

Examination, June 2025

Grading System (GS)

Reinforcement Learning

Time: Three Hours Maximum Marks: 70

Note: i) Attempt any five questions.

किन्हीं पाँच प्रश्नों को हल कीजिए।

ii) All questions carry equal marks.

सभी प्रश्नों के समान अंक हैं।

iii) In any case of doubt or dispute the English version shall be treated as final.

किसी भी प्रकार के संदेह अथवा विवाद की स्थिति में अंग्रेजी भाषा के प्रश्न को अंतिम माना जायेगा।

a) What is Reinforcement learning? State one appropriate real-life example. 7

रीइन्फोर्समेंट लर्निंग क्या है? वास्तविक जीवन का एक उपयुक्त उदाहरण बताइए।

b) Explain various approaches to implement reinforcement learning. 7

रीइन्फोर्समेंट लर्निंग को लागू करने के विभिन्न तरीकों की व्याख्या करें।

a) Differentiate between Reinforcement Learning and Supervised Learning. 7

रीइन्फोर्समेंट लर्निंग और पर्यवेक्षित लर्निंग के बीच अंतर बताइए।

b) What is the key objective of bandit algorithms with reference to reinforcement learning? 7

रीइन्फोर्समेंट लर्निंग के संदर्भ में बैंडिट एल्गोरिदम का मुख्य उद्देश्य क्या है?

a) After 12 iterations of the UCB 1 algorithm applied on a 4-arm bandit problem, we have n₁ = 3, n₂ = 3, n₃ = 2 and Q₁₂(1) = 0.55, Q₁₂(2) = 0.63, Q₁₂(3) = 0.61, Q₁₂(4) = 0.40. Which arm should be played next? 7

4-आर्म बैंडिट समस्या पर लागू UCB 1 एल्गोरिथम के 12 पुनरावृतियों के बाद, हमारे पास n₁ = 3, n₂ = 3, n₃ = 2 और Q₁₂(1) = 0.55, Q₁₂(2) = 0.63, Q₁₂(3) = 0.61, Q₁₂(4) = 0.40 है। आगे कौन सा आर्म खेला जाना चाहिए?

b) What is meant by passive and active reinforcement learning and how do we compare the two? 7

निष्क्रिय और सक्रिय रीइन्फोर्समेंट लर्निंग का क्या मतलब है और हम दोनों की तुलना कैसे करते हैं?

Explain the following term with respect to Bandit algorithm: 14

i) Median Elimination

मीडियन एलिमिनेशन

ii) Upper Confidence Bound (UCB) algorithm

अपर कॉन्फिडेंस बाउंड (UCB) एल्गोरिदम

iii) Probably Approximately Correct (PAC)

प्रोबेबली एप्रोक्सीमेटली करेक्ट (PAC)

a) Explain the Q-Function and Q-Learning algorithm. 7

Q-फ़ंक्शन और Q-लर्निंग एल्गोरिथम की व्याख्या करें।

b) Discuss Maximum Likelihood and Least Square Error Hypothesis. 7

अधिकतम लाइक्लीहुड एवं लीस्ट स्क्वायर एरर हाइपोथीसिस पर चर्चा करें।

a) Explain Fitted-Q and Deep Q-Learning Problems. 7

फिटेड-Q और डीप Q-लर्निंग समस्याओं की व्याख्या करें।

b) Explain any one advanced Q-learning algorithms. 7

किसी एक एडवांस्ड Q-लर्निंग एल्गोरिदम की व्याख्या करें।

a) Explain learning policies by imitating optimal controllers. 7

इमिटेटिंग ऑप्टिमल कंट��रोलर्स का अनुकरण करके लर्निंग की नीतियों की व्याख्या करें।

b) Explain inverse reinforcement learning. 7

इनवर्स रीइन्फोर्समेंट लर्निंग को समझाइये।

Explain the following. 14

i) DQN and Policy Gradient

DQN और पॉलिसी ग्रेडिएंट

ii) Hierarchical RL

हाइरार्किकल RL

iii) POMDPs

POMDPs