मोहम्मद टेरी जैक
रोबोट के मूल में एक नीति होती है जो उसे बताती है कि किसी भी स्थिति में क्या करना है (यानी कौन सी कार्रवाई करनी है)। यह सरल नियमों का संग्रह या एक जटिल गणितीय फ़ंक्शन हो सकता है। लेकिन आप कैसे जानते हैं कि नियम या गणितीय फ़ंक्शन कैसा दिखना चाहिए? सौभाग्य से, फ़ंक्शन को अनुमानित करने के लिए मशीन लर्निंग एल्गोरिदम हैं (जैसे कर्नेल मशीन, डीप लर्निंग, आदि) या इन नियमों का स्वचालित रूप से अनुमान लगाते हैं (जैसे इंडक्टिव लॉजिक प्रोग्रामिंग, रैंडम फ़ॉरेस्ट, आदि)। हालाँकि, पर्यवेक्षित शिक्षण एल्गोरिदम को बहुत सारे प्रशिक्षण डेटा की आवश्यकता होती है जो उपलब्ध नहीं हो सकते हैं। विकासवादी विधियों (जैसे आनुवंशिक एल्गोरिदम) और अन्य अनुकूलन एल्गोरिदम को पॉलिसी-स्पेस के माध्यम से मूल्यांकन और खोज करने और इष्टतम नियम या फ़ंक्शन खोजने के लिए किसी भी प्रशिक्षण डेटा की आवश्यकता नहीं होती है। वैकल्पिक रूप से, पॉलिसी को सीधे खोज (स्थिति/क्रिया-स्थिति स्थान के माध्यम से) के बराबर करके जैसा कि सुदृढीकरण सीखने में किया जाता है, अगली सबसे अच्छी कार्रवाई एक सीखे गए मूल्यांकन फ़ंक्शन (जैसे V या Q-फ़ंक्शन) का उपयोग करके पाई जा सकती है।