विमलकुमार बी वाघेला, कल्पेश एच वंद्रा और नीलेश के मोदी
आज डेटा को रिलेशन स्ट्रक्चर में स्टोर किया जाता है। इन डेटा को माइन करने के सामान्य तरीके में, हम अक्सर कई रिलेशन को जोड़कर फॉरेन की लिंक का उपयोग करके एक सिंगल रिलेशन बनाते हैं, जिसे फ़्लैटन के नाम से जाना जाता है। फ़्लैटन से समय की खपत, डेटा की अधिकता और डेटा पर सांख्यिकीय विषमता जैसी परेशानियाँ हो सकती हैं। इसलिए, महत्वपूर्ण मुद्दे उठते हैं कि कई रिलेशन पर सीधे डेटा कैसे माइन किया जाए। दिए गए मुद्दे का समाधान मल्टी-रिलेशनल डेटा माइनिंग (MRDM) नामक दृष्टिकोण है। अन्य मुद्दे यह हैं कि किसी रिलेशन में अप्रासंगिक या अनावश्यक विशेषताएँ वर्गीकरण सटीकता में योगदान नहीं दे सकती हैं। इस प्रकार, मल्टी-रिलेशनल डेटा माइनिंग में फ़ीचर चयन एक आवश्यक डेटा प्री-प्रोसेसिंग चरण है। डेटा माइनिंग के लिए रिलेशन से अप्रासंगिक या अनावश्यक विशेषताओं को फ़िल्टर करके, हम वर्गीकरण सटीकता में सुधार करते हैं, अच्छा समय प्रदर्शन प्राप्त करते हैं, और मॉडल की समझ में सुधार करते हैं। हमने मल्टी-रिलेशनल नैवे बायेसियन क्लासिफायर के लिए एन्ट्रॉपी आधारित फ़ीचर चयन विधि का प्रस्ताव दिया था। हमने InfoDist पद्धति और पियर्सन के सहसंबंध मापदंडों का उपयोग किया है, जिसका उपयोग बहु-संबंधी डेटाबेस से अप्रासंगिक और अनावश्यक विशेषताओं को फ़िल्टर करने के लिए किया जाएगा और वर्गीकरण सटीकता को बढ़ाएगा। हमने PKDD वित्तीय डेटासेट पर अपने एल्गोरिदम का विश्लेषण किया और मौजूदा फीचर चयन विधियों की तुलना में बेहतर सटीकता हासिल की।