अहमद मालेकी*, वाहिद वेज़िनिया और आयदा फेकरी
प्रमोटर डीएनए अनुक्रम का एक हिस्सा है जो जीन से पहले आता है और जीन के नियामक के रूप में महत्वपूर्ण है। प्रमोटर भविष्यवाणी जीन की स्थिति निर्धारित करने और जीन अभिव्यक्ति का विश्लेषण करने में मदद करती है। इसलिए, यह जैव सूचना विज्ञान के क्षेत्र में बहुत महत्वपूर्ण है। जैव सूचना विज्ञान अनुसंधान में, जैविक डेटाबेस से नए सार्थक ज्ञान की खोज करने के लिए कई मशीन लर्निंग दृष्टिकोण लागू किए जाते हैं। इस अध्ययन में, प्रमोटर का पता लगाने के लिए दो सीखने के दृष्टिकोण, अपेक्षा अधिकतमकरण क्लस्टरिंग और सपोर्ट वेक्टर मशीन क्लासिफायर (EMSVM) का उपयोग किया जाता है। अपेक्षा अधिकतमकरण (EM) एल्गोरिथ्म का उपयोग नमूनों के समूहों की पहचान करने के लिए किया जाता है जो समान और असमान रूप से व्यवहार करते हैं, जैसे कि पहले चरण में प्रमोटर और गैर-प्रमोटर की गतिविधि, जबकि दूसरे चरण में सपोर्ट वेक्टर मशीन (SVM) का उपयोग सभी डेटा को सही वर्ग श्रेणी में वर्गीकृत करने के लिए किया जाता है। हमने इस पद्धति को σ24, σ32, σ38, σ70 प्रमोटरों के अनुरूप डेटासेट पर लागू किया है और इसकी प्रभावशीलता विभिन्न प्रमोटर क्षेत्रों की एक श्रृंखला पर प्रदर्शित की गई थी। इसके अलावा, प्रस्तावित एल्गोरिदम के उचित प्रदर्शन को इंगित करने के लिए इसकी तुलना अन्य वर्गीकरण एल्गोरिदम से की गई। परीक्षण के परिणाम बताते हैं कि EMSVM अन्य विधियों की तुलना में बेहतर प्रदर्शन करता है।