डेविड के. क्रॉकेट, स्टीफन आर. पिकोलो, स्कॉट पी. नारस, जॉयस ए. मिशेल और जूलियो सी. फेसेली
हालाँकि RET ऑन्कोजीन में रिपोर्ट किए गए कई उत्परिवर्तन सीधे वंशानुगत थायरॉयड कार्सिनोमा से जुड़े हुए हैं, अन्य उत्परिवर्तनों को अनिश्चित जीन वेरिएंट के रूप में लेबल किया गया है क्योंकि वे स्पष्ट रूप से नैदानिक फेनोटाइप से जुड़े नहीं हैं। उत्परिवर्तन की गंभीरता का निर्धारण करने की प्रक्रिया महंगी और समय लेने वाली है। सूचना विज्ञान उपकरण और विधियाँ इस जीनोटाइप-फेनोटाइप अंतर को पाटने में सहायता कर सकती हैं। इस लक्ष्य की ओर, मशीन-लर्निंग वर्गीकरण एल्गोरिदम का मूल्यांकन सौम्य और रोगजनक RET जीन वेरिएंट को अलग करने की उनकी क्षमता के लिए किया गया था, जो जंगली प्रकार में मौजूद अवशेषों और उत्परिवर्तित अनुक्रम में मौजूद अवशेषों के भौतिक-रासायनिक गुणों के मूल्यों में अंतर के आधार पर चिह्नित हैं। प्रतिनिधि एल्गोरिदम को मशीन लर्निंग वर्गीकरण तकनीकों की विभिन्न श्रेणियों से चुना गया था, जिसमें नियम, बेयस और रिग्रेशन, निकटतम पड़ोसी, सपोर्ट वेक्टर मशीन और पेड़ शामिल हैं। फिर मशीन लर्निंग मॉडल की तुलना उत्परिवर्तन गंभीरता की भविष्यवाणी के लिए इस्तेमाल की जाने वाली अच्छी तरह से स्थापित तकनीकों से की गई। मशीन लर्निंग वर्गीकरण का उपयोग केवल प्राथमिक अनुक्रम जानकारी का उपयोग करके RET उत्परिवर्तन स्थिति का सटीक रूप से अनुमान लगाने के लिए किया जा सकता है। मौजूदा एल्गोरिदम जो अनुक्रम समरूपता (ऑर्थोलॉग संरक्षण) या प्रोटीन संरचनात्मक डेटा पर आधारित हैं, आवश्यक रूप से बेहतर नहीं हैं।