การคัดเลือกชุดฟีเจอร์การแสดงออกทางพันธุกรรมขนาดเล็กที่สุดสำหรับการวิเคราะห์โรคสะเก็ดเงิน

AI ถอดรหัสโรคสะเก็ดเงิน คัดกรองจากกว่า 54,000 ยีน เหลือเพียง 8 ยีนกุญแจสำคัญ ที่ยังสามารถวินิจฉัยได้แม่นยำถึง 100%

ปุณยธร พิทักษ์เผ่าสกุล รัชพล ธนาปฏิ ธีรดนย์ งามอัครไพบูลย์ เอกราช คำภู   

Third Med Data Science คณะแพทยศาสตร์


โรคสะเก็ดเงิน (Psoriasis) เป็นโรคผิวหนังอักเสบเรื้อรังที่มีกลไกทางพันธุกรรมซับซ้อน ปัจจุบันการวิเคราะห์ข้อมูลระดับยีน (Gene Expression) จากเทคโนโลยี Microarray ต้องเผชิญกับความท้าทายด้านมิติข้อมูลที่มหาศาล (High-Dimensionality) กว่าหลักหมื่นยีน ซึ่งทำให้การค้นหาตัวบ่งชี้ทางชีวภาพ (Biomarker) ที่เป็นสาเหตุหลักของโรคทำได้ยากและมักเกิดปัญหาความคลาดเคลื่อน โครงงานวิจัยนี้ประยุกต์ใช้วิทยาการข้อมูล (Data Science) ในการวิเคราะห์ข้อมูลผู้ป่วยและกลุ่มควบคุมจำนวน 122 ตัวอย่าง (Dataset: GSE13355) โดยผู้วิจัยได้พัฒนาไปป์ไลน์การคัดเลือกตัวแปรแบบฉันทามติ (Consensus Feature Selection) ที่บูรณาการจุดแข็งของ 4 อัลกอริทึมที่แตกต่างกัน ได้แก่ วิธีทางสถิติ (Top-k ANOVA), Wrapper (RFE), Embedded (L1 Lasso) และ Non-linear (Boruta) เพื่อกรองข้อมูลที่ซ้ำซ้อนออก และคัดเลือกเฉพาะยีนที่สอบผ่านเกณฑ์สูงสุดจากทั้ง 4 วิธี (Unanimous Vote 4/4) การทดลองประสบความสำเร็จในการลดมิติข้อมูลจาก 54,675 ยีน เหลือเพียงชุดยีนแกนหลัก 8 ยีน (The Perfect 8 Panel) ได้แก่ CSNK1A1, FABP5, HPSE, IFI16, PI3, SERPINB3, TPBG และ WNT5A เมื่อนำชุดยีนดังกล่าวไปทดสอบกับโมเดล Machine Learning (Logistic Regression, Random Forest และ SVM) พบว่าสามารถจำแนกกลุ่มผู้ป่วยออกจากคนปกติได้อย่างสมบูรณ์แบบ ด้วยความแม่นยำ (Accuracy), ความไว (Sensitivity) และความจำเพาะ (Specificity) ที่ระดับ 100% ทั้งหมด