การวิเคราะห์ RNA Expression ในผู้ป่วยมะเร็งปอดชนิด Adenocarcinoma

เทคนิคคัดกรองฟีเจอร์สำหรับข้อมูล RNA Expression ที่มีฟีเจอร์กว่า 20,000+ ฟีเจอร์

ภิณัฐคณิน พิสิษฐกุล ธนรัตน์ แซ่เฮีย ธนธร บุญเต็ม ภควัต ชูโชติรส 

Basic Research Data Science คณะแพทยศาสตร์


การวิเคราะห์เนื้อด้วย RNA Expression นั้นสามารถทำได้ยากเนื่องจาก ปัญหาคำสาปแห่งมิติ(Curse of Dimension) นั่นคือจำนวนฟีเจอร์ที่มากถึง 20,000-40,000 ฟีเจอร์ เมื่อเทียบกับจำนวนตัวอย่างที่น้อย (เช่น 100 Sample) โดยโมเดลการเรียบนรู้ด้วยเครื่อง(Machine Learning) นั้นไม่สามารถแสดงประสิทธิภาพได้ดีบนข้อมูลที่มีมิติสูงเกินไป จึงจำเป็นต้องใช้การทำ feature selection เพื่อคัดกรองเฉพาะฟีเจอร์ที่สำคัญต่อการทำนายเท่านั้น โดยทำการกรองเบื้องต้น(Pre-filtering) ด้วยการกรองฟีเจอร์ที่มีการเปลี่ยนแปลงต่ำหรือไม่เปลี่ยนแปลง(Low variance)ออก และใช้ T-test ในการคัดเลือกเบื้องต้นด้วยการทดสอบสมมติฐานทางสถิติ จากนั้นจึงนำไปคัดกรองด้วย Boruta Algorithm ในการคัดฟีเจอร์ที่จะมีผลต่อการทำนายจริงๆ สุดท้ายจะกลั่นกรองด้วย Recursive Feature Elimination (RFE) + Leave-One-Out Cross-Validation หรือก็คือ RFECV(loo) ในการคัดให้เหลือฟีเจอร์ให้น้อยที่สุดในขณะที่ยังคงประสิทธิภาพของโมเดลไว้มากที่สุด และเพื่อยืนยันผลว่าฟีเจอร์ที่ถูกคัดเลือกมานั้นไม่ได้บังเอิญทำให้โมเดลมีประสิทธิภาพที่ดี โดยได้ทำการทดสอบ 3 โมเดลด้วยกัน คือ Single node Perceptron, Support Vector Classification (SVC) และ Logistic Regression และฟีเจอร์ที่น้อยที่สุดจะได้จำนวน 25, 1 และ 4 ตามลำดับโมเดล ในท้ายที่สุดพบว่ามี 1 ฟีเจอร์ที่ทั้ง 3 โมเดลต่างก็ให้ความสำคัญร่วมกันในการจำแนกผู้ป่วยมะเร็งปอดชนิด Adenocarcinoma