ความท้าทายของ Crowdsourced AI มีจุดมุ่งหมายเพื่อปรับปรุงความแม่นยำของการตรวจเต้านม

ความท้าทายของ Crowdsourced AI มีจุดมุ่งหมายเพื่อปรับปรุงความแม่นยำของการตรวจเต้านม

การตรวจคัดกรองมะเร็งเต้านมใช้กันอย่างแพร่หลายในการตรวจหามะเร็งเต้านมในระยะเริ่มแรก แต่ในปัจจุบันแมมโมแกรมอาศัยการตีความตามอัตวิสัยของมนุษย์ ด้วยเหตุนี้ กระบวนการคัดกรองจึงยังไม่สมบูรณ์แบบ ตัวอย่างเช่น ในสหรัฐอเมริกา การตรวจคัดกรองดังกล่าวทำให้เกิดผลบวกปลอมประมาณ 10% ซึ่งเพิ่มความวิตกกังวลของผู้ป่วยและอาจส่งผลให้เกิดการแทรกแซงหรือการรักษาที่ไม่จำเป็น

ความก้าวหน้าในการเรียนรู้เชิงลึก

และพลังประมวลผลที่เพิ่มขึ้นได้ทำให้ความสนใจต่อการใช้ปัญญาประดิษฐ์ (AI) เพิ่มขึ้นเมื่อเร็วๆ นี้ เพื่อเพิ่มความแม่นยำในการคัดกรอง ด้วยจุดประสงค์นี้Digital Mammography (DM) DREAM Challengeได้ใช้แนวทางที่รวบรวมมาเพื่อพัฒนาและตรวจสอบอัลกอริธึม AI ที่อาจช่วยปรับปรุงการตรวจหามะเร็งเต้านมได้ เป้าหมาย: เพื่อประเมินว่าอัลกอริธึมดังกล่าวสามารถจับคู่หรือปรับปรุงการแปลผลแมมโมแกรมโดยนักรังสีวิทยาได้หรือไม่ 

DM DREAM Challenge – กำกับโดยIBM Research , Sage BionetworksและKaiser Permanente Washington Research Institute – เป็นการศึกษาวัตถุประสงค์ที่ใหญ่ที่สุดของประสิทธิภาพการเรียนรู้เชิงลึกสำหรับการตีความด้วยแมมโมแกรมอัตโนมัติจนถึงปัจจุบัน Justin Guinneyประธาน DREAM Challenges อธิบายว่า “DREAM Challenge นี้ช่วยให้สามารถประเมินอัลกอริธึมการเรียนรู้เชิงลึกขั้นสูงหลายสิบขั้นตอนอย่างเข้มงวดและเหมาะสมในฐานข้อมูลอิสระ 2 ฐานข้อมูล”

ความท้าทายนี้กำหนดให้ผู้เข้าร่วมต้องพัฒนาอัลกอริธึมที่ป้อนข้อมูลการตรวจเต้านมและให้คะแนนที่แสดงถึงความเป็นไปได้ที่ผู้หญิงจะได้รับการวินิจฉัยว่าเป็นมะเร็งเต้านมภายใน 12 เดือนข้างหน้า ในความท้าทายย่อย อัลกอริธึมยังสามารถเข้าถึงรูปภาพจากการตรวจคัดกรองครั้งก่อน ตลอดจนข้อมูลปัจจัยเสี่ยงทางคลินิกและข้อมูลประชากร

ข้อมูลสำหรับความท้าทายนี้จัดทำโดย Kaiser Permanente 

Washington ( KPW ) ในสหรัฐอเมริกาและสถาบัน Karolinska ( KI ) ในสวีเดน ชุดข้อมูล KPW ซึ่งรวมถึงการตรวจคัดกรอง 144,231 ครั้งจากผู้หญิง 85,580 คน โดยที่ 1.1% เป็นมะเร็งในเชิงบวก ถูกแยกออกเพื่อใช้ในการฝึกอัลกอริทึม (70%) และการประเมิน (30%) ชุดข้อมูล KI ใช้สำหรับการตรวจสอบอัลกอริธึมเท่านั้น ประกอบด้วยการสอบ 166,578 ครั้ง จากผู้หญิง 68,008 คน โดยที่ 1.1% เป็นมะเร็งในเชิงบวก

เพื่อให้มั่นใจในความเป็นส่วนตัวของข้อมูลเหล่านี้ ชุดข้อมูลทั้งสองได้รับการปกป้องอย่างปลอดภัยหลังไฟร์วอลล์ และไม่สามารถเข้าถึงได้เพื่อท้าทายผู้เข้าร่วม ผู้เข้าร่วมส่งอัลกอริทึมของตนไปยังผู้จัดงานเพื่อฝึกอบรมและทดสอบอัตโนมัติหลังไฟร์วอลล์

Crowdsourced การแข่งขัน

ความท้าทายนี้มีผู้เข้าร่วมมากกว่า 1100 คน รวมเป็น 126 ทีมจาก 44 ประเทศ ในระยะแรก อัลกอริธึมได้รับการฝึกอบรมและประเมินผลจากข้อมูล KPW โดยใช้ AUC (การวัดว่าคะแนนต่อเนื่องของอัลกอริธึมแยกผลบวกออกจากสถานะมะเร็งเต้านมเชิงลบได้ดีเพียงใด) ใช้ในการประเมินและจัดอันดับประสิทธิภาพของอัลกอริธึม

ที่น่าสนใจ ซึ่งรวมถึงข้อมูลทางคลินิกและการตรวจแมมโมแกรมก่อนหน้านี้ไม่ได้ช่วยปรับปรุงประสิทธิภาพของอัลกอริธึม ทีม DM DREAM แนะนำว่าบางทีผู้เข้าร่วมอาจไม่ได้ใช้ข้อมูลนี้อย่างเต็มที่และแนะนำว่าการพัฒนาอัลกอริทึมในอนาคตควรเน้นที่การใช้ภาพก่อนหน้าของผู้ป่วย

แปดทีมที่มีประสิทธิภาพสูงได้รับเชิญให้ทำงานร่วมกันเพื่อปรับแต่งอัลกอริธึม AI ของพวกเขาเพิ่มเติม เพื่อประเมินว่าแนวทางทั้งมวลสามารถปรับปรุงประสิทธิภาพโดยรวมได้หรือไม่ ผลลัพธ์ของ “ระยะชุมชน” นี้คือวิธีท้าทายวงดนตรี (CEM) ซึ่งเป็นการรวมตัวถ่วงน้ำหนักของการทำนายอัลกอริธึม โมเดล CEM นี้ถูกรวมเข้ากับการประเมินของนักรังสีวิทยาลงในแบบจำลอง

วงดนตรีชุดที่สองที่เรียกว่า CEM+R

เพื่อเปรียบเทียบการคาดการณ์ CEM กับการตีความของนักรังสีวิทยา (เรียกคืน/ไม่มีการเรียกคืน) การแข่งขันจะกำหนดความจำเพาะของ CEM เมื่อใช้ความไวของนักรังสีวิทยาในแต่ละสถาบัน สำหรับชุดข้อมูล KPW (ด้วยความไวของนักรังสีวิทยา 85.9%) โมเดล AI ที่มีประสิทธิภาพสูงสุด CEM และนักรังสีวิทยามีความจำเพาะ 66.3%, 76.1% และ 90.5% ตามลำดับ ในขณะที่ CEM ยังคงด้อยกว่าประสิทธิภาพของนักรังสีวิทยา แต่ CEM+R ได้เพิ่มความจำเพาะเป็น 92%

ทีมทดสอบทำการประเมินซ้ำโดยใช้ข้อมูล KI สำหรับการสอบเหล่านี้ แต่ละแมมโมแกรมได้รับการอ่านซ้ำสองครั้งโดยนักรังสีวิทยาสองคน ดังนั้นการตีความของผู้อ่านชุดแรกจึงถูกนำมาใช้เพื่อมิเรอร์ชุดข้อมูล KPW ที่ความไวของผู้อ่านคนแรก (77.1%) ความจำเพาะของแบบจำลองระดับบนสุด ได้แก่ CEM นักรังสีวิทยา และ CEM+R เท่ากับ 88%, 92.5%, 96.7% และ 98.5% ตามลำดับ อีกครั้ง CEM+R ให้ความจำเพาะสูงสุด ทีมงานยังได้เปรียบเทียบวิธีการทั้งมวลกับผลการอ่านซ้ำซ้อน โดยสังเกตว่าในกรณีนี้ CEM+R ไม่ได้ปรับปรุงการตีความฉันทามติ

ผลลัพธ์แสดงให้เห็นสัญญาสำหรับการเรียนรู้เชิงลึกเพื่อเพิ่มความแม่นยำของการตรวจคัดกรองด้วยแมมโมแกรม แม้ว่าอัลกอริธึม AI ตัวเดียวจะมีประสิทธิภาพเหนือกว่าเกณฑ์มาตรฐานของนักรังสีวิทยา แต่โมเดล CEM+R ได้ปรับปรุงประสิทธิภาพเหนือการตีความของนักรังสีวิทยาคนเดียว เช่น ใช้ในสหรัฐอเมริกา ในสภาพแวดล้อมที่อ่านซ้ำซ้อนและเห็นพ้องต้องกัน ดังที่เห็นในสวีเดน การเพิ่ม AI อาจไม่ส่งผลกระทบมากนัก อย่างไรก็ตาม มีแนวโน้มว่าการฝึกอบรมชุดอัลกอริธึม AI และการประเมินฉันทามติของนักรังสีวิทยาจะช่วยปรับปรุงความแม่นยำ

ทีมทดสอบสรุปว่าการรวมอัลกอริธึม AI กับการตีความของนักรังสีวิทยาสามารถลดอัตราการเรียกคืนแมมโมแกรมได้ 1.5% ด้วยผู้หญิงประมาณ 40 ล้านคนที่ตรวจคัดกรองมะเร็งเต้านมในสหรัฐอเมริกาในแต่ละปี ซึ่งหมายความว่าผู้หญิงมากกว่าครึ่งล้านคนต่อปีจะไม่ต้องเข้ารับการตรวจวินิจฉัยโดยไม่จำเป็น

Credit : watcheslaw.net watjes.net watsonjewelry.net wickersleypartnershiptrust.org