top of page

ทำไม Machine Learning ใน Finance ถึงไม่ Work

ในยุคสมัยที่ Machine Learning ถูกพูดถึงและใช้งานกันอย่างแพร่หลาย ผู้คนประยุคใช้กับทุกอุตสากรรมไม่เว้นแม้แต่อุตสาหกรรมการลงทุน และพบว่ามันล้มเหลว ทำไมถึงเป็นเช่นนั้นวันนี้เราจะมาหาคำตอบกัน



ทำไม Machine Learning ใน  Finance ถึงไม่ Work


ทำไม Machine Learning ใน Finance ถึงไม่ Work?

มีเหตุผลมากมายที่ทำให้ Machine Learning ใน Finance ถึงไม่ Work? และนี้คือตัวอย่างคราวๆ


ความไม่เป็น Stationary ของข้อมูล (Non-stationary Data)

ตลาดการเงินมีลักษณะพลวัตและเปลี่ยนแปลงอยู่ตลอดเวลา (Regime Shifts) ซึ่งทำให้สมมติฐานที่ว่า "อดีตสามารถทำนายอนาคต" ไม่สามารถใช้ได้เสมอ เช่น ความสัมพันธ์ระหว่างตัวแปร (Correlations) หรือ Pattern อาจหายไปเมื่อมีการเปลี่ยนแปลงทางเศรษฐกิจ นโยบายการเงิน หรือเหตุการณ์สำคัญที่คาดเดาไม่ได้


ความซับซ้อนและ Noise สูงในข้อมูล (High Noise-to-Signal Ratio)

Machine Learning มีประสิทธิภาพสูงมากสำหรับการใช้งานที่มีชุดข้อมูลขนาดใหญ่และอัตราส่วน signal-to-noise ratio สูง แต่ข้อมูลตลาดการเงินมักขาดลักษณะเหล่านี้ ข้อมูลในตลาดการเงินมี Noise สูงมาก ซึ่งทำให้สัญญาณที่เป็นประโยชน์ต่อการทำนาย (Predictive Signal) ถูกกลบไปโดยความไม่แน่นอนในข้อมูล


Overfitting และความยากในการ Regularization

โมเดล ML โดยเฉพาะ Deep Learning มีพลังในการเรียนรู้ที่สูง ทำให้เกิด Overfitting ได้ง่ายในตลาดที่ข้อมูลมีความซับซ้อนและเปลี่ยนแปลงตลอดเวลา


ความคาดหวังที่ไม่สมจริง

หลายคนมอง ML เป็น "Magic Bullet" ที่จะแก้ปัญหาทุกอย่างใน Quant ซึ่งไม่เป็นความจริง การสร้างกำไรในตลาดต้องใช้กลยุทธ์ที่ผสมผสานทั้งการวิเคราะห์เชิงสถิติ ทฤษฎีทางการเงิน และความเข้าใจเชิงลึกของตลาด


ตลาดการเงินเป็นพลวัตร

ตลาดการเงินพัฒนาไปตามกาลเวลา ซึ่งหมายความว่าความผิดปกติที่ตรวจพบโดย ML สามารถถูกละเว้นได้ ทำให้ข้อมูลในอดีตมีความเกี่ยวข้องน้อยลงสำหรับการคาดการณ์ในอนาคต



อะไรที่ทำให้มันไม่ Work?

ใน paper  "The 7 Reasons Most Machine Learning Funds Fail"  ของ Quant of the year ปั 2022 อย่าง Marcos Lopez de Prado ได้ชี้ให้เห็นถึงหลุมพรางหลายประการในการนำ Machine Learning (ML) มาใช้ในตลาดการเงิน พร้อมทั้งเสนอโซลูชันเพื่อปรับปรุงประสิทธิภาพการใช้งานดังกล่าว


  • Sisyphus Paradigm: การมอบหมายให้ควอนต์พัฒนาโมเดลการลงทุนทั้งหมดเพียงลำพังทำให้เกิดการปรับแต่งมากเกินไป (overfitting) และการใช้ทรัพยากรอย่างไม่มีประสิทธิภาพ วิธีการบริหารจัดการแบบนี้ไม่ต่างอะไรกับการบริหารกองทุนแบบดั่งเดิม(discretionary portfolio management) ซึ่งล้มเหลวในการใช้ประโยชน์จากการวิจัยแบบร่วมมือและความเชี่ยวชาญเฉพาะด้าน


  • Research Through Backtesting: การทำ backtest ซ้ำๆ กับข้อมูลชุดเดิมนำไปสู่ การค้นพบ alpha ในอดีตที่ไม่มีอยู่จริง แม้จะมีการทดสอบ walk-forward แบบ out-of-sample ก็ตาม วิธีนี้คล้ายกับในบริบททางวิทยาศาสตร์(เมื่อเราไม่เจอหงษ์สีดำใช่ว่ามันจะไม่มีจริง)และไม่สามารถระบุรูปแบบที่แท้จริงในข้อมูลได้



  • Chronological Sampling: การสุ่มตัวอย่างข้อมูลตามช่วงเวลา (time bars) ทำให้เกิดการสุ่มตัวอย่างมากเกินไปในช่วงที่กิจกรรมต่ำ และการสุ่มตัวอย่างน้อยเกินไปในช่วงที่มีกิจกรรมสูง ชุดข้อมูลที่สุ่มตามเวลาเหล่านี้มักมีคุณสมบัติทางสถิติที่ไม่ดี เช่น การมีความสัมพันธ์เชิงอนุกรมและการเปลี่ยนแปลงความแปรปรวนที่ไม่คงที่ (heteroscedasticity) ซึ่งไม่เหมาะสมสำหรับอัลกอริทึม ML



  • Fixed-Time Horizon Labeling: การทำ Labeling สามารถสะท้อนถึงความผันผวนของตลาดและความเป็นจริงของคำสั่ง stop-loss วิธีนี้อาจทำให้เกิด  Labeling ที่ไม่ถูกต้อง



  • Walk-Forward Backtesting: การทดสอบ walk-forward อาศัยข้อมูลในอดีตชุดเดียว ทำให้เสี่ยงต่อการปรับแต่งมากเกินไป นอกจากนี้ยังอาจได้รับอิทธิพลจากลำดับเฉพาะของจุดข้อมูลและอาจไม่เป็นตัวแทนของผลการดำเนินงานในอนาคต


  • Backtest Overfitting: การรัน backtest หลายครั้งในชุดข้อมูลที่มีค่า Sharpe ratio จริงต่ำหรือเท่ากับศูนย์อาจนำไปสู่การค้นพบกลยุทธ์ที่ดูเหมือนมี Sharpe ratio สูง อันเป็นผลจากความสุ่มและความแปรปรวนสูงของการทดสอบ walk-forward ซึ่งมักนำไปสู่ผลบวกลวงและการประเมินประสิทธิภาพที่สูงเกินจริง



ทำยังไงให้มัน Work?

เข้าใจธรรมชาติของตลาดและเน้นการออกแบบ Feature

การทำให้ Machine Learning (ML) ใช้ได้ผลใน Quantitative Finance เริ่มต้นที่การเข้าใจธรรมชาติของตลาดและออกแบบ Feature ที่เหมาะสม การใช้ความรู้เชิงโดเมน เช่น การวิเคราะห์ปัจจัยเศรษฐกิจ (GDP, อัตราดอกเบี้ย) หรือ Sentiment จากข่าว สามารถช่วยเพิ่มประสิทธิภาพของโมเดลได้มาก นอกจากนี้ การพัฒนา Feature ที่สะท้อนพฤติกรรมตลาด เช่น Technical Indicators (RSI, Moving Averages) หรือความสัมพันธ์ระหว่างสินทรัพย์ จะช่วยให้โมเดลสามารถจับสัญญาณที่มีความหมายแทนที่จะ Overfit กับ Noise ในข้อมูล

ลด Overfitting ด้วย Regularization และ Cross-validation

ปัญหาหลักของการใช้ ML ในตลาดการเงินคือ Overfitting เนื่องจากข้อมูลมีความซับซ้อนและ Noise สูง การใช้เทคนิค Regularization เช่น Ridge หรือ Lasso ช่วยลดการเรียนรู้ Noise มากเกินไปได้ การนำ Cross-validation โดยเฉพาะแบบ Rolling Windows มาประยุกต์ใช้ช่วยให้มั่นใจว่าโมเดลจะทำงานได้ดีกับข้อมูลในอนาคต การลดความซับซ้อนของข้อมูลด้วยวิธี PCA หรือการเลือก Feature ที่สำคัญก็เป็นอีกหนึ่งทางแก้ที่สำคัญเช่นกัน

ผสมผสานหลายโมเดลและทดสอบในสถานการณ์ต่างๆ

อีกวิธีที่มีประสิทธิภาพคือการใช้ Ensemble Methods เช่น Random Forest หรือ Gradient Boosting ที่รวมผลลัพธ์จากโมเดลย่อยหลายๆ โมเดลเข้าด้วยกันเพื่อลด Bias และ Variance การทดสอบโมเดลในสถานการณ์ต่างๆ เช่น Regime Shifts หรือช่วงที่ตลาดมีความผันผวนสูง ช่วยให้มั่นใจได้ว่าโมเดลมีความยืดหยุ่นเพียงพอ การผสมผสานโมเดล ML กับกลยุทธ์เชิงคณิตศาสตร์ดั้งเดิม (เช่น Factor Models) ยังช่วยเพิ่มโอกาสให้โมเดลประสบความสำเร็จในโลกของการเงินจริงอีกด้วย



Ref :


อภิธานศัพท์ (Glossary of Key Terms)

คำศัพท์

ความหมาย

Sisyphus paradigm

วิธีการทำงานที่ไม่มีประสิทธิภาพในด้านการเงินเชิงปริมาณ ซึ่งนักวิเคราะห์ทำงานในลักษณะโดดเดี่ยว ซ้ำซ้อน และไม่มีการแบ่งปันความรู้

Meta-strategy paradigm

วิธีการทำงานที่ดีกว่า โดยแบ่งงานเป็นส่วนย่อยและให้นักวิเคราะห์เชี่ยวชาญในแต่ละด้าน ส่งเสริมความร่วมมือและความก้าวหน้าที่มีประสิทธิภาพ

Fractional differentiation

เทคนิคการคำนวณที่ช่วยรักษาความจำในชุดข้อมูลขณะที่ทำให้ข้อมูลมีคุณสมบัติเป็นสถานี (stationarity)

Dollar bars

วิธีสุ่มตัวอย่างที่สร้าง bar จากมูลค่าการซื้อขายที่กำหนดล่วงหน้า ให้ตัวแทนกิจกรรมในตลาดที่มั่นคงและแข็งแกร่งกว่าการใช้ time bars

Triple-barrier method

เทคนิคการติดป้ายกำกับ โดยพิจารณาจากการกระทบของกำแพงสามตัว ได้แก่ กำไร, การหยุดขาดทุน, และการออกตามเวลา ซึ่งสะท้อนความเป็นจริงของตลาดได้ดีกว่า

Meta-labeling

วิธีการฝึกโมเดลที่สองเพื่อคาดการณ์ความแม่นยำของโมเดลแรก ใช้เพื่อปรับปรุงการกำหนดขนาดการเดิมพัน (bet sizing) และเพิ่มประสิทธิภาพกลยุทธ์

Spilled samples problem

ปัญหาที่เกิดจากการซ้อนทับของป้ายกำกับใน Machine Learning ด้านการเงิน ซึ่งทำให้การวิเคราะห์คุณลักษณะเฉพาะมีความซับซ้อน

Cross-validation leakage

ปัญหาที่ข้อมูลในชุดทดสอบรั่วไหลไปยังชุดฝึก ทำให้ผลลัพธ์ที่ได้ดูดีกว่าความเป็นจริง

Purging

เทคนิคการลดปัญหาการรั่วไหล โดยลบข้อมูลที่ป้ายกำกับซ้อนทับระหว่างชุดฝึกและชุดทดสอบ

Embargo

เทคนิคการลดการรั่วไหล โดยการตัดข้อมูลชุดฝึกที่เกิดขึ้นหลังจากช่วงการทดสอบ

Walk-forward backtesting

วิธี backtesting ที่ฝึกโมเดลด้วยข้อมูลในอดีต และทดสอบกับข้อมูลที่ตามมาโดยลำดับ

Combinatorial Purged Cross-Validation (CPCV)

วิธี backtesting ที่สร้างการแยกชุดฝึก/ทดสอบหลายแบบ เพิ่มความครอบคลุมและความน่าเชื่อถือของการประเมินกลยุทธ์

Backtest overfitting

การปรับแต่งกลยุทธ์ให้เหมาะกับข้อมูลในอดีตมากเกินไป จนผลลัพธ์ที่ได้เกินจริงและไม่สามารถใช้ได้กับข้อมูลใหม่

Probability of Superiority (PSR)

เมตริกที่ประเมินโอกาสที่ Sharpe Ratio ของกลยุทธ์จะสูงกว่าค่ามาตรฐาน โดยพิจารณาปัจจัยต่างๆ เช่น จำนวนครั้งการทดสอบ และลักษณะการกระจายผลตอบแทน

Deflated Sharpe Ratio (DSR)

เมตริกที่ปรับ Sharpe Ratio โดยคำนึงถึงความเสี่ยงจากการปรับแต่งข้อมูลและการทดสอบซ้ำ ช่วยให้การประเมินประสิทธิภาพกลยุทธ์มีความแม่นยำยิ่งขึ้น


ดู 11 ครั้ง0 ความคิดเห็น

โพสต์ล่าสุด

ดูทั้งหมด

Comments


bottom of page