top of page

จากข้อมูลสู่อัลฟ่า: การทดสอบความสำคัญของปัจจัยสำหรับการตัดสินใจลงทุนขั้นสูง

หัวใจสำคัญของงาน Quant Investment คือการระบุปัจจัยที่มีความสำคัญในการกำหนดผลตอบแทน ในบทความก่อนหน้านี้เราได้พูดถึงการทำความเข้าใจพฤติกรรมของราคาจากการทำ Data Viz ไปแล้ว แต่หลายครั้งเราไม่สามารถทำความเข้าใจข้อมูลได้(เช่นข้อมูลมีขนาดใหญ่มาก) หรือเราต้องการเปรียบเทียบความสำคัญของปัจจัยบ้างปัจจัย วันนี้เราจะพูดคุยกันถึงวิธีการทดสอบค่านัยสำคัญ และสิ่งที่เราได้พบเห็นการทำผิดพลาดได้บ่อยเมื่อทำสิ่งนี้


chi2_check

การทดสอบไคสแควร์เป็นการทดสอบสมมติฐานทางสถิติที่ใช้เพื่อตรวจสอบว่ามีความสัมพันธ์ที่มีนัยสำคัญระหว่างตัวแปรเชิงหมวดหมู่สองตัวหรือไม่ ในบริบทของการเลือกคุณลักษณะ การทดสอบไคสแควร์สามารถใช้เพื่อประเมินความสัมพันธ์ระหว่างคุณลักษณะแต่ละรายการกับตัวแปรเป้าหมาย และระบุคุณลักษณะที่สำคัญที่สุดสำหรับงานการจัดประเภทหรือการถดถอย


การทดสอบไคสแควร์ทำงานโดยการเปรียบเทียบการแจกแจงที่สังเกตได้ของข้อมูลกับการแจกแจงที่คาดไว้ โดยสมมติว่าไม่มีความสัมพันธ์ระหว่างตัวแปร การทดสอบจะสร้างสถิติที่เรียกว่าค่าไคสแควร์ ซึ่งจะวัดความแตกต่างระหว่างการแจกแจงที่สังเกตได้และการแจกแจงที่คาดไว้ ค่าไคสแควร์สูงแสดงว่ามีความสัมพันธ์ระหว่างตัวแปร ขณะที่ค่าต่ำแสดงว่าไม่มีการเชื่อมโยง



แอตทริบิวต์ scores ของวัตถุตัวเลือกประกอบด้วยคะแนนไคสแควร์สำหรับแต่ละคุณลักษณะ และแอตทริบิวต์ pvalues มีค่า p ที่สอดคล้องกัน คะแนนสูงและค่า p ต่ำบ่งชี้ว่าคุณลักษณะมีความเกี่ยวข้องสูงกับตัวแปรเป้าหมาย และอาจเป็นตัวทำนายที่สำคัญ


Anova test

ANOVA (Analysis of Variance) เป็นวิธีการทางสถิติที่ใช้ในการเปรียบเทียบค่าเฉลี่ยของข้อมูลตั้งแต่ 2 กลุ่มขึ้นไป การทดสอบ ANOVA จะวิเคราะห์ว่าความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มมีนัยสำคัญทางสถิติหรือเกิดจากโอกาสสุ่ม

ในบริบทของการเลือกคุณลักษณะ สามารถใช้ ANOVA เพื่อประเมินความสัมพันธ์ระหว่างคุณลักษณะแต่ละรายการกับตัวแปรเป้าหมาย และระบุคุณลักษณะที่สำคัญที่สุดสำหรับงานการจัดประเภทหรือการถดถอย


information coefficient

The information coefficient (IC) เป็นตัววัดความสำคัญเชิงปริมาณที่ใช้กันอย่างแพร่หลายในด้านการเงินเชิงปริมาณ เป็นการวัดทางสถิติที่วัดระดับความสัมพันธ์ระหว่างปัจจัยที่กำหนดกับผลตอบแทนของหุ้นในอนาคต โดยเฉพาะอย่างยิ่ง จะวัดระดับที่ปัจจัยทำนายผลตอบแทนในอนาคต หลังจากปรับความเอนเอียงอย่างเป็นระบบในข้อมูลแล้ว


โดยทั่วไป IC คำนวณโดยการเปรียบเทียบผลตอบแทนที่คาดการณ์ของปัจจัยหนึ่งกับผลตอบแทนจริงในช่วงเวลาที่กำหนด ค่า IC ที่เป็นบวกบ่งชี้ว่าปัจจัยดังกล่าวมีความสัมพันธ์เชิงบวกกับผลตอบแทนในอนาคต ในขณะที่ค่า IC ที่เป็นค่าลบบ่งชี้ว่ามีความสัมพันธ์ในทางลบ


มีหลายวิธีในการคำนวณ IC แต่วิธีหนึ่งที่ใช้กันทั่วไปคือการใช้แบบจำลองการถดถอยเชิงเส้น ในแนวทางนี้ ขั้นแรก เราจะถอยปัจจัยเทียบกับผลตอบแทนในอนาคต จากนั้นจึงคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างผลตอบแทนที่คาดการณ์และผลตอบแทนจริง


เป็นที่น่าสังเกตว่า IC ไม่ใช่การวัดความสำคัญของปัจจัยที่สมบูรณ์แบบ เนื่องจากมันจับเฉพาะความสัมพันธ์เชิงเส้นระหว่างปัจจัยและผลตอบแทนในอนาคตเท่านั้น อาจมีความสัมพันธ์แบบไม่เชิงเส้นและอาจพลาดโดย IC นอกจากนี้ IC อาจได้รับอิทธิพลจากค่าผิดปกติหรือความผิดปกติอื่นๆ ในข้อมูล ดังนั้นจึงเป็นสิ่งสำคัญที่จะใช้ IC ร่วมกับมาตรการอื่นๆ ที่มีความสำคัญต่อปัจจัย เช่น ค่าสัมประสิทธิ์ความสำคัญของคุณลักษณะที่กล่าวถึงใน เพื่อให้ได้รับความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับความสำคัญของปัจจัยที่กำหนด


PPS

Predictive Power Score (PPS) สามารถบอกคะแนนสองค่าไม่ใช่แค่เชิงเส้นเท่านั้นแต่บอกได้ทั้งเกาสเซียน หรือความสัมพันธ์อื่นที่มนุษย์เรายังไม่รู้จัก มีค่าระหว่าง 0 ถึง 1 คะแนนสามารถจัดการคอลัมน์หมวดหมู่และตัวเลขได้

ในที่นี้เราจะข้ามการคำนวณและที่มาของคะแนนหากใครสนใจอ่านเพิ่มเติมไปอ่านได้ที่นี้เลยครับ

เราสามารถเรียกใช้ใน Python ด้วย code 1 บรรทัด และใส่ตัวแปร

pps.score(df, "x", "y")

Weight of Evidence และ Information Value

Weight of Evidence คืออะไร

Weight of Evidence คือความน่าจะเป็นของสองเหตุการณ์ที่จะเกิดหรือไม่เกิดเหตุการณ์ Weight of Evidence จะบอกเราถึงพลังการทำนายของตัวแปรอิสระที่สัมพันธ์กับตัวแปรตาม โดยค่า WoE จะแยกมาแต่ละประเภทของตัวแปร เพื่อให้เข้าใจมากขึ้นสมมติว่าตัวแปร x คือเพศ WoE จะแยกกันระหว่างเพศหญิงและเพศชาย

โดย Weight of Evidence วิวัฒนาการมาจากโลกของการให้คะแนนเครดิต จึงมักถูกอธิบายว่าเป็นตัวชี้วัดการแยกลูกค้าที่ดีและไม่ดีออกจากกัน “ลูกค้าไม่ดี” หมายถึงลูกค้าที่ผิดนัดเงินกู้ และ “ลูกค้าดี” หมายถึง ลูกค้าที่ชำระคืนเงินกู้โดยมีสมการดังนี้


จากสมการแม้ Weight of Evidence จะเหมือนใช้เฉพาะกับตัวแปรที่เป็นกลุ่ม (catagory) เท่านั้นแต่เราสามารถใช้เทคนิคการแบ่งช่วงเพื่อทำนาย WoE ของข้อมูลแบบต่อเนื่องได้ และใช้กันมากในางการเงินเช่นในช่วงก่อนตลาดหุ้นจะตกอย่างรุนแรงปริมาณการซื้อขายมักอยู่ในระดับสูงมาก

Weight of Evidence บอกถึงพลังในการทำนายของคุณลักษณะเดียวที่เกี่ยวข้องกับคุณลักษณะที่เป็นอิสระของมัน หากหมวดหมู่/ช่องรายการใดของฟีเจอร์มีสัดส่วนของเหตุการณ์ที่มากเมื่อเทียบกับสัดส่วนของเหตุการณ์ที่ไม่ใช่ เราจะได้รับค่า WoE ที่สูงซึ่งจะบอกว่าคลาสของฟีเจอร์นั้นแยกเหตุการณ์ออกจากเหตุการณ์ที่ไม่ใช่เหตุการณ์ .

IV คือ ความสามารถในการอธิบายผลตัวแปรตามของตัวแปรที่เราระบุ

Risk Contribution

Risk contribution เป็นวิธีการที่พัฒนาขึ้นจากportfolio optimization (Risk parity) สำหรับการวัดการมีส่วนร่วมของสินทรัพย์หรือปัจจัยแต่ละรายการกับความเสี่ยงโดยรวมของพอร์ตโฟลิโอ วิธีนี้มีความสำคัญเนื่องจากช่วยให้นักลงทุนเข้าใจว่าสินทรัพย์หรือปัจจัยเสี่ยงแต่ละรายการมีอิทธิพลอย่างไร พอร์ตโฟลิโอ และสามารถประกอบการตัดสินใจในการปรับพอร์ตเพื่อบริหารความเสี่ยงได้ดียิ่งขึ้น


Graphical network analysis

Graphical network analysis เป็นเทคนิคที่ใช้ในการแสดงและวิเคราะห์ระบบที่ซับซ้อนของความสัมพันธ์ระหว่างตัวแปร ในแนวทางนี้ ตัวแปรจะแสดงเป็นโหนด และความสัมพันธ์ระหว่างตัวแปรจะแสดงเป็นขอบ Graphical network analysis ได้รับความนิยมมากขึ้นในสาขาต่างๆ เช่น สังคมศาสตร์ การเงิน และชีววิทยารวมถึงการเงินเชิงปริมาณ ซึ่งจำเป็นต้องวิเคราะห์เครือข่ายความสัมพันธ์ที่ซับซ้อน

หนึ่งในความท้าทายที่สำคัญของ Graphical network analysis คือการตีความผลลัพธ์ แม้ว่าการวิเคราะห์จะสามารถระบุได้ว่าตัวแปรใดเชื่อมโยงกันมากที่สุด แต่ก็อาจเป็นเรื่องยากที่จะกำหนดทิศทางและสาเหตุของความสัมพันธ์เหล่านี้ นอกจากนี้ การวิเคราะห์เครือข่ายยังต้องการข้อมูลจำนวนมาก ซึ่งอาจรวบรวมและประมวลผลได้ยาก


Optimization Bias

ข้อผิดพลาดที่เราพบได้บ่อยที่สุดคือการทำ Optimization Bias อย่างที่บอกเราทดสอบค่านัยสำคัญไม่ใช่เพื่อหาตัวแปรที่มีนัยสำคัญที่สุดแต่เพื่อทำความเข้าใจ

แต่บ่อยครั้งเรามักเห็นผู้คนที่พยายามหาตัวแปรที่มีความสัมพันธ์สูงที่สุดโดยเฉพาะกับผลตอบแทน ดูตัวอย่างรูปด้านล่าง

รูปข้างต้นคือการพยายามหาเส้น Macd ที่ตัดกันแล้วให้ผลตอบแทนในอดีตที่ดีที่สุด แต่ผลตอบแทนที่ดีในอดีตไม่ใช่ในอนาคตจะเป็นอย่างนั้นจะนำมาซึ่งปัญหา Overfiting เราอาจพิจารณาช่วงเวลาที่ใช้วิเคราะห์ ทั้งการแบ่งเป็น แนวโน้มของตลาด การนำเอาช่วงเวลาผิดปกติออก


ส่งท้าย

เป้าหมายของการทดสอบปัจจัยที่มีนัยสำคัญคือการทำความเข้าใจพฤติกรรมหรือความสัมพันธ์บ้างอย่างเท่านั้น เราจึงต้องระวังปัญหาการเปลี่ยนแปลงโครงสร้างตลาดหรือความสัมพันธ์ของตัวแปร รวมถึงระวัง Look ahead bias ที่อาจทำให้เราเข้าใจผิดในบ้างพฤติกรรม

Note Book:


อ้างอิง

https://medium.com/qunt-i-love-u/feature-selection-in-python-9f79341b144c

ดู 67 ครั้ง0 ความคิดเห็น

โพสต์ล่าสุด

ดูทั้งหมด

Hidden Markov Models

Comments


bottom of page