หัวใจสำคัญของงาน Quant Investment คือการระบุปัจจัยที่มีความสำคัญในการกำหนดผลตอบแทน ในบทความก่อนหน้านี้เราได้พูดถึงการทำความเข้าใจพฤติกรรมของราคาจากการทำ Data Viz ไปแล้ว แต่หลายครั้งเราไม่สามารถทำความเข้าใจข้อมูลได้(เช่นข้อมูลมีขนาดใหญ่มาก) หรือเราต้องการเปรียบเทียบความสำคัญของปัจจัยบ้างปัจจัย วันนี้เราจะพูดคุยกันถึงวิธีการทดสอบค่านัยสำคัญ และสิ่งที่เราได้พบเห็นการทำผิดพลาดได้บ่อยเมื่อทำสิ่งนี้
chi2_check
การทดสอบไคสแควร์เป็นการทดสอบสมมติฐานทางสถิติที่ใช้เพื่อตรวจสอบว่ามีความสัมพันธ์ที่มีนัยสำคัญระหว่างตัวแปรเชิงหมวดหมู่สองตัวหรือไม่ ในบริบทของการเลือกคุณลักษณะ การทดสอบไคสแควร์สามารถใช้เพื่อประเมินความสัมพันธ์ระหว่างคุณลักษณะแต่ละรายการกับตัวแปรเป้าหมาย และระบุคุณลักษณะที่สำคัญที่สุดสำหรับงานการจัดประเภทหรือการถดถอย
การทดสอบไคสแควร์ทำงานโดยการเปรียบเทียบการแจกแจงที่สังเกตได้ของข้อมูลกับการแจกแจงที่คาดไว้ โดยสมมติว่าไม่มีความสัมพันธ์ระหว่างตัวแปร การทดสอบจะสร้างสถิติที่เรียกว่าค่าไคสแควร์ ซึ่งจะวัดความแตกต่างระหว่างการแจกแจงที่สังเกตได้และการแจกแจงที่คาดไว้ ค่าไคสแควร์สูงแสดงว่ามีความสัมพันธ์ระหว่างตัวแปร ขณะที่ค่าต่ำแสดงว่าไม่มีการเชื่อมโยง
แอตทริบิวต์ scores ของวัตถุตัวเลือกประกอบด้วยคะแนนไคสแควร์สำหรับแต่ละคุณลักษณะ และแอตทริบิวต์ pvalues มีค่า p ที่สอดคล้องกัน คะแนนสูงและค่า p ต่ำบ่งชี้ว่าคุณลักษณะมีความเกี่ยวข้องสูงกับตัวแปรเป้าหมาย และอาจเป็นตัวทำนายที่สำคัญ
Anova test
ANOVA (Analysis of Variance) เป็นวิธีการทางสถิติที่ใช้ในการเปรียบเทียบค่าเฉลี่ยของข้อมูลตั้งแต่ 2 กลุ่มขึ้นไป การทดสอบ ANOVA จะวิเคราะห์ว่าความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มมีนัยสำคัญทางสถิติหรือเกิดจากโอกาสสุ่ม
ในบริบทของการเลือกคุณลักษณะ สามารถใช้ ANOVA เพื่อประเมินความสัมพันธ์ระหว่างคุณลักษณะแต่ละรายการกับตัวแปรเป้าหมาย และระบุคุณลักษณะที่สำคัญที่สุดสำหรับงานการจัดประเภทหรือการถดถอย
information coefficient
The information coefficient (IC) เป็นตัววัดความสำคัญเชิงปริมาณที่ใช้กันอย่างแพร่หลายในด้านการเงินเชิงปริมาณ เป็นการวัดทางสถิติที่วัดระดับความสัมพันธ์ระหว่างปัจจัยที่กำหนดกับผลตอบแทนของหุ้นในอนาคต โดยเฉพาะอย่างยิ่ง จะวัดระดับที่ปัจจัยทำนายผลตอบแทนในอนาคต หลังจากปรับความเอนเอียงอย่างเป็นระบบในข้อมูลแล้ว
โดยทั่วไป IC คำนวณโดยการเปรียบเทียบผลตอบแทนที่คาดการณ์ของปัจจัยหนึ่งกับผลตอบแทนจริงในช่วงเวลาที่กำหนด ค่า IC ที่เป็นบวกบ่งชี้ว่าปัจจัยดังกล่าวมีความสัมพันธ์เชิงบวกกับผลตอบแทนในอนาคต ในขณะที่ค่า IC ที่เป็นค่าลบบ่งชี้ว่ามีความสัมพันธ์ในทางลบ
มีหลายวิธีในการคำนวณ IC แต่วิธีหนึ่งที่ใช้กันทั่วไปคือการใช้แบบจำลองการถดถอยเชิงเส้น ในแนวทางนี้ ขั้นแรก เราจะถอยปัจจัยเทียบกับผลตอบแทนในอนาคต จากนั้นจึงคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างผลตอบแทนที่คาดการณ์และผลตอบแทนจริง
เป็นที่น่าสังเกตว่า IC ไม่ใช่การวัดความสำคัญของปัจจัยที่สมบูรณ์แบบ เนื่องจากมันจับเฉพาะความสัมพันธ์เชิงเส้นระหว่างปัจจัยและผลตอบแทนในอนาคตเท่านั้น อาจมีความสัมพันธ์แบบไม่เชิงเส้นและอาจพลาดโดย IC นอกจากนี้ IC อาจได้รับอิทธิพลจากค่าผิดปกติหรือความผิดปกติอื่นๆ ในข้อมูล ดังนั้นจึงเป็นสิ่งสำคัญที่จะใช้ IC ร่วมกับมาตรการอื่นๆ ที่มีความสำคัญต่อปัจจัย เช่น ค่าสัมประสิทธิ์ความสำคัญของคุณลักษณะที่กล่าวถึงใน เพื่อให้ได้รับความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับความสำคัญของปัจจัยที่กำหนด
PPS
Predictive Power Score (PPS) สามารถบอกคะแนนสองค่าไม่ใช่แค่เชิงเส้นเท่านั้นแต่บอกได้ทั้งเกาสเซียน หรือความสัมพันธ์อื่นที่มนุษย์เรายังไม่รู้จัก มีค่าระหว่าง 0 ถึง 1 คะแนนสามารถจัดการคอลัมน์หมวดหมู่และตัวเลขได้
ในที่นี้เราจะข้ามการคำนวณและที่มาของคะแนนหากใครสนใจอ่านเพิ่มเติมไปอ่านได้ที่นี้เลยครับ
เราสามารถเรียกใช้ใน Python ด้วย code 1 บรรทัด และใส่ตัวแปร
pps.score(df, "x", "y")
Weight of Evidence และ Information Value
Weight of Evidence คืออะไร
Weight of Evidence คือความน่าจะเป็นของสองเหตุการณ์ที่จะเกิดหรือไม่เกิดเหตุการณ์ Weight of Evidence จะบอกเราถึงพลังการทำนายของตัวแปรอิสระที่สัมพันธ์กับตัวแปรตาม โดยค่า WoE จะแยกมาแต่ละประเภทของตัวแปร เพื่อให้เข้าใจมากขึ้นสมมติว่าตัวแปร x คือเพศ WoE จะแยกกันระหว่างเพศหญิงและเพศชาย
โดย Weight of Evidence วิวัฒนาการมาจากโลกของการให้คะแนนเครดิต จึงมักถูกอธิบายว่าเป็นตัวชี้วัดการแยกลูกค้าที่ดีและไม่ดีออกจากกัน “ลูกค้าไม่ดี” หมายถึงลูกค้าที่ผิดนัดเงินกู้ และ “ลูกค้าดี” หมายถึง ลูกค้าที่ชำระคืนเงินกู้โดยมีสมการดังนี้
จากสมการแม้ Weight of Evidence จะเหมือนใช้เฉพาะกับตัวแปรที่เป็นกลุ่ม (catagory) เท่านั้นแต่เราสามารถใช้เทคนิคการแบ่งช่วงเพื่อทำนาย WoE ของข้อมูลแบบต่อเนื่องได้ และใช้กันมากในางการเงินเช่นในช่วงก่อนตลาดหุ้นจะตกอย่างรุนแรงปริมาณการซื้อขายมักอยู่ในระดับสูงมาก
Weight of Evidence บอกถึงพลังในการทำนายของคุณลักษณะเดียวที่เกี่ยวข้องกับคุณลักษณะที่เป็นอิสระของมัน หากหมวดหมู่/ช่องรายการใดของฟีเจอร์มีสัดส่วนของเหตุการณ์ที่มากเมื่อเทียบกับสัดส่วนของเหตุการณ์ที่ไม่ใช่ เราจะได้รับค่า WoE ที่สูงซึ่งจะบอกว่าคลาสของฟีเจอร์นั้นแยกเหตุการณ์ออกจากเหตุการณ์ที่ไม่ใช่เหตุการณ์ .
IV คือ ความสามารถในการอธิบายผลตัวแปรตามของตัวแปรที่เราระบุ
Risk Contribution
Risk contribution เป็นวิธีการที่พัฒนาขึ้นจากportfolio optimization (Risk parity) สำหรับการวัดการมีส่วนร่วมของสินทรัพย์หรือปัจจัยแต่ละรายการกับความเสี่ยงโดยรวมของพอร์ตโฟลิโอ วิธีนี้มีความสำคัญเนื่องจากช่วยให้นักลงทุนเข้าใจว่าสินทรัพย์หรือปัจจัยเสี่ยงแต่ละรายการมีอิทธิพลอย่างไร พอร์ตโฟลิโอ และสามารถประกอบการตัดสินใจในการปรับพอร์ตเพื่อบริหารความเสี่ยงได้ดียิ่งขึ้น
Graphical network analysis
Graphical network analysis เป็นเทคนิคที่ใช้ในการแสดงและวิเคราะห์ระบบที่ซับซ้อนของความสัมพันธ์ระหว่างตัวแปร ในแนวทางนี้ ตัวแปรจะแสดงเป็นโหนด และความสัมพันธ์ระหว่างตัวแปรจะแสดงเป็นขอบ Graphical network analysis ได้รับความนิยมมากขึ้นในสาขาต่างๆ เช่น สังคมศาสตร์ การเงิน และชีววิทยารวมถึงการเงินเชิงปริมาณ ซึ่งจำเป็นต้องวิเคราะห์เครือข่ายความสัมพันธ์ที่ซับซ้อน
หนึ่งในความท้าทายที่สำคัญของ Graphical network analysis คือการตีความผลลัพธ์ แม้ว่าการวิเคราะห์จะสามารถระบุได้ว่าตัวแปรใดเชื่อมโยงกันมากที่สุด แต่ก็อาจเป็นเรื่องยากที่จะกำหนดทิศทางและสาเหตุของความสัมพันธ์เหล่านี้ นอกจากนี้ การวิเคราะห์เครือข่ายยังต้องการข้อมูลจำนวนมาก ซึ่งอาจรวบรวมและประมวลผลได้ยาก
Optimization Bias
ข้อผิดพลาดที่เราพบได้บ่อยที่สุดคือการทำ Optimization Bias อย่างที่บอกเราทดสอบค่านัยสำคัญไม่ใช่เพื่อหาตัวแปรที่มีนัยสำคัญที่สุดแต่เพื่อทำความเข้าใจ
แต่บ่อยครั้งเรามักเห็นผู้คนที่พยายามหาตัวแปรที่มีความสัมพันธ์สูงที่สุดโดยเฉพาะกับผลตอบแทน ดูตัวอย่างรูปด้านล่าง
รูปข้างต้นคือการพยายามหาเส้น Macd ที่ตัดกันแล้วให้ผลตอบแทนในอดีตที่ดีที่สุด แต่ผลตอบแทนที่ดีในอดีตไม่ใช่ในอนาคตจะเป็นอย่างนั้นจะนำมาซึ่งปัญหา Overfiting เราอาจพิจารณาช่วงเวลาที่ใช้วิเคราะห์ ทั้งการแบ่งเป็น แนวโน้มของตลาด การนำเอาช่วงเวลาผิดปกติออก
ส่งท้าย
เป้าหมายของการทดสอบปัจจัยที่มีนัยสำคัญคือการทำความเข้าใจพฤติกรรมหรือความสัมพันธ์บ้างอย่างเท่านั้น เราจึงต้องระวังปัญหาการเปลี่ยนแปลงโครงสร้างตลาดหรือความสัมพันธ์ของตัวแปร รวมถึงระวัง Look ahead bias ที่อาจทำให้เราเข้าใจผิดในบ้างพฤติกรรม
Note Book:
อ้างอิง
https://medium.com/qunt-i-love-u/feature-selection-in-python-9f79341b144c
Comments