پارادوکس لبه بازار گریزان

ساخت وبلاگ

هر چه بیشتر تلاش کنید، شانس موفقیت بیشتر است. می توان فکر کرد که این اکتشافی اثبات شده که در زندگی روزمره اعمال می شود، زمانی که فرد در تلاش برای یافتن یک مزیت در بازارها است نیز صدق می کند. اما این اکتشافی در این مورد صدق نمی کند و در واقع علت شکست است. دلیل این امر سوگیری داده کاوی است، اثری که وقتی سعی می کنید یک قلم گم شده در دفتر یا فایل ذخیره شده روی دیسک رایانه را پیدا کنید وجود ندارد.

سوگیری داده کاوی

معامله گران و سرمایه گذاران معمولاً سعی می کنند با آزمایش ایده های مختلف بر روی داده های تاریخی برای تعیین سودآوری تاریخی خود، لبه های بازار را بیابند. فرآیندی که از طریق آن به این نتیجه می رسد به عنوان بک تست شناخته می شود. این ایده در اصل ساده است: یک مدل ریاضی توسعه یافته و سپس بر روی داده های تاریخی آزمایش می شود. سپس، عملکرد بر روی داده های جدیدی که در بک آست استفاده نشده اند و با روش های اعتبارسنجی مختلف دیگر اعتبارسنجی می شود. اگر عملکرد مدل رضایت بخش نباشد، یا اصلاح می شود یا جستجو برای یک مدل جدید شروع می شود. شماتیک این فرآیند در زیر نشان داده شده است [1].

همانطور که در شکل بالا نشان داده شده است، سه جزء اصلی سوگیری داده کاوی وجود دارد. اولین مورد به دلیل برازش منحنی یک مدل بر روی داده های تاریخی است. توجه داشته باشید که همه مدل ها با توجه به برخی تابع هدف دلخواه بر روی داده ها برازش منحنی دارند. مشکل این است که آیا آنها نیز بیش از حد مناسب هستند، اما اگر دو شکل دیگر سوگیری غالب باشند، ممکن است مهم نباشد. دومین مؤلفه سوگیری داده کاوی، سوگیری انتخاب پس از اولین مرحله بک تست است، به دلیل پذیرش یک لبه بالقوه در حالی که بسیاری از موارد دیگر را رد می کند. سوگیری انتخاب مجدداً پس از تأیید عملکرد در داده های دیده نشده، که به عنوان خارج از نمونه نیز شناخته می شود، معرفی می شود.

سومین و مهم ترین مؤلفه سوگیری داده کاوی به دلیل جاسوسی داده است. این زمانی اتفاق می افتد که یک مدل (استراتژی) پس از مرحله اعتبار سنجی رد شود و فرآیند دوباره راه اندازی شود. معمولاً هیچ کس پس از اولین شکست برای همیشه دست از کار نمی کشد، اما بیشتر آنها از ابزارهای مدرن برای استخراج داده ها برای کشف لبه های سودآور استفاده می کنند. در این صورت، همه ابزارهای اعتبارسنجی بخشی از فرآیند می شوند و دیگر موثر نیستند.

به طور خلاصه ، وقتی می شنوید کسی ادعا می کند که آنها یک آزمایش خارج از نمونه را انجام داده اند و نتایج خوبی پیدا کرده اند ، نه تنها در امور مالی بلکه در هر زمینه ای ، باید بپرسید که قبل از آن چند مدل را رد کرده اند. این بدتر می شود: شما باید از آنها بپرسید که آیا آنها می دانند که چند مدل آزمایش شده بر روی همان داده ها توسط همه معامله گران و سرمایه گذاران کمی مشتاق رد شده اند. اگر آنها می دانند ، برخی از روش ها برای تنظیم آمار اعتبار سنجی برای تعصب داده ها ارائه شده است ، اما در بیشتر موارد ، این حتی لازم نیست زیرا تعصب در حال حاضر بسیار زیاد است و هیچ تست اعتبارسنجی قوی نیست. نکته این است که ممکن است یک مدل رد شده خوب باشد (خطای نوع II) یا یک مدل پذیرفته شده ممکن است در واقعیت بد باشد (خطای نوع I). شما هرگز نمی توانید بدانید زیرا هیچ راهی برای دانستن تعصب معیار داده های جمعی در کل سیاره وجود ندارد. شکل 2 در زیر نشان می دهد که چگونه این تعصب داده شده داده شده در اصل کار می کند.

در شکل 2 ، "A" برخی از عملکردهای غیر خطی محدود از N ، تعداد آزمایشات و پارامترهای دیگری است که مربوط به داده ها و مدل است. نکته این است که احتمال P یافتن یک لبه واقعی به 0 می رود تا N بزرگ شود. نتیجه ضد شهود این است که پشتی ایده های جدید شانس پیدا کردن یک لبه را کاهش می دهد. این در مورد پشتی دستی دستی صادق است اما در مورد برنامه های یادگیری ماشین که داده های معدن برای یافتن لبه های بازار را نیز برجسته تر می کند ، برجسته تر است.(برای اطلاعات بیشتر به این مقاله مراجعه کنید.)

بنابراین چگونه می توانیم با پارادوکس حاشیه بازار گریزان مقابله کنیم؟یکی از راه های خروج فقط استفاده از پشتی است که ایده منحصر به فرد وجود دارد که بعید است توسط دیگران پیدا شود. این سخت اما ممکن است. روش درمانی دیگر هنگام استفاده از داده ها اغلب با استفاده از تست های پیشرفته تر است که به جای تلاش برای تخمین ، تعصب استخراج داده را به حداقل می رساند. به طور کلی ، تعصب داده های مورد نظر را نمی توان تخمین زد زیرا هم تعداد واقعی آزمایشات و هم منابع آن ناشناخته است.

این و سایر حقایق در مورد پشتی ، به همراه مثالها و قوانین برخورد با تعصب داده ها ، را می توان در [1] یافت.

[1] هریس. M. ، فریب خورده از تجزیه و تحلیل فنی: خطرات نمودار ، پشتی و داده های داده ، 2015 ، فقط به صورت آنلاین در دسترس است.

توجه داشته باشید از ویرایشگران Data Science: در حالی که ما به نویسندگان مستقل اجازه می دهیم مقالات را مطابق با قوانین و دستورالعمل های خود منتشر کنند ، ما سهم هر نویسنده را تأیید نمی کنیم. شما نباید بدون اینکه به دنبال مشاوره حرفه ای باشید ، به آثار نویسنده اعتماد کنید. برای جزئیات بیشتر به شرایط خواننده ما مراجعه کنید.

درباره نویسنده: مایکل هریس یک معامله گر و پرفروش است. او همچنین توسعه دهنده اولین نرم افزار تجاری برای شناسایی الگوهای پارامتر کمتر در عملکرد قیمت 17 سال پیش است. در هفت سال گذشته وی در زمینه توسعه DLPAL کار کرده است ، یک برنامه نرم افزاری که می تواند برای شناسایی ناهنجاری های کوتاه مدت در داده های بازار برای استفاده با مدل های یادگیری ثابت و ماشین استفاده شود. برای اطلاعات بیشتر اینجا را کلیک کنید

ویدیو های آموزشی فارکس...
ما را در سایت ویدیو های آموزشی فارکس دنبال می کنید

برچسب : نویسنده : محبوب امانی بازدید : 67 تاريخ : پنجشنبه 24 فروردين 1402 ساعت: 21:23