ظهور بازارهای cryptocurrency به طرز چشمگیری نحوه انجام معاملات آنلاین را تغییر داده و فرصت سرمایه گذاری جدیدی را فراهم می کند. این مطالعه با گسترش مجموعه ای از ویژگی های معنی دار استخراج شده از داده های متنی با تجزیه و تحلیل احساسات و مقایسه سودمندی آنها در منابع داده های مختلف ، به ادبیات مربوط به پیش بینی قیمت رمزنگاری جهت دار کمک می کند. بر خلاف مطالعات قبلی ، ما از ویژگی های موضوعی با ذخایر ریز استفاده می کنیم. به طور خاص ، مدل های تجزیه و تحلیل احساسات مبتنی بر جنبه ، JST و TS-LDA ، برای ترکیب ویژگی های مشترک حرکتی موضعی و درجه ذهنیت متنی اجرا شده اند. ما یک مجموعه داده ، که شامل داده های خراشیده شده از منابع Reddit ، BitCointalk و CryptoCompare است ، جمع آوری و در دسترس قرار دادیم تا نشان دهیم که ویژگی های پیشنهادی منجر به مباحث قابل تفسیر و بهبود عملکرد پیش بینی شده می شود.
روی نسخه خطی کار می کنید؟
از رایج ترین اشتباهات خودداری کنید و نسخه خطی خود را برای ویراستاران ژورنال آماده کنید.
معرفی
از زمان آغاز به کار در سال 2008 ، بیت کوین به طور فزاینده ای در پرداخت های آنلاین مورد استفاده قرار می گیرد و به دلیل کنترل غیر متمرکز سیستم بر خلاف سیستم های متمرکز بانکی ، معاملات مالی امن تری را نوید می دهد (ناکاموتو ، 2019). وجود چندین ارز رمزنگاری یا "altcoins" ، پیچیدگی پویایی بازار را افزایش می دهد. محبوبیت آنها منجر به افزایش به اشتراک گذاری اطلاعات cryptocurrency در رسانه های اجتماعی و سایر سیستم عامل های آنلاین شده است (کیم و همکاران ، 2016). ارتباط توییتر و Reddit برای عملکرد پیش بینی نشان داده شده است (Garcia & Schweitzer ، 2015 ؛ Phillips & Gorse ، 2017). با این وجود ، بسیاری از منابع داده دیگر ، مانند انجمن ها و اخبار ، تحت تأثیر قرار می گیرند.
مطالعه حاضر با مقایسه سه رویکرد استخراج ویژگی موضوعی در انجمن ، به تحقیقات در مورد پیش بینی بازده جهت برای رمزنگاری می افزاید و داده های خبری از نظر عملکرد پیش بینی شده برای بازده جهت دار بیت کوین از Reddit ، BitCointalk و CryptoCompare استفاده می شود. ما مجموعه داده ها را که شامل ارزهای رمزنگاری شده جایگزین نیز در دسترس عموم است ، درست می کنیم. پاورقی 1 ویژگی های متنی تازه ایجاد شده منجر به درجه بالاتری از تفسیر و بهبود عملکرد می شود. بنابراین آنها به طور بالقوه برای سرمایه گذاران سودمند هستند ، زیرا نتایج پیش بینی می تواند یک استراتژی سرمایه گذاری در تجارت الگوریتم را آگاه کند (ساخت آن خارج از محدوده این مقاله است).
بقیه مقاله به شرح زیر ساخته شده است: مروری بر ادبیات در فرقه ارائه شده است. 2 و داده ها در بخش شرح داده شده است. 3. چارچوب روش شناختی در بخش بیان شده است. 4 و یافته ها در بخش ارائه شده است. 5- سرانجام ، محدودیت ها و پیامدها در فرقه مورد بحث قرار می گیرد. 6
بررسی ادبیات
پویایی قیمت در بازار cryptocurrency. در مقایسه با دارایی های مالی سنتی ، سرمایه گذاری در ارزهای رمزپایه ایمن به نظر نمی رسد (چون و همکاران ، 2017). ارزیابی آن به عوامل بسیاری از جمله هزینه های معدن (هایز ، 2017) ، ساختار شبکه و اثرات بازار (Kondor et al. ، 2014) و تأثیر همسالان معامله گران بستگی دارد (Krafft et al. ، 2018) ، مهار شفافیت آنارزیابی به عنوان یک ارز (Yermack ، 2015). علاوه بر این ، بازار cryptocurrency اغلب بی ثبات و مستعد بروز حباب در پویایی قیمت ، به ویژه در مورد بیت کوین است (گرلاچ و همکاران ، 2018). بسیاری از تئوری ها قبلاً تدوین شده و مورد آزمایش قرار گرفته اند تا پیچیدگی های بازار رمزنگاری را روشن کنند ، مانند دینامیک تکاملی با الهام از مدلهای زیست محیطی (الباهراوی و همکاران ، 2017) ، تجزیه و تحلیل انسجام موجک (فیلیپس و گورس ، 2018a) یا تولد و مرگمدل ها (وو و همکاران ، 2018) ، اما آنها در جدا کردن پویایی قیمت بازار قطعی نیستند.
در حالی که تکنیک های یادگیری ماشین برای پیش بینی بازار سهام کاملاً موفقیت آمیز است (چانگ و همکاران ، 2009 ؛ هوانگ و همکاران ، 2005 ؛ کانان و همکاران ، 2010 ؛ شتا و همکاران ، 2015) ، تعداد محدودی از منابع متمرکز شده اندCryptocurrencies (Alessandretti و همکاران ، 2018) غیر از بیت کوین (جانگ و لی ، 2018 ؛ مک نالی و همکاران ، 2018 ؛ جیانگ و لیانگ ، 2017). در این مطالعه ، ما همچنین به دلیل تعداد زیادی از شرایط آزمایشی دیگر ، مانند ترکیبات ویژگی و مدل های یادگیری ماشین که مورد استفاده قرار گرفته اند ، روی بیت کوین تمرکز می کنیم. با این حال ، مجموعه داده ای که ما جمع آوری می کنیم شامل ارزهای رمزنگاری شده دیگری نیز هست.
پیش بینی قیمت های cryptocurrency. پیش بینی نوسانات (اندرسن و همکاران ، 2003) ، که اندازه گیری نوسانات قیمت است ، نشان داده شده است که تأثیر قابل توجهی در استراتژی های سرمایه گذاری دارد (فلمینگ و همکاران ، 2003). برخی از مطالعات قبلاً سعی در پیش بینی قیمت رمزنگاری با استفاده از یادگیری ماشین داشتند. به عنوان مثال ، Guo و Antulov-Fantulin (2018) ، توانایی پیش بینی کوتاه مدت نوسانات قیمت بیت کوین را با استفاده از روشهای یادگیری ماشین و Amjad و شاه (2017) مطالعه کردند و یک استراتژی معاملاتی را بر اساس پیش بینی قیمت بیت کوین با استفاده از زمان تاریخی تهیه کردند. قیمت سریمطابق با تحقیقات قبلی (Shintate & Pichl ، 2019 ؛ Valencia et al. ، 2019) ، ما بازده جهت را پیش بینی می کنیم.
دقت بیشترین اندازه گیری ارزیابی در مطالعات قبلی در مورد بازده جهت دار است (بولن و همکاران ، 2011 ؛ زینگ و همکاران ، 2018). با این حال ، این متریک می تواند بسیار گمراه کننده باشد ، به خصوص در مجموعه داده های نامتعادل. در بازارهای مالی ، به اصطلاح بازارهای خرس یا گاو نر وجود دارد که تمایل به سهام وجود دارد که همیشه به سمت بالا یا پایین حرکت کنند (Coudert & Raymond ، 2011 ؛ Maheu & McCurdy ، 2000). بسته به دوره ای که مجموعه داده از آن استخراج شده است ، می توان با دقت بالایی به دست آورد که اگر بازار 90 ٪ از زمان را در یک جهت به سمت بالا حرکت کند ، با پیش بینی یک جهت مثبت برای همه مشاهدات ، بسیار ساده باشد (Sun et al. ، Sun et al. 2009). از آنجا که بیشتر مطالعات قبلی در مورد عدم تعادل کلاس گزارش نمی کنند و فقط صحت را ارزیابی می کنند ، ما استدلال می کنیم که عملکرد مدل واقعی ارزیابی آن دشوار است. معیارهای دیگر می توانند مناسب تر باشند مانند منطقه تحت منحنی ROC (AUC) ، که حساسیت در مقابل 1 خاصیت را ترسیم می کند (الراهمان و آبراهام ، 2013 ؛ او و گارسیا ، 2008 ؛ او و ما ، 2013). مجموعه داده های معیار ما همچنین امکان مقایسه مستقیم و عادلانه تری از عملکرد پیش بینی کننده را فراهم می کند ، همانطور که توسط Nassirtoussi و همکاران پیشنهاد شده است.(2014).
منابع داده متنی. اطلاعات cryptocurrency از طریق رسانه های مختلف اجتماعی مانند توییتر ، ویکی پدیا یا انجمن های Reddit پخش می شود. رسانه های اجتماعی برای پیش بینی وقایع و تغییرات آینده (Schoen و همکاران ، 2013) با بازتاب احساسات پدیده های اجتماعی و اقتصادی و عقاید عمومی ارزش زیادی دارند (گونزالز-بیلون و همکاران ، 2010). علاوه بر این ، پوشش رسانه های محلی به عنوان یک پیش بینی کننده قوی برای تجارت محلی مشهود است (انگلبرگ و پارسونز ، 2011). اثرات شبکه در جوامع آنلاین قابل توجه است ، و اعضای آن و سهم آنها برای انتشار اطلاعات مهم است (Panzarasa et al. ، 2009). انگیزه ذاتی ، اهداف مشترک و اعتماد اجتماعی در بین کاربران باعث اشتراک دانش نوآورانه می شود (Hau & Kim ، 2011). به طور مشابه با جوامع آنلاین ، اعتماد اجتماعی نیز به شدت بر ظهور ارزهای رمزپایه تأثیر گذاشته است (مورر و همکاران ، 2013). به عنوان مثال ، اطلاعات دقیق در پاسخ به نوسانات قیمت cryptocurrency و حجم تجارت در وب به اشتراک گذاشته شده است ، که به کاربران امکان می دهد تصمیمات خرید و فروش آگاهانه تری بگیرند (Fleder et al. ، 2015 ؛ Kim et al. ، 2016). بسیاری از ارزهای رمزپایه پس از مشاوره در انجمن های آنلاین به صورت آنلاین معامله می شوند (گرینبرگ ، 2012 ؛ مورر و همکاران ، 2013). توییت هایی که قطبش احساسات را افزایش می دهد ، تأثیر مثبت بر قیمت بیت کوین دارد (گارسیا و شویتزر ، 2015). همچنین ، فعالیت در Reddit نشان دهنده گسترش ایده های سرمایه گذاری مانند اپیدمی است (فیلیپس و گورس ، 2017) ، که برای تشخیص حباب های قیمت cryptocurrency مفید بوده اند (فیلیپس و گورس ، 2018a). علاوه بر این ، بر اساس مقالات روزنامه ها ، اطلاعات متنی می تواند بازار و ارزیابی های شرکت را پیش بینی کند (Tetlock ، 2007). در واقع ، خبرهایی مانند نوسانات در قیمت های رمزنگاری و اعلامیه های مربوط به تصمیم گیری در مورد سرمایه گذاری در Cryptocurrency (فیلیپس و گورس ، 2018b). با این حال ، مقالات خبری هنوز در پیش بینی بازار cryptocurrency مورد استفاده قرار نگرفته است (فیلیپس و گورس ، 2018a) ، و ویژگی های احساسات موضعی یا پیشرفته آنها مورد بررسی قرار نگرفته است.
هر پلتفرم در تهیه نوع خاص از محتوای خاص خود (واقعی ، ذهنی و غیره) و تعامل به روشی خاص با مخاطبان خود ، چه از طریق پیام های کوتاه (توییتر) ، مقالات با دقت نوشته شده (اخبار) یا پست های آنلاین ، بسیار تخصص دارد. طول از پاسخ های کوتاه تا متون دقیق تر (انجمن ها و reddit) متفاوت است. هر خروجی منحصر به فرد بر سرمایه گذاران و بازرگانان تأثیر می گذارد. ترکیب منابع مختلف داده می تواند منجر به پیش بینی قیمت آگاهانه شود (لامون و همکاران ، 2017) ، اما کاملاً مشخص نیست که چگونه هر رسانه اجتماعی بر قیمت نهایی تأثیر می گذارد. تاکنون ادبیات ذکر نکرده است که چگونه ویژگی های منابع داده های مختلف بر عملکرد پیش بینی شده برای قیمت های رمزنگاری تأثیر می گذارد. علاوه بر این ، حوزه پیش بینی بازار و حتی بیشتر از آن رمزنگاری ، از عدم وجود مجموعه داده های با کیفیت بالا رنج می برد (Nassirtoussi و همکاران ، 2014). مطالعات گذشته در درجه اول روی بیت کوین هنگام استفاده از توییتر یا Reddit به عنوان منبع داده متمرکز شده است (گارسیا و همکاران ، 2014 ؛ Karalevicius et al. ، 2018 ؛ Kristoufek ، 2013 ، 2015 ؛ Yelowitz & Wilson ، 2015). با توجه به طیف گسترده ای از مدل ها و ترکیبات ویژگی های مورد بررسی ، به دلیل وضوح ، آزمایشات موجود در این مطالعه فقط روی قیمت بیت کوین به عنوان متغیر هدف متمرکز است ، اما در داده های جمع آوری شده ، سایر ارزهای رمزنگاری شده نیز وجود دارد.
ویژگی های متن
ویژگی های موضعیمدل سازی موضوع یک تکنیک استخراج متن است که برجسته ترین مباحث و کلمات کلیدی همراه آنها را استخراج می کند ، و در نتیجه یک مرور مفهومی از جسد بدون طی کردن فرآیند وقت گیر کردن دستی از طریق متون انجام می شود (Blei et al. ، 2003 ؛ Lee & & & & & lee & سونگ ، 1999). اطلاعات مربوط به مباحث مورد بحث در رسانه های اجتماعی نشان داده شده است که بر جنبش بازار تأثیر می گذارد (فیلیپس و گورس ، 2018b ؛ کیم و همکاران ، 2017). به طور دقیق تر ، فیلیپس و گورس (2018b) با استفاده از مدل سازی موضوع پویا ، اطلاعات مربوط به وقوع زمانی موضوعات مختلف را بازیابی کردند. نویسندگان نشان می دهند که چگونه مباحث خاص پیش از انواع خاصی از حرکات قیمت تمایل دارند ، و ارتباط مدل های موضوع را در پیش بینی cryptocurrency نشان می دهد. با این وجود ، فقط کیم و همکاران.(2017) مدل سازی موضوع را برای پیش بینی بیت کوین جهت دار ، با استفاده از یک رویکرد اساسی که یک موضوع واحد را در هر سند و بدون در نظر گرفتن احساسات در نظر می گیرد ، اعمال کرد. در این مطالعه ، ما بررسی می کنیم که آیا استفاده از مدل های احساسات مبتنی بر جنبه اخیر و واقع بینانه تر که هر دو موضوع و احساسات را استخراج می کنند بدون اینکه یک موضوع واحد در هر سند عملکرد پیش بینی کننده را بهبود می بخشد ، عملکرد پیش بینی کننده را بهبود می بخشد.
ویژگی های احساسات هدفمند. روشهای اساسی طبقه بندی احساسات ساده فرض می کنند که هر سند فقط به یک موضوع مربوط می شود (پانگ و همکاران ، 2008) ، حتی اگر اسناد در واقعیت می توانند مربوط به چندین مورد از آنها باشند. برای غلبه بر این مسئله ، روشهای تجزیه و تحلیل احساسات مبتنی بر جنبه به طور مشترک اشیاء مورد علاقه و احساسات مربوط به آنها را استخراج می کنند. این روش را می توان با مثال زیر نشان داد. این جمله را در نظر بگیرید "بازارها بیش از حد دستکاری شده اند ، اما جامعه مفید است". سیستم باید تعیین کند که احساسات در مورد جنبه بازار منفی است ، در حالی که نسبت به جنبه جامعه مثبت است. به عبارت دیگر ، احساسات و مباحث با یکدیگر تعامل دارند و در نظر گرفتن هر دو به طور همزمان می تواند مفید باشد (Riloff et al. ، 2003). از دیدگاه کاربر ، برخی از مباحث باید به عنوان بی ربط دور ریخته شوند ، در حالی که برخی دیگر باید در رابطه با احساسات برای درک بهتر تشخیص داده شوند. تجزیه و تحلیل احساسات مبتنی بر جنبه در مورد پیش بینی سهام اعمال شده است (نگوین و شیرای ، 2015) ، اما در Cryptocurrency نیست. مدل سازی احساسات و مباحث در همان زمان هنوز در یک زمینه مالی توجه زیادی را به خود جلب نکرد (Xing et al. ، 2018). با این حال ، این یک جهت تحقیق امیدوار کننده است ، زیرا نمرات احساسات و ذهنی مربوط به موضوع به سرمایه گذاران امکان می دهد معاملات آگاهانه تری انجام دهند ، زیرا وقتی پیش بینی می شود ، پیش بینی می تواند به موضوعات و احساسات مرتبط باشد.
مشارکت
سهم ما را می توان به شرح زیر خلاصه کرد:
ما به شکاف تحقیق استفاده از تجزیه و تحلیل احساسات مبتنی بر جنبه (JST و TS-LDA) بر روی داده های متنی برای پیش بینی بازده جهت رمزنگاری می پردازیم. ما همچنین شامل نمرات قطبیت و ذهنیت و همچنین مباحث LDA هستیم. تمام تنظیمات ویژگی های مختلف در آزمایش های طبقه بندی مورد بررسی و مقایسه قرار می گیرند.
ما نشان می دهیم که ویژگی های استخراج شده هنگام پیش بینی بازده جهت دار بیت کوین ، عملکرد را افزایش می دهد. بر خلاف تحقیقات قبلی ، این مطالعه عملکرد مدل ها را با استفاده از ROC AUC و دقت اندازه گیری می کند ، و ما همچنین تعادل کلاس را گزارش می کنیم.
ما نشان می دهیم که مباحث استخراج شده قابل تفسیر هستند و بینش ریز تری نسبت به LDA سنتی ارائه می دهند. ما چندین سرمایه گذار را دعوت کرده ایم تا نظر خود را در مورد موضوعات ارائه دهند و اظهارات آنها را در بخش بحث درج کرده اند.
مجموعه داده های ما شامل چندین منبع داده ، از جمله منابع متنوع متنوع: داده های مالی از CryptoCompare ، فرکانس جستجوی جستجو از Google Trends و داده های متنی از انجمن ها ، Reddit و اخبار است. به همین ترتیب ، ما شکاف تحقیق در مورد احساسات و تجزیه و تحلیل موضعی داده های خبری برای پیش بینی رمزنگاری را ایجاد می کنیم.
ما مجموعه داده های خود را برای تسهیل آزمایشات توسط سایر تیم های تحقیقاتی منتشر می کنیم. این مجموعه داده شامل چندین ارز رمزنگاری و یک بازه زمانی طولانی تر از بسیاری از آثار قبلی است ، زیرا نیاز به آن توسط محققان متعدد برجسته شد (لی و همکاران ، 2018 ؛ فیلیپس و گورس ، 2018b).
داده های قیمت تاریخی و روند جستجو
ما آزمایشات را در 768 روز از 20 فوریه 2017 تا 06 آوریل 2019 انجام می دهیم. شاخص های مالی از API تهیه شده توسط CryptoCompare.com ، یک بستر نظارت برای بازار cryptocurrency گرفته شده است. داده ها شامل قیمت باز و بسته شدن روزانه ، کم و حجم زیاد چندین ارز رمزنگاری شده است. در حالی که این پلتفرم نزدیک به 1500 ارز رمزنگاری را در بر می گیرد ، ما فقط پنج ارز رمزنگاری برتر را بر اساس سرمایه گذاری در بازار برای جمع آوری داده ها انجام می دهیم و از این پنج سکه ، این مطالعه فقط در آزمایش های خود بر روی بیت کوین متمرکز است. ما به دلیل تعداد زیادی از عواملی که قبلاً در مجموعه آزمایشی ما نقش داشتند ، ارزهای دیگر را برای مطالعات آینده ترک می کنیم. داده های سرمایه گذاری در بازار از CoinmarketCap.com با استفاده از API رسمی استخراج می شود. سکه هایی که دوباره مارک شده بودند (اگر نام آنها تغییر کرده بود) یا پوشش کافی در طول دوره تحقیق نداشتند ، حذف شدند. داده های فرکانس جستجو از Google Trends برای دوره تحقیق کامل از طریق یک ماژول پایتون به دست می آید. پاورقی 2
متون سه منبع داده متنی در این مطالعه وجود دارد: Reddit ، CryptoCompare و BitCointalk.
منبع اول یک بستر بحث و گفتگو آنلاین محبوب است. این شامل چندین زیر مجموعه است که هر کدام روی یک موضوع خاص تمرکز دارند. تعداد پست های Reddit در مجموعه داده شامل حدود 2 میلیون نظر از یک Subreddit در Cryptocurrency است. پاورقی 3 داده ها از طریق pushshift.io به دست می آیند. پاورقی 4 این API نسبت به API رسمی Reddit ترجیح داده می شود ، زیرا امکان جمع آوری داده ها در یک محدوده زمانی خاص را فراهم می کند. علاوه بر بدنه نظرات ، متائرات متا جمع آوری شده است: عناوین موضوع ، نمرات رأی گیری در مورد نظرات و موضوعات ، نظرات و شاخص ها و شاخص های والدین. ساختار درخت هر نخ را می توان با تطبیق شاخص بازسازی کرد. منبع دوم جمع کننده خبری CryptoCompare است که از آن عناوین خبری کوتاه با API رسمی استخراج می شود. منبع سوم و آخر BitCointalk ، پاورقی 5 یکی از قدیمی ترین و بزرگترین تالارها در مورد ارزهای رمزنگاری شده است. این برنامه دارای زیرنویس های چند زبانه و موضوعات در مورد ارزهای جایگزین جایگزین است. یک وب سایت سفارشی برای بازیابی موضوعات انجمن تهیه شده است. آمار شرکت ها در جدول 1 نشان داده شده است. متون استخراج شده بسیار خاص دامنه هستند ، حاوی مخفف و عامیانه هستند.
روش شناسی
هدف پیش بینی بازده جهت دار است که با استفاده از قیمت های پایانی محاسبه می شوند. یک حرکت رو به بالا در قیمت پایانی در این مورد با طبقه مثبت مطابقت دارد و هیچ حرکتی یا حرکتی رو به پایین به عنوان طبقه منفی در نظر گرفته نمی شود. بنابراین مشکل طبقه بندی باینری است [مشابه والنسیا و همکاران.(2019) و Shintate و Pichl (2019]). مجموعه داده فقط با 55. 4 ٪ جهت مثبت و 44. 6 ٪ منفی کمی نامتعادل است. شکل 1 مروری بر ترکیب نسبتاً پیچیده از منابع داده و الگوریتم هایی که ما پیشنهاد می کنیم ارائه می دهد.

کل مجموعه آزمایشی. عواملی که بین آزمایشات متفاوت است به صورت جسورانه برجسته می شوند (به عنوان مثال ، منبع داده ، ویژگی های مورد استفاده و مدل مورد استفاده)
ویژگی های متنی
برچسب زدن به Tokenisation و بخشی از گفتار (POS) با استفاده از پاورقی NLTK 6 کتابخانه Python انجام می شود (Loper & Bird ، 2002). قبل از استخراج مباحث ، کلمات توقف و نگارشی و کلمات lemmatize را حذف می کنیم. URL ها ، نام های کاربری ، اعداد ، نمادهای ارزی و ایموجی ها به نشانه های ویژه تبدیل می شوند (به عنوان مثال ، "#emoji#")انقباضات مشترک (مانند "M") به شکل کامل آنها گسترش یافته است.
استخراج موضوع یافتن موضوع صحیح هر اظهار نظر یک کار مهم برای تجزیه و تحلیل است. هدف حفظ کیفیت داده ها ضمن حفظ مقدار کافی از داده ها برای تجزیه و تحلیل بیشتر است. خط لوله استخراج موضوع نهایی به روش زیر ساخته شده است. از لیست 50 سکه بزرگ ، تمام نام های رمزنگاری و نمادهای تیک به دست می آید. برخی از ارزهای رمزنگاری شده معمولاً توسط یکی از کلمات در نام طولانی تر آنها گفته می شود. به عنوان مثال ، پروژه نماد به طور کلی به عنوان نماد مورد بحث قرار می گیرد. بنابراین ، نامهایی که از چندین کلمه تشکیل شده اند تقسیم شده و در یک لیست جداگانه قرار می گیرند. در این لیست ، کلماتی که در سایر نامهای رمزنگاری وجود دارد ، مانند کلمات "نشانه" یا "سکه" ، منجر به کپی می شوند و از این رو از لیست حذف می شوند زیرا نمی توان به عنوان شناسه های منحصر به فرد مورد استفاده قرار گرفت. از برچسب های بخشی از گفتار برای فیلتر کردن اسم ها استفاده می شود تا آنها را با نام های cryptocurrency و نمادهای تیک مطابقت دهد. این منجر به لیستی از موضوعات برای هر مشاهده می شود ، که با نظر یا عنوان پست که مورد تجزیه و تحلیل قرار می گیرد ، همراه است. برخی از مشاهدات نمی توانند شامل هیچ یک از نام های رمزنگاری شده از لیست باشند ، جایی که برخی دیگر حاوی چندین مورد از آنها هستند. هنگامی که سوژه ها استخراج می شوند ، از ساختار درخت نظر که در Reddit وجود دارد ، برای اختصاص بیشتر موضوعات به نظرات که موضوع خاصی را شناسایی نمی کند ، استفاده می شود. به عبارت دیگر ، موضوعاتی که در یک موضوع بالاتر از سلسله مراتب مورد بحث قرار می گیرند ، احتمالاً نقطه بحث برای اظهارنظرهایی است که در زیر آنها قرار دارد. این فرض برای اختصاص موضوعات به نظرات استفاده می شود که در آن هیچ موضوعی از خود نظر حاصل نمی شود. ضرر این روش این است که می توان با فرض اینکه آنها در مورد همان موضوع نظر والدین خود صحبت می کنند ، به طور نادرست طبقه بندی نظرات را طبقه بندی کنیم ، در حالی که این طور نبود. ما برای تخمین صحت این رویکرد مبتنی بر قانون ، زیر مجموعه 88 متن تصادفی را حاشیه نویسی کرده ایم. نمره دقیق 0. 95 و فراخوان 0. 89 است.

توزیع برچسب های قطبی که توسط کتابخانه Vader اختصاص داده شده است

توزیع برچسب های ذهنیت که توسط کتابخانه TextBlob اختصاص داده شده است
Sentiment رویکرد مبتنی بر واژگان Vader (Hutto & Gilbert ، 2014) برای استخراج نمره قطبی مرکب استفاده می شود. این کتابخانه به دلیل عملکرد بالا در متون غیررسمی کوتاه ، که بخش بزرگی از مجموعه داده های ما را تشکیل می دهد ، انتخاب می شود. نمره از - 1 (منفی ترین) تا 1 (مثبت ترین) است. توزیع نمرات احساسات در شکل 2 گزارش شده است. احساسات برای کل متن مشخص شده است و در ترکیب با برچسب موضوع از مرحله قبل ، ما یک هدف تراز تراز درشت درشت داریم. این به عنوان یک روش پایه برای مقایسه با روشهای پیشرفته تر احساسات مبتنی بر هدف عمل می کند. علاوه بر قطبیت ، ما از کتابخانه پاورقی TextBlob 7 برای استخراج اندازه گیری ذهنیت بیان شده توسط متن استفاده می کنیم (شکل 3). این جنبه بیشتر در مطالعات قبلی نادیده گرفته شده است.
مباحث اطلاعات موضعی با استفاده از تخصیص Dirichlet نهان (LDA) در هر متن استخراج می شود (Blei و همکاران ، 2003) (پاورقی اجرای GENSIM 8). متون از قبل نشان داده شده و از قبل پردازش می شوند: کلمات به صورت لمسی شده ، انقباضات مشترک گسترش می یابد ، URL ها ، ایموجی ها و اعداد به نشانه های ویژه تبدیل می شوند ، کلمات کلیدی و کلمات کوتاه حذف می شوند. ما با تعداد مباحث آزمایش می کنیم و 2 تا 8 موضوع را امتحان می کنیم. همانطور که از جدول 2 مشاهده می شود (تولید شده با Pyldavis) ، مباحث تمایل دارند به سمت توضیحات معامله (موضوع 1) ، جنبه کسب و کار (موضوع 2) ، مشارکت و بحث دانش (موضوع 3) ، نظرات و مکالمات شخصی (موضوع 4) گرایش پیدا کنند.، و جنبه اقتصادی (موضوع 5).
به منظور ارزیابی مفاهیم مشخص شده توسط مدل ها ، با درخواست برای بررسی مباحث ، با سرمایه گذاران در ارزهای رمزنگاری تماس گرفتیم. آنها با تفسیرهایی که ارائه می دهیم موافقت کردند ، اگرچه آنها ذکر می کنند که در برخی از موضوعات همپوشانی خاصی وجود دارد ، همچنین "کشور" و "مقررات" بیشتر برای ICO برای محدود کردن برخی از سرمایه گذاران از گرفتن کاغذ سفید یا استفاده می شوندسرمایه گذاری پول و از مبادلات برای محدود کردن برخی از حسابها که "مشتری خود را می شناسید" (KYC).
ویژگی های دیگر
جدا از ویژگی های متنی ، ما از داده های مالی استفاده می کنیم و فرکانس های جستجوی روندهای Google را برای ساخت متغیرهای عقب مانده نرمال می کنیم. تاخیر 7 روز است ، و ویژگی ها به طور متوسط با یک پنجره نورد 1 روز (3 روز تاخیر نیز محاکمه شده است ، اما منجر به بهبودی نمی شود) ، به طوری که برای هر روز ، به عنوان مثال ، 7 تاخیر را بدست می آوریممقادیر متغیر "بازگشت".
پردازش اضافی
چالش نهایی این است که ویژگی های متنی را جمع کنید تا آنها را با این ویژگی های مالی و روند ، اساساً سری زمانی سازگار کنیم. با جمع بندی نظرات فردی ، از دست دادن اطلاعات اجتناب ناپذیر خواهد بود. این می تواند با در نظر گرفتن دانه بندی دقیق تر از یک روز ، به عنوان مثال ، یک ساعت کاهش یابد. با این حال ، API های داده های مالی و Google Trends اجازه این کار را نمی دهند زیرا دقیق ترین داده های آنها در فواصل روزانه بود. هنگامی که داده های احساسات در مشاهدات روزانه جمع می شوند ، ویژگی های حاصل تعداد کل نظرات ، مجموع نظرات مثبت و مجموع نظرات منفی است. برای قطبیت ، آستانه 0 است (بنابراین نظرات با نمره قطبیت کمتر از 0 به عنوان منفی دیده می شود) و برای ذهنیت ، 0. 5 است.
تجزیه و تحلیل احساسات مبتنی بر جنبه
در بخش قبلی فرض کرده ایم که هر متن یک یا چند موضوع را پوشش می دهد و احساسات هر متن را استخراج کرده ایم. با این حال ، در چنین مجموعه ای ، اگر متن حاوی دو موضوع باشد ، و یکی از آنها به طور منفی ذکر شده است ، در حالی که دیگری مثبت ، ما یک امتیاز خنثی را به هر دوی آنها اختصاص می دهیم. با استفاده از مدلهای تجزیه و تحلیل احساسات مبتنی بر جنبه (ABSA) می توان این مسئله را کاهش داد و اطلاعات احساسات ریز تری را دریافت کرد.
ABSA شامل سه مرحله است: شناسایی جنبه ، استخراج جنبه و طبقه بندی احساسات. در صورت ارائه لیست جنبه های هدف ، شناسایی جنبه می تواند بدون نظارت یا نظارت باشد. در حالت دوم ، از روشهای فیلتر بر اساس بخشی از برچسب زدن گفتار یا تکنیک های مدل سازی موضوع استفاده می شود. استخراج ذکر شده شامل تعیین صحیح جنبه مربوط به یک قطعه متن معین است. سرانجام ، از بقیه قطعه ، احساسات بیان شده به جنبه یافت شده طبقه بندی می شود. محبوب ترین روش های یادگیری ماشین برای این کار ، دستگاه های بردار پشتیبانی و شبکه های عصبی هستند. با این وجود ، رویکردهای مبتنی بر واژگان احساسات نیز به طور گسترده ای مورد استفاده قرار می گیرد. مدلهای ABSA تحت نظارت موجود ، عملکرد مناسبی دارند ، همانطور که توسط مسابقات نیمه کاره نشان داده شده است (پونتیکی و همکاران ، 2016). با این حال ، آنها حتی در حوزه رقابت اصلی به راحتی قابل انتقال نیستند ، و به همین ترتیب ، ما تصمیم گرفتیم که در برابر مدل های پیش تنظیم در مجموعه داده های نیمه کاره قرار بگیریم. به دلیل عدم وجود شرکت های خاص دامنه ، ما روی روشهای بدون نظارت تمرکز می کنیم. ما مدل های مشترک را که بیشتر تغییرات LDA هستند ، بررسی می کنیم. برخی از آنها شامل یک جنبه زمانی برای منعکس کردن تکامل احساسات در یک موضوع معین است.
JSTلین و او (2009) یک مدل موضوع مشترک/احساسات (JST) را بر اساس LDA پیشنهاد دادند (Blei et al. ، 2003) ، که احساسات و موضوع را همزمان از متن تشخیص می دهد. مدل JST این مزیت را دارد که کاملاً تحت نظارت قرار نگیرد و از این رو می تواند در دامنه هایی که هیچکدام از شرکتهای دارای برچسب وجود ندارد ، اعمال شود. JST توزیع کلمات مشترک موضوعی را به نمایش می گذارد.
ts-lda. در حالی که JST به طور خاص برای حرکت قیمت سهام مناسب نیست ، تخصیص Dirichlet Sentiment Sentiment Sentiment (TS-LDA) برای پیش بینی حرکت قیمت سهام با استفاده از احساسات در رسانه های اجتماعی ساخته شده است (نگوین و شیرای ، 2015). TS-LDA نه تنها به طور همزمان موضوع و احساسات را ضبط می کند بلکه آن را در چندین سهام متشکل از بسیاری از تاریخ های معامله نیز اعمال می کند. برخلاف JST ، که بین توزیع کلمه موضوع و افکار کلمه تمایز قائل نیست ، TS-LDA توزیع کلمات مختلف را برای هر موضوع برای هر موضوع تخمین می زند. با این کار ، TS-LDA موفق به تعیین کدام کلمات نظر مثبت یا منفی می شود.
نمرات مربوط به مباحث با پیاده سازی های ارائه شده توسط نویسندگان مقالات مربوطه استخراج می شود ، سپس بیش از همه نظرات در روز جمع می شود و به همان روشی که پیش بینی کننده های مالی و روند (7 روز تاخیر با پنجره نورد یک روزه) انجام می شود.
مدلهای پیش بینی کننده
ما طیف گسترده ای از رویکردهای یادگیری ماشین استاندارد را برای طبقه بندی باینری مقایسه می کنیم: خلیج های ساده لوح ، رگرسیون لجستیک ، دستگاه های بردار پشتیبانی ، جنگل تصادفی (پیاده سازی Sklea (Pedregosa و همکاران ، 2011)). ما همچنین یک شبکه عصبی مکرر حافظه کوتاه مدت کوتاه (LSTM) و یک Perceptron چند لایه (MLP) را در KERA (Chollet et al. ، 2015) اجرا کرده ایم (با عادی سازی دسته ای و عملکرد فعال سازی واحد خطی نمایی مقیاس یافته) ، یعنیآموزش داده شده با استفاده از Nesterov Adam Optimiser (Kingma & BA ، 2014).
80 ٪ از داده ها برای مجموعه اعتبار سنجی قطار و 20 ٪ برای آزمون نهایی اختصاص یافته است. برای پاسخ به تعداد نسبتاً محدود از مثالها و عدم تعادل کلاس ، ما از گزینه ترک ، توقف زود هنگام ، گزینه وزن کلاس از مدل های Sklea (که عملکرد از دست دادن را با توجه به نسبت کلاس در مجموعه داده مجازات می کند) استفاده کردیم و تکنیک نمونه برداری بیش از حد را لمس کردیم.
برای مدل های یادگیری ماشین ، پارامترها با جستجوی تصادفی (300 تکرار) و اعتبارسنجی متقاطع سری زمانی پنج برابر تنظیم شدند. برای مدل های یادگیری عمیق ، ما جستجوی شبکه را روی Hyperparameters انجام دادیم: 16 ، 32 و 64 واحد ، 1 یا 2 لایه (MLP) ، 0. 3 ، 0. 5 و 0. 8 میزان ترک تحصیل.
آزمایش
در این بخش مباحث استخراج شده را بررسی می کنیم و سود عملکرد پیش بینی شده را در پیش بینی بازده جهت برای بیت کوین ارزیابی می کنیم. خط لوله کلی ، از مرحله جمع آوری داده ها تا آزمایشات ، در شکل 1 ارائه شده است.
موضوعات موضوعاتی
برای LDA ، ما 2 تا 8 موضوع را امتحان کردیم. برای JST و TS-LDA ، ترکیبی از 2 تا 8 موضوع و 2 تا 3 برچسب احساسات استخراج شد. این تنظیمات را می توان به عنوان هایپرپارامتری دانست.
ویدیو های آموزشی فارکس...
ما را در سایت ویدیو های آموزشی فارکس دنبال می کنید
برچسب :
نویسنده : محبوب امانی
بازدید : 34
تاريخ : شنبه
3 تير
1402 ساعت: 1:12