فواصل اعتماد به نفس قابل اعتماد برای برآوردهای Reltime از زمان واگرایی تکاملی

ساخت وبلاگ

فواصل اطمینان (CI) عدم اطمینان آماری پیرامون برآورد زمان واگرایی تکاملی را نشان می دهد. آنها واریانس را با تعداد محدود توالی ها و سایت های مورد استفاده در تراز ، انحراف نرخ تکاملی از یک ساعت مولکولی سخت در فیلوژنی و عدم اطمینان همراه با کالیبراسیون ساعت ضبط می کنند. آزمایش های قابل اعتماد فرضیه های بیولوژیکی نیاز به CI قابل اعتماد دارند. با این حال ، روشهای غیر بویزی فعلی ممکن است CI های غیرقابل اعتماد تولید کند زیرا آنها تغییر نرخ در بین سلسله ها و تعامل بین کالیبراسیون ساعت را به درستی ندارند. در اینجا ، ما یک روش تحلیلی جدید برای محاسبه CI از زمان واگرایی تخمین زده شده با استفاده از روش Reltime ، همراه با رویکردی برای استفاده از تراکم عدم اطمینان کالیبراسیون متعدد در این تحلیل ها ارائه می دهیم. تجزیه و تحلیل داده های تجربی نشان داد که روشهای جدید CI را تولید می کنند که با فواصل بالاترین چگالی خلفی بیزی (HPD) همپوشانی دارند. در تجزیه و تحلیل داده های شبیه سازی شده با رایانه ، ما دریافتیم که CI های Reltime احتمالات پوشش متوسط عالی را نشان می دهند ، یعنی زمان واقعی در CIS با احتمال 95 ٪ موجود است. این تحولات استفاده گسترده تر از رویکرد Reltime محاسباتی را در تجزیه و تحلیل دوستیابی مولکولی و آزمایش فرضیه بیولوژیکی تشویق می کند.

مقدمه

استنباط قابل اعتماد از فواصل اطمینان در اطراف برآورد زمان واگرایی برای آزمایش فرضیه های بیولوژیکی ضروری است (Burbrink and Pyron 2008 ؛ Kumar and Hedges 2016). منابع متعدد در عدم اطمینان از برآورد زمان واگرایی مولکولی نقش دارند (Raala and Yang 2007 ؛ Zhu et al. 2015 ؛ Kumar and Hedges 2016). یکی از آنها خطایی است که با تخمین طول شاخه در فیلوژنی به دلیل تعداد محدود سایت ها و تعویض های موجود در تراز دنباله همراه است (Kumar and Hedges 2016 ؛ Waock et al. 2017). ماهیت تصادفی فرآیند جایگزینی (به عنوان مثال ، فرآیند پواسون) و عدم اطمینان در حسابداری برای تعویض های بدون نظارت (تصحیح چند ضربه ای) منجر به خطا در تخمین های طول شاخه می شود ، که منجر به برآورد زمان نادرست می شود (Kumar and Hedges 2016). با این حال ، این خطا با افزایش تعداد سایت های نمونه برداری کاهش می یابد (Raala and Yang 2007 ؛ Dos Reis and Yang 2013 ؛ Zhu et al. 2015) و برای مجموعه داده های بزرگ فیلوژنیک ناچیز می شود.

منبع دوم خطا ، تغییر نرخ تکاملی در بین شاخه ها و سلسلها است (زو و همکاران 2015 ؛ کومار و هجز 2016). از آنجا که نرخ ها و زمان ها اشتباه گرفته می شوند ، تغییر نرخ ها به طور طبیعی منجر به عدم اطمینان از تخمین زمان می شود (هو 2014 ؛ زو و همکاران 2015). این اثر مخدوش را نمی توان با نمونه برداری از سایت ها یا ژن های بیشتر در یک مجموعه داده از بین برد (زو و همکاران 2015 ؛ کومار و هجز 2016) ، بنابراین عدم اطمینان بیشتری نسبت به تخمین های زمان نسبت به خطاها در تخمین طول شاخه برای یک مجموعه داده بزرگ کمک می کند. عدم قطعیت مرتبط با کالیبراسیون ساعت به دلیل ماهیت دو برابر سوابق فسیلی منبع سوم خطای در تخمین زمان واگرایی را نشان می دهد (زو و همکاران 2015 ؛ دوس ریس و همکاران 2016 ؛ وارنوک و همکاران 2017). قرار گرفتن دقیق سوابق فسیلی در فیلوژنی و تکلیف صحیح محدودیت های کالیبراسیون ، به ویژه حداکثر محدودیت ، اغلب توجیه دشوار است و در نتیجه عدم اطمینان زیاد در تخمین زمان واگرایی (برومام و همکاران 2018).

در تجزیه و تحلیل بیزی ، بالاترین فواصل چگالی خلفی (HPD) معمولاً عدم اطمینان از زمان واگرایی استنباط شده را نشان می دهد (Drummond و همکاران 2006). روشهای بیزی فواصل HPD را مستقیماً از توزیع چگالی زمان خلفی تخمین زده شده با استفاده از مقدمات برای ناهمگونی نرخ شاخه ، فرآیند جایگزینی و کالیبراسیون های فسیلی محاسبه می کنند (Dos Reis et al. 2016 ؛ Bromham et al. 2018) ، بنابراین منابع کمک به عدم اطمینان از تخمین زمانبه طور خودکار در فواصل HPD گنجانیده می شوند. در حال حاضر ، فواصل HPD Bayesian تخمین های قابل اعتماد از عدم قطعیت های مربوط به برآورد زمان واگرایی در نظر گرفته می شود ، اگرچه آنها همیشه با فواصل اطمینان 95 ٪ (CIS) در آمار مکرر (Jaynes and Kempthoe 1976 ؛ Mackenzie et al. 2017) نیستند. متأسفانه ، بار محاسباتی عظیم تحمیل شده توسط رویکردهای بیزی ، برنامه های آنها را برای تجزیه و تحلیل بسیاری از مجموعه داده های فیلوژنومیک مانع کرده است (Pyron 2014 ؛ Mello et al. 2017 ؛ Li et al. 2019).

در مقابل ، روشهای غیر باریسی می توانند مجموعه داده های در مقیاس بزرگ را به سرعت تجزیه و تحلیل کرده و تخمین های زمانی دقیق را تولید کنند (اسمیت و O'Meara 2012 ؛ تامورا و همکاران 2012 ؛ تامورا و همکاران 2018). متأسفانه ، ابزار گسترده این روشها با عدم محاسبه قابل اعتماد از عدم اطمینان پیرامون زمان واگرایی ، که توسط CIS نشان داده شده است ، کاهش می یابد. رویکردهای غیر بوزی برای برآورد CIS نیاز به استفاده از فرمولاسیون تحلیلی یا رویکردهای بوت استرپ دارد (Sanderson 2003 ؛ Xia and Yang 2011 ؛ Tamura et al. 2013). با این حال ، رویکردهای بوت استرپ نمونه برداری از سایت خطای ناشی از ناهمگونی نرخ را ضبط نمی کند و منجر به دقت کاذب برآورد زمان می شود. تامورا و همکاران با شناخت نیاز به ترکیب تغییر نرخ سلسله در CIS ، Tamura و همکاران.(2013) معادلات تحلیلی را برای روش RELTIME ، یک رویکرد غیر bayesian که ساعت مولکولی را آرام می کند ، فرموله کرد. با این حال ، این رویکرد ممکن است میزان واریانس را بیش از حد ارزیابی کند و فواصل اطمینان بسیار گسترده ای را ایجاد کند (به تصویر زیر مراجعه کنید) ، در نتیجه قدرت کم برای آزمایش آماری (Kumar and Hedges 2016).

روشهای بیزی و غیر بیسی نیز از استراتژی های مختلفی برای عدم اطمینان از سوابق فسیلی استفاده می کنند. روشهای غیر بویسی در حال حاضر فقط به استفاده از حداقل مرزها فقط ، حداکثر مرزها ، یا حداقل و حداکثر جفت مرزی به عنوان محدودیت کالیبراسیون محدود می شوند (Sanderson 2003 ؛ Tamura و همکاران 2013) ، در حالی که روش های بیزی امکان استفاده از تراکم احتمال را به عنوان کالیبراسیون می دهدو به طور خودکار تعامل بین آنها را در خود جای می دهد (Inoue et al. 2010 ؛ Ho and Duchêne 2014). در حالی که ملو و همکاران.(2017) یک روش ساده برای به دست آوردن حداقل و حداکثر مرزها از توزیع چگالی ارائه داد ، این استراتژی تعامل بین کالیبراسیون را در نظر نمی گیرد و ممکن است منجر به بیش از حد واریانس زمان واگرایی شود (به تصویر زیر مراجعه کنید).

در اینجا، ما یک رویکرد تحلیلی برای تخمین CI برای زمان های واگرایی برآورد شده با استفاده از روش RelTime ارائه می کنیم. رویکرد تحلیلی جدید واریانس مربوط به تخمین طول شاخه و همچنین واریانس ناشی از ناهمگونی نرخ را برای تخمین CI ها محاسبه می کند. ما همچنین یک رویکرد ساده برای استخراج مرزهای حداقل و حداکثر از چگالی های کالیبراسیون چندگانه ارائه می دهیم به طوری که برهمکنش های کالیبراسیون تطبیق داده می شوند. هر دو رویکرد در نرم افزار MEGA X برای استفاده در رابط های گرافیکی و خط فرمان پیاده سازی شده اند (Kumar et al. 2012; Kumar et al. 2018). 95% CIهای تولید شده توسط RelTime در تحلیل های تجربی با 95% فواصل HPD تولید شده توسط روش های بیزی برای بررسی عملکرد رویکردهای جدید مقایسه می شوند. رویکردهای ارائه شده در اینجا ممکن است، با تغییراتی، برای بهبود محاسبه واریانس تخمین های زمان برای سایر روش های غیر بایز، به عنوان مثال، روش های احتمال جریمه شده استفاده شوند (ساندرسون 2002).

روش های جدید

روشی تحلیلی برای تخمین فواصل اطمینان

در نظر گرفتن درختی با سه دنباله درون گروهی (شکل 1)، زمان نسبی (t) برای هر گره و نرخ نسبی (r) برای هر دودمان، توابعی از طول شاخه (b) در RelTime هستند، به عنوان مثال، r1، ر2، ر3، ر4، تیو تی5هنگامی که از میانگین هندسی استفاده می شود با معادلات زیر داده می شود (معادلات مشابهی را می توان در صورت استفاده از میانگین حسابی بدست آورد) (Tamura et al. 2018):

درخت تکاملی از سه نوک که زمان گره ها را نشان می دهد (ti’s)، طول شاخه (bjs)، و نرخ شعب (rj'ها).

واریانس زمان تخمینی (tمن) برای گره i که با ν (tمن، می توان با روش دلتا تخمین زد، با این فرض که بین طول شاخه ها کوواریانس وجود ندارد (bjs): که در آن N تعداد کل شاخه ها است، مخفف تابع تحلیلی b استjبرای محاسبه tمن(به عنوان مثال، معادله 5 و معادله 6 برای t4و تی5، به ترتیب)، و ν (bj) مخفف واریانس طول شاخه برای شاخه j است. بنابراین، ν (bj) برای محاسبه ν (tمن).

همانطور که قبلا ذکر شد، عدم قطعیت زمان به تعداد مکان های نمونه برداری و میزان ناهمگنی نرخ مربوط می شود. ما واریانس کل طول شاخه ها، ν (bj) که برای محاسبه ν (tمن)، به عنوان مجموع واریانس ناشی از نمونه برداری سایت، νسj، و واریانس ناشی از ناهمگنی نرخ، νآرj):

مقدار νسj) را می توان با استفاده از فرمول های تحلیلی یا روش نمونه گیری مجدد سایت تخمین زد. به عنوان مثال، زمانی که از روش حداکثر درستنمایی استفاده می شود، می توان تخمین تقریبی این واریانس را با روش انحنا به دست آورد (ادواردز 1992؛ تامورا و همکاران 2013).

با این حال، تخمین ν پیچیده تر استآرj) بنابراین ما این کار را غیر مستقیم انجام می دهیم. ما ابتدا واریانس نرخ های تکاملی مشاهده شده را برای همه دودمان محاسبه می کنیم، Vobs(R): که در آن R یک متغیر تصادفی است که تمام نرخ های نسبی را نشان می دهد، rjنرخ نسبی برای هر شاخه j است و میانگین r استj'sتوجه به این نکته مهم است که نرخ نسبی برای شاخه j به عنوان نرخ نسبی برای دودمان j برآورد می شود (Tamura et al. 2018). برای مثال، RelTime نرخ نسبی b را محاسبه می کند4به عنوان میانگین هندسی r1و ر2، که به عنوان نرخ برای دودمان l اختصاص داده شده است4در شکل 1.

واریانس نرخ های مشاهده شده نه تنها شامل واریانس معرفی شده توسط ناهمگنی نرخ، RV(R)، بلکه واریانس نمونه برداری مرتبط با تخمین طول شاخه، SV(R)، زیرا نرخ نسبی مشاهده شده rjاز طول شاخه محاسبه می شود (بjs) (به عنوان مثال، معادلات 1 - 4). بنابراین،

با استفاده از معادلات 9-12، واریانس معرفی شده توسط ناهمگنی نرخ را محاسبه می کنیم:

سپس، می توانیم واریانس ناهمگنی نرخ را برای هر شاخه j متناسب با طول شاخه آن محاسبه کنیم:

با استفاده از معادلات 8، 13 و 14، می توانیم واریانس کل طول شاخه را برای شاخه j محاسبه کنیم که با ν (b نشان داده شده است.j). سپس ν (bj) می تواند برای محاسبه واریانس زمان استفاده شود، ν (tمن)، با استفاده از معادله 7. به عنوان مثال، واریانس t4و تی5با معادلات زیر بدست می آید:

برای تعداد بیشتری از گونه ها، استخراج چنین فرمول های تحلیلی، به ویژه برای گره های عمیق تر، پیچیده تر می شود. بنابراین، واریانس زمان های واگرایی را برای گره های عمیق تر از نوک تا ریشه به صورت بازگشتی محاسبه می کنیم. به عنوان مثال با استفاده از معادلات 15 و 16 می توانیم استخراج کنیم

بنابراین، محاسبه ν (t5) فقط به ν (t4), ν ( ب3) و ν ( ب4) که واریانس گره t هستند4و شاخه های ب3و ب4، به ترتیب. واریانس شاخه هایی که مستقیماً به گره 5 متصل نمی شوند، یعنی ν (b1) و ν ( ب2) در این مورد (شکل 1) مورد نیاز نیست، اگر مقدار ν (t4) از قبل محاسبه می شود. بنابراین، برای هر گره در یک فیلوژنی، می توانیم واریانس زمان واگرایی را به صورت بازگشتی از نوک تا ریشه با استفاده از واریانس زمان ها برای هبوط مستقیم و گره های اجدادی و واریانس شاخه های مستقیماً متصل محاسبه کنیم. این روش به طور فوق العاده ای محاسبه واریانس زمان استنباط شده را برای هر گره داخلی در یک درخت با تعداد زیادی گونه ساده می کند.

توجه به این نکته مهم است که زمان های معادلات ذکر شده در بالا زمان های نسبی هستند، نه زمان های مطلق، زیرا هیچ کالیبراسیونی در معادلات بالا وجود ندارد. هنگامی که یک یا چند کالیبراسیون (فقط حداقل مرزها، فقط حداکثر مرزها، یا حداقل و حداکثر جفت مرزی) داده می شود، RelTime یک ضریب زمان جهانی (f) را با تغییر زمان های نسبی به گونه ای محاسبه می کند که تمام محدودیت های کالیبراسیون برآورده شوند. هنگامی که محدوده ای از مقادیر f می تواند تمام محدودیت های کالیبراسیون را برآورده کند، RelTime نقطه میانی محدوده را به عنوان بهترین تخمین f انتخاب می کند. هنگامی که یک یا چند بار از زمان های مطلق محاسبه شده با استفاده از مقدار f خارج از محدودیت های کالیبراسیون قرار می گیرد، RelTime زمان های نسبی و f را طوری تنظیم می کند که انحراف زمان های مطلق از محدودیت های کالیبراسیون به حداقل برسد. این فرآیند نیاز به تغییر محلی نرخ های نسبی و بهینه سازی مجدد تمام زمان های دیگر گره در درخت به صورت بازگشتی دارد (Tamura et al. 2013). به عنوان مثال، اگر حداقل محدودیت سنی یک گره نقض شود، به عنوان مثال، سن تخمین زده شده با استفاده از f جوان تر از محدودیت حداقل باشد، RelTime تخمین خود را از نرخ تکامل متناسب با آن دودمان کاهش می دهد تا سن این گره را بالاتر از حد تنظیم کند.، به طوری که زمان واگرایی برابر با حداقل محدودیت سنی می شود. کندی حاصل به تمام گره های نوادگان منتقل می شود و بر نرخ های اجدادی نیز تأثیر می گذارد.

به طور مشابه، اگر حداکثر محدودیت سنی یک گره نقض شود، یعنی سن تخمین زده شده با استفاده از f بزرگتر از حداکثر محدودیت باشد، RelTime نرخ تکامل تخمینی را به طور متناسب در آن دودمان افزایش می دهد به طوری که زمان واگرایی با حداکثر محدودیت سنی مطابقت دارد. اثرات این تغییر نرخ به طور خودکار به گره های نسل و اجداد منتقل می شود. در نتیجه، RelTime اطمینان حاصل می کند که زمان های مطلق گره های کالیبره شده با محدودیت های کالیبراسیون مورد نظر کاربر سازگار است.

در مرحله آخر ، CIS به صورت تحلیلی با استفاده از مجموعه نهایی نرخ های نسبی و معادلات ذکر شده در بالا (به عنوان مثال ، معادلات 13-17) محاسبه می شود ، به گونه ای که عدم اطمینان مرتبط با کالیبراسیون ساعت را می توان در محاسبه CI در Reltime گنجانید. اگر مرزهای پایین یا بالایی CIS در خارج از محدودیت های کالیبراسیون مشخص شده توسط کاربر قرار بگیرد ، پس از آن CI بر اساس محدودیت های کالیبراسیون تحمیل شده کوتاه می شوند. بنابراین ، Reltime از حداقل و حداکثر "سخت" در محاسبه CI استفاده می کند ، مانند Beast (Bouckaert و همکاران 2014 ؛ باربا-مونتویا و همکاران 2017).

رویکردی برای استخراج مرزهای کالیبراسیون مؤثر از تراکم کالیبراسیون

همانطور که گفته شد ، عدم اطمینان کالیبراسیون یکی دیگر از منابع مهم خطای تخمین در استنباط زمان واگرایی است. روشهای بیزی از تراکم های مختلف احتمالی برای عدم اطمینان کالیبراسیون استفاده می کنند. با این حال ، روشهای غیر بویزی فعلی امکان استفاده مستقیم از تراکم احتمال را نمی دهد و مقرراتی را برای ترکیب تعامل بین محدودیت های کالیبراسیون ارائه نمی دهد. بنابراین ، ما یک روش جدید برای استفاده در روش Relime ایجاد کردیم تا مرزهای کالیبراسیون را از تراکم احتمال که تعامل آنها را به خود اختصاص می دهد ، بدست آوریم.

برای هر گره کالیبره شده با چگالی احتمال همراه ، ما به طور تصادفی دو تاریخ از چگالی احتمال داده شده را نمونه می گیریم. ما از این دو تاریخ نمونه برداری به عنوان محدودیت حداقل و حداکثر (حداقل حداکثر) برای آن گره استفاده می کنیم و چنین محدودیت حداقل حداکثر را برای هر گره ای که برای آن چگالی احتمال مشخص شده است ، استخراج می کنیم. سپس ، ما از همه این مرزهای حداقل حداکثر برای انجام تجزیه و تحلیل Reltime استفاده می کنیم. ما برآورد زمان reltime را فقط برای گره های کالیبره شده حفظ می کنیم ، و سپس روند نمونه گیری تصادفی و قدمت را برای 10،000 بار تکرار می کنیم. تعداد زیادی از تکرار این فرآیند اطمینان حاصل می کند که کالیبراسیون با احتمالات ریز (0. 01 ٪) نمونه برداری می شود.

روش تکراری در بالا توزیع 10،000 تاریخ استنباط شده برای هر گره کالیبره شده را تولید می کند. در مرحله آخر ، ما حداقل محدود به 2. 5 ٪ و حداکثر محدود در 97. 5 ٪ توزیع تاریخ استنباط شده برای هر گره کالیبره شده را استخراج می کنیم. ما به مرزهای به دست آمده در طی این فرآیند "مرزهای مؤثر" اشاره می کنیم. این مرزهای مؤثر را می توان همراه با رویکرد تحلیلی که در بالا توضیح داده شد ، برای استنباط زمان واگرایی و CIS در Reltime استفاده کرد. توجه به این نکته حائز اهمیت است که از مرزهای مؤثر به عنوان محدودیت کالیبراسیون استفاده می شود ، نه تراکم. شکل واقعی توزیع 10،000 تاریخ استنباط شده ممکن است کمی متفاوت باشد اگر کسی چندین بار تکرار مجدد را تکرار کند ، اما انتظار می رود 2. 5 ٪ و 97. 5 ٪ مرز توزیع پایدار باشد و برآوردهای پایدار از زمان واگرایی و CIS ایجاد می کند.

روش ما مشابه با روش های بیزی است ، زیرا هر دو نوع روش نیاز به مجدداً مجدداً مجموعه های مختلف محدودیت های کالیبراسیون از تراکم مشخص شده توسط کاربر ، استنباط زمان واگرایی با استفاده از هر مجموعه از کالیبراسیون نمونه برداری شده و خلاصه توزیع توزیع های برآوردهای زمان به دست آمده از همه مجموعه هاکالیبراسیون نمونه برداری شدهبنابراین ، استفاده از مرزهای مؤثر به Reltime اجازه می دهد تا تعامل بین تراکم کالیبراسیون را در خود جای دهد. با این حال ، این بدان معنا نیست که روشهای Reltime و Bayesian یکسان هستند. روشهای بیزی مراحل تغییر شکل کالیبراسیون و مراحل استنباط زمان را به طور همزمان در طول ادغام MCMC انجام می دهند ، در حالی که این مراحل به صورت متوالی در روش Reltime همانطور که در اینجا پیشنهاد شده است ، اجرا می شوند.

ما مرزهای موثر را با مرزهای کالیبراسیون به دست آمده با استفاده از Mello و همکاران مقایسه کردیم. رویه (2017) (که در ادامه به عنوان "محدوده های Mello" اشاره می شود) (شکل 2)، که در آن حداقل کران در 2. 5٪ سن تراکم و حداکثر کران در 97. 5٪ از چگالی قرار داده شد. سن. زمانی که چگالی کالیبراسیون مشخص شده توسط کاربر قابل اعتماد و آموزنده بود، کران های موثر مشابه کران های Mello بودند، که به این معنی بود که سن واقعی یک گره در چگالی کالیبراسیون با احتمال زیاد کاهش می یابد. به عنوان مثال، کرانهای موثر و کرانهای Mello تقریباً برای Homo sapiens - Callithrix jacchus split که در آن از توزیع نمایی به عنوان کالیبراسیون استفاده شده است (شکل 2b) همپوشانی دارند (به بخش مواد و روشها مراجعه کنید). هنگامی که چگالی مشخص شده توسط کاربر غیر اطلاعاتی بود، به عنوان مثال، توزیع یکنواخت پراکنده، کران های Mello اغلب منتشر می شدند و با چگالی اولیه مطابقت داشتند (شکل 2c). در مقابل، روش جدید ما به دلیل تطبیق فعل و انفعالات بین چگالی ها و محدودیت های کالیبراسیون مختلف، مرزهای باریک تری ایجاد کرد. این فعل و انفعالات توزیع اصلی و گسترده تر را تغییر شکل داد و آن را محکم تر کرد (شکل 2c).

(الف) فیلوژنی پستانداران با چگالی کالیبراسیون یکنواخت مشخص شده توسط کاربر (سایه خاکستری) و چگالی کالیبراسیون نمایی (سایه سبز). نقاط قرمز گره هایی هستند که در پانل های b-d نشان داده شده اند. کرانهای موثر با استفاده از روش ما (خط آبی یکدست) و کرانهای مشتق شده با استفاده از Mello و همکاران.(2017) رویه (خط نارنجی جامد) (b و c) زمانی که کالیبراسیون های مشخص شده توسط کاربر قابل اعتماد هستند و (d و e) هنگامی که کالیبراسیون مشخص شده توسط کاربر Homo sapiens - Callithrix jacchus split غیرقابل اعتماد است مقایسه می شود. خط قرمز چین نشان دهنده "سن شبیه سازی شده واقعی" است.

در نتیجه، استفاده از مرزهای موثر احتمالاً CI باریک تری ایجاد می کند. در تجزیه و تحلیل ما، زمانی که کالیبراسیون مشخص شده توسط کاربر غیرقابل اعتماد بود، یعنی سن واقعی گره در چگالی کالیبراسیون آن با احتمال کم کاهش یافت، مرزهای موثر ما بهتر از مرزهای Mello بود. برای مثال، زمانی که زمان واقعی Homo sapiens Callithrix jacchus split در چگالی نمایی مشخص شده توسط کاربر با<2.5% probability ( Fig. 2d ), Mello bounds did not include the true time, resulting in incorrect time estimates. In contrast, our method did not ignore the low probability regions since it sampled 10,000 times from the user-specified density to ensure that dates with very low probabilities were considered. Thus, effective bounds are likely to contain the true time ( Fig. 2d ), and the use of effective bounds in RelTime may improve the accuracy and precision of time estimates.

نتایج و بحث

RelTime CIهای قابل مقایسه با فواصل HPD بیزی را در تحلیل های تجربی تولید می کند

ما روشهای خود را به پنج مجموعه داده تجربی حاوی نوکلئوتید یا توالی پروتئین از نخبگان ، عنکبوت ها ، حشرات ، پرندگان و ارکیده های خورشید اعمال کردیم (جدول 1). ما برای اولین بار از مجموعه داده های Primate از Barba-Montoya و همکاران ارائه می دهیم.(2017) ، که حاوی یک تراز نسبتاً کوچک 9،361 جفت پایه از نه گونه اولیه و یک گروه خارج است (شکل 2A ؛ شکل S1A). در این فیلوژنی ، به هر گره داخلی چگالی کالیبراسیون اختصاص داده شده است. باربا مونتویا و همکاران.(2017) از دو استراتژی کالیبراسیون در MCMCTREE (یانگ 2007) و Beast (Bouckaert و همکاران 2014) استفاده کرد و تخمین زمان را مقایسه کرد. ما بررسی کردیم که آیا روش Reltime تخمین قابل مقایسه با روشهای بدست آمده از روشهای بیزی است که همه تجزیه و تحلیل ها از همان تراز ، فیلوژنی ، مدل تعویض و تراکم عدم قطعیت کالیبراسیون استفاده می کنند (به عنوان مثال ، توزیع یکنواخت).

طول شاخه حداکثر احتمال فیلوژنی های مجموعه داده های تجربی. نام مجموعه داده به جدول 1 اشاره دارد. ما روشهای خود را در پنج مجموعه داده تجربی حاوی نوکلئوتید یا توالی پروتئین از نخبگان ، عنکبوت ها ، حشرات ، پرندگان و ارکیده های خورشید اعمال کردیم (جدول 1). ما برای اولین بار از مجموعه داده های Primate از Barba-Montoya و همکاران ارائه می دهیم.(2017) ، که حاوی یک تراز نسبتاً کوچک 9،361 جفت پایه از نه گونه اولیه و یک گروه خارج است (شکل 2A ؛ شکل S1A). در این فیلوژنی ، به هر گره داخلی چگالی کالیبراسیون اختصاص داده شده است. باربا مونتویا و همکاران.(2017) از دو استراتژی کالیبراسیون در MCMCTREE (یانگ 2007) و Beast (Bouckaert و همکاران 2014) استفاده کرد و تخمین زمان را مقایسه کرد. ما بررسی کردیم که آیا روش Reltime تخمین قابل مقایسه با روشهای بدست آمده از روشهای بیزی است که همه تجزیه و تحلیل ها از همان تراز ، فیلوژنی ، مدل تعویض و تراکم عدم قطعیت کالیبراسیون استفاده می کنند (به عنوان مثال ، توزیع یکنواخت).

ویدیو های آموزشی فارکس...
ما را در سایت ویدیو های آموزشی فارکس دنبال می کنید

برچسب : نویسنده : محبوب امانی بازدید : 51 تاريخ : پنجشنبه 24 فروردين 1402 ساعت: 18:30