نظریه سوال پاسخ در مدل بندی داده های بیان ژن

تحت شرایط خاص پژوهشی موقعیت هایی پیش می آید که در آن تعداد متغیرهای مشاهده شده بیشتر از تعداد متغیرهای مکنون یا پنهان می باشند. مثلا در بیان ژنی (gene expression) تعداد ژن ها که متغیرهای پنهان اند بیشتر از تعداد موقعیت های زیستی که مشاهده شده هستند می باشند، در این مواقع تحلیل داده ها با استفاده از رورش های کلاسیک آماری یا استفاده از الگوهای یادگیری ماشین غیر ممکن است. در این حالت برای پیش بینی طبقه ها نمی توان از روش هایی که در داده کاوی استفاده می شود استفاده کرد. به عنوان مثال کاربرد تحلیل تشخیصی یا تحلیل تمییز منجر به over-fitting شدن مدل می شود. در این حالت مدل پیش بینی شده با داده های اصلی به خوبی برازش پیدا می کند اما ممکن است پیش بینی خوبی برای داده ها ارائه ندهد. راه معمول برای حل این مشکل کاهش تعداد متغیرها است این کار از طریق روش ها گزینش و یا فرافکنی متغیرها به ابعاد کمتر امکان پذیر است. اگر چه تحلیل های آماری که برای داده های microarray استفاده می شود از حوزه های مهمی پژوهشی است اما مقالات کمی به این مورد پرداخته اند. دانشمندان معتقداند که تحلیل داده های با ابعاد بالا یکی از مهمترین موضوعات پژوهشی است که در آینده به آن بیشتر پرداخته می شود.

دو راه مهمی که برای مدیریت کردن این مشکل وجود دارد یکی این است که متغیرهای نامرتبط و تکراری حذف شود و متغیرهایی باقی بمانند که در ژن های بیان شده بیشترین تمایز را ایجاد کنند. استفاده از روش های چند متغیری آماری نیز می تواند برای حل این مشکل استفاده شود. مثلا استفاده از روش تحلیل عاملی خطی و غیر خطی و یا تحلیل خوشه ای. در مورد مثال بالا یعنی داده های بیان ژن روش تحلیل خوشه ای یک راه حل معمول است.

هدف تحلیل خوشه ای آشکارسازی ساختار مکنون و شناسایی الگوهای جالب زیر بنایی داده های مشاهده شده است. پیش بینی طبقه یکی از جنبه های مهم مربوط به مطالعات microarray است. بر اساس این پیش بینی می توان برای یک نمونه ی زیستی (متغیرهای مشاهده شده) و بر اساس نیمرخ بیان شده ی آنها طبقه شان را مشخص نمود. اگر چه تحلیل خوشه ای ابزار مهمی در پیدا کردن خوشه ها و کشف الگوهای مربوط به داده های بیان ژن است اما پیش بینی با این روش امکان ندارد. خروجی تحلیل خوشه ای گروههایی است که دارای مقیاس اسمی اند و بنابراین مثلا با روش تحلیل مولفه های اصلی که در آن متغیرهای خروجی پیوسته اند و می توان برای پیش بینی از آن استفاده کرد متفاوتند. تحلیل خوشه ای اطلاعات کمی مناسبی برای خوشه ژن ها مهیا نمی کند مخصوصا مشخص نمی کند که هر خوشه چقدر از خوشه ی دیگر روی پیوستار مقیاس اندازه گیری متفاوت است. در عین حال خوشه بندی سلسله مراتبی اطلاعاتی در مورد این که در هر سطح چه دسته ژن هایی با یکدیگر قرار دارند مهیا می کند ولی همانطور که گفته شد تحلیل خوشه ای اطلاعات کمی معتبر آماری در مورد هر خوشه ی ژن مشخص نمی کند.

بر مبنای نظریه ی سوال پاسخ هر ژن را می توان یک سوال در نظر گرفت و هر نمونه ی زیستی را یک فرد و بنابراین امکان استفاده از نظریه ی سوال پاسخ برای داده های بیان ژن مهیا می شود. در این صورت سطح بیان به عنوان پاسخ یک نمونه بیولوژیکی خاص به یک ژن خاص تعریف می شود. در یک نمونه ی خاص با استفاده از نیمرخ بیان ژن ها در یک خوشه مشخص می توانیم با بیان یک متغیر مکنون از طریق برازش با مدل راش احتمال سطح بیان بالا را بدست آوریم. فرض کنید که ما i متغیر مشاهده شده و j نمونه داریم. در این مثال ژن ها متغیرهای مشاهده شده اند و Uij اگر برابر با یک باشد به این معنی است که سطح بیان ژن در نمونه ی j بالا است و در صورتی که مقدار آن صفر باشد سطح بیان ژن در نمونه ی j پایین است. مدل راش احتمال سطح بالای بیان ژن را برای نمونه ی j پیش بینی می کند. پارامترهای مدل راش در این انطباق برابرند با:

تتا: پارامتر نمونه است که بیانگر متغیر مکنون مربوط به نمونه می باشد که از طریق ژن i اندازه گیری می شود.

درجه دشواری: در این مثال درجه ی دشواری پارامتر مربوط به ژن است. نمونه ها برای ژن هایی که پارامتر آنها بالا است، به نسبت کمتری سطح بیان بالا ارائه می دهند.

در ضمن در این مثال از روش برآورد درستنمایی شرطی برای براورد پارامترها استفاده می شود.

لینک منبع
تاریخ: شنبه , 27 اسفند 1401 (05:54)
گزارش تخلف مطلب

تبلیغات متنی

WwW.PnuBlog.Com

ارسال دیدگاه