تبليغاتX
ehsan
آنالیز اجزای اصلی قسمت سوم(principal components analysis)

3-آنالیز اجزای اصلی:

آنالیز اجزای اصلی چیست؟ این روش یکی از الگوهای تشخیص و شناسایی (تشخیص هویت)در یک مجموعه اطلاعات است.

در این روش اطلاعات را بر اساس شباهت ها و تفاوت هایشان  بیان می کنند.

از آن جا که در اطلاعات از ابعاد بالا، نقشه و طرح خاصی را به سختی می توان در داده ها پیدا کرد  در حقیقت آنالیز اجزای اصلی  ارتباط بین داده ها را کشف می کند.و در جایی که نعمت نمایش گرافیکی در دسترس نیست، آنالیز اجزای اصلی یک ابزار نیرومند برای آنالیز اطلاعات است.

دیگر مزیت اصلی آنالیز اجزای اصلی این است که شما یک بار این الگو را در داده ها پیدا می کنید و این اطلاعات را فشرده می کنید. با کاهش تعداد ابعاد بدون آن که مقدار زیادی از اطلاعات را از دست نمی دهید.هدف آنالیز اجزای اصلی خلاصه کردن داده ها است و به عنوان یک وسیله دسته کننده اطلاعات مورد توجه نیست. از این تکنیک در فشرده سازی تصاویر استفاده می شود.

در این قسمت مراحل مورد نیاز برای اجرا کردن آنالیز اجزای اصلی در یک مجموعه داده را نشان خواهیم داد. تلاش می کنیم با یک مثال شرحی که برای هر نقطه استفاده می شود را فراهم کنیم.

 

3-1روش:

مرحله 1: به دست آوردن اطلاعات

ما در این جا از یک مثال ساده از یک مجموعه اطلاعات فرضی استفاده می کنیم. این اطلاعات فقط 2 بعدی است. دلیل انتخاب دو بعد نمایش و رسم داده ها برای نشان دادن این است که آنالیز اجزای اصلی در هر مرحله چه کاری انجام می دهد.

مرحله2: میانگین را کم کنید

برای این که آنالیز اجزای اصلی به طور صحیح کار کند شما باید میانگین را در هر بعد از داده ها کم کنید. کاستن میانگین یعنی میانگین سراسر هر بعد از مجموعه داده ها را کم کردن.

بنا بر این در این جا از همه Xها میانگین X کم شده است و از همه Yها میانگین Y کم شده است. در این مجموعه داده تولید شده میانگین هر بعد  صفر است.

مرحله 3:محاسبه کردن ماتریس کوواریانس

این دقیقا همان روشی است که در قسمت 2-1-4 بحث و انجام شد. از آن جا که در مثال ما اطلاعات 2 بعدی است ماتریس کوواریانس باید 2×2باشد .در زیر فقط نتایج را نشان داه ایم.

از آن جا که عناصر غیر قطری در این ماتریس کوواریانس مثبت است ما باید انتظار داشته باشیم که هر دو متغیرx,y  با هم افزایش یابند.

 

مرحله 4: بردارهای مشخصه و مقادیر ویژه را از ماتریس کوواریانس محاسبه کنید.

از آن جا که ماتریس کوواریانس مربعی است ما می توانیم بردار های مشخصه و مقادیر ویژه را برای این ماتریس حساب کنیم. بردار های مشخصه و مقادیر ویژه اطلاعات مفیدی درباره داده هایمان به ما می گویند. دلیل آن را به خوبی نشان خواهیم داد. در ضمن در این مثال بردار های مشخصه و مقادیر ویژه به صورت زیر است:

به این نکته توجه کنید که این بردار های مشخصه، هر دو واحد  بردار های مشخصه  هستند. طول هر دو یک است. این برای آنالیز اجزای اصلی بسیار مهم است. اما خوشبختانه بیشتر بسته های ریاضی زمان تقاضا برای بردار های مشخصه، به شما واحد بردار های مشخصه را می دهند. بنا بر این آن ها چه قصدی دارند؟ اگر داده هایی را که میانگین از آن ها کم شده است رسم کنیم:

شما می توانید ببینید یک الگو قوی چگونه اطلاعاتی دارد. همان طور که از ماتریس کوواریانس انتظار می رفت آن دو متغیر با هم افزایش می یابند. در شکل هر دو بردار مشخصه رسم شده اند. آن ها مثل خطوط نقطه دار مورب روی نقشه ظاهر شده اند. بردار های مشخصه که بر هم عمود بودند در این جا نیز به آسانی دیده می شوند. اما این بردار های مشخصه برای ما اطلاعاتی درباره داده هایمان فراهم می آورند. همان طور که می بینیم یکی از بردار های مشخصه از مرکز داده ها می گذرد و بیشتر اطلاعات در حول و حوش آین بردار مشخصه است. این بردار مشخصه به ما نشان می دهد که چگونه این دو مجموعه اطلاعات در امتداد خطوط به هم وابسته هستند. بردار مشخصه دوم به ما خط دیگری را می دهد که اهمیت کمتری دارد.

در الگو داده ها همه نقاط از خطی (یک بردار مشخصه) پیروی می کنند اما با مقدار کمی فاصله از گوشه خط حرکت می کنند. بنا براین به وسیله این فرآیند بردار های مشخصه ماتریس کوورایانس را می توان به دست آورد، ما قادریم این خطوط را از داده ها استخراج کنیم. بقیه مراحل شامل تغییر شکل دادن داده ها است. در زیر یک شکل دیگر برای فهم بهتر این موضوع وجود دارد.

مرحله 5: متراکم سازی

در این جا فکر متراکم سازی داده ها و کاهش ابعاد به میان می آید. اگر شما به بردار های مشخصه و مقادیر ویژه در بخش قبلی نگاه کنید. شما به این نکته توجه کنید که بردار های مشخصه ارزش های کاملا متفاوتی دارند. در واقع، به این نتیجه می رسیم که بردار مشخصه با  بزرگترین مقدار ویژه جز اساسی مجموعه داده ها است.

در مثال ما ، بردار مشخصه با مقدار ویژه بزرگ آن نقطه پایینی وسط داده ها است. این پر اهمیت ترین ارتباط بین ابعاد داده ها است.

عموما، یک بردار مشخصه از ماتریس کوورایانس به دست می آید و در مرحله بعدی طبق دستور به وسیله مقادیر ویژه از بلندترین به کوچکترین مرتب می کنید. این به شما اجزای پر اهمیت را می دهد.

 حالا اگر شما دوست دارید می توانید تصمیم بگیرید از اجزای کم اهمیت تر چشم پوشی کنید. شما مقدار کمی از اطلاعات را از دست می دهید اما اگر مقدار ویژه حذف شده کوچک باشد اطلاعات زیادی را از دست نمی دهید.

اگر شما از کمی از اجزا صرفنظر کنید، سرانجام مجموعه داده ها ابعاد کمتری نسبت به داده های اصلی دارند. اگر ابعاد اصلی داده ها n بعدی است بنابراین شما باید n  تا بردار مشخصه و مقدار ویژه را حساب کنید و اگر شما p  بردار مشخصه اول را انتخاب کنید، سرانجام مجموعه داده های شما فقط p  بعد دارد.

حال ما احتیاج به نوشتن به فرم یک بردار ویژگی داریم. این بردار از بردار های مشخصه که شما می خواهید نگهداری کنید ساخته شده است. و شکل دهی یک ماتریس با این بردار مشخصه در ستون هایی به صورت:

FeatureVector = (eig1 eig2 eig3 …… eign)

 

مجموعه داده های مثال ما 2 بردار مشخصه دارد، شما دو انتخاب دارید. یک شکل بردار ویژگی را با هر دو تا بردار مشخصه یا صرفنظر کنید از کوچکترین و کم اهمیت ترین جز و فقط از یک ستون استفاده کنیدما نتایج هر کدام از این قسمت ها را در بخش بعدی می بینیم.

نوشته شده توسط ehsan در دوشنبه بیست و هشتم آبان 1386 ساعت 1 بعد از ظهر | لینک ثابت |

 


www.ELE.ir P30download - پی سی دانلود
ورود به چت روم فارسی?