1 / 34

تکنیک‌های غیرپارامتری Nonparameteric Techniques

تکنیک‌های غیرپارامتری Nonparameteric Techniques. حسین منتظری کردی دانشکده مهندسی برق و کامپیوتر دانشگاه صنعتی نوشیروانی بابل بهار 93. رئوس مطالب 1- تخمین چگالی 2- پنجره‌های پارزن 3- تخمین k همسایه‌ی نزدیکتر 4- قاعده‌ی همسایه‌ی نزدیکتر 5- متریک‌ها و طبقه‌بند همسایه‌ی نزدیکتر

Télécharger la présentation

تکنیک‌های غیرپارامتری Nonparameteric Techniques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. تکنیک‌های غیرپارامتری Nonparameteric Techniques حسین منتظری کردی دانشکده مهندسی برق و کامپیوتر دانشگاه صنعتی نوشیروانی بابل بهار 93

  2. رئوس مطالب 1- تخمین چگالی 2- پنجره‌های پارزن 3- تخمین k همسایه‌ی نزدیکتر 4- قاعده‌ی همسایه‌ی نزدیکتر 5- متریک‌ها و طبقه‌بند همسایه‌ی نزدیکتر 6- طبقه‌بند فازی

  3. 4-1- مقدمه • در روش‌های پارامتری، فرض می‌شود که شکل توزیع احتمال معلوم است • روش‌های غیرپارامتری برای هر توزیع دلخواهی و بدون معلوم بودن شکل توزیع احتمال قابل استفاده است • 4-2- تخمین چگالی • احتمال P برای اینکه بردار x در ناحیه‌ی R قرار گیرد از رابطه‌ی زیر بدست می‌آید • P احتمال هموار شده (بدلیل متوسط‌گیری با انتگرال) از p (x) می‌باشد • فرض n نمونه‌ی مستقل از x با توزیع p (x) وجود داشته باشد، آنگاه با توزیع دو جمله‌ای و احتمال P برای قرارگرفتن k نمونه از n تا در R داریم

  4. مقدار میانگین این توزیع نیز برابر است با

  5. با فرض پیوسته بودن p (x) و کوچک بودن R (در این ناحیه، p (x) تغییر محسوسی ندارد) می‌توان نوشت • V حجمی است که ناحیه‌ی R را احاطه کرده است. توزیع p (x) از رابطه‌ی زیر تخمین زده می‌شود • تخمین p (x) در نقطه‌ی x به اندازه‌ی حجم Vوتعداد نمونه‌ها بستگی دارد. بدلیل وجود محدودیت‌های عملی و تئوری، جهت تخمین توزیع در نقطه‌ی x رشته‌ای از نواحی شامل x را در نظر بگیرید • فرض Vn حجم Rnبا تعداد kn نمونه باشد و pn(x) تخمین nام از p (x) باشد، آنگاه

  6. شرایط زیر جهت همگرایی pn(x) به p (x) لازم است • دو روش معمول ایجاد رشته‌ای از نواحی وجود دارد. روش پنجره‌ی پارزن؛ حجم تابعی از n؛ و روش k همسایه‌ی نزدیکتر؛ kn تابعی از n است

  7. 4-3- پنجره‌های پارزن • فرض کنید که نواحی Rn ابرمکعب‌های d بُعدی می‌باشند و hn نیز طول هر ضلع باشد، آنگاه حجم این ناحیه برابر است با • تابع پنجره بصورت یک ابرمکعب واحد بمرکز مبداء تعریف می‌شود • برابر یک است اگر xi درون ابرمکعب با حجم Vn و مرکز x قرار گیرد، آنگاه تعداد نمونه‌های داخل این ابرمکعب برابر است با • با قراردادن معادله‌ی 10 در 7 داریم

  8. روش پارزن چگالی احتمال را با میانگین تابعی از x و نمونه‌های xi (تابع پنجره) تخمین می‌زند. تابع پنجره عمل درونیابی را برحسب فاصله‌ی هر نمونه تا x انجام می‌دهد • از آنجایی‌که تابع پنجره یک چگالی احتمال را تخمین می‌زند، بنابراین این تابع می‌بایست خواص یک تابع چگالی را داشته باشد • تاثیر پهنای پنجره روی تخمین چگالی احتمال • کوچکتر کردن hn، یعنی شبیه‌تر شدن شکل تابع پنجره به یک دلتا بمرکزیت xi • در این روش، تعداد پیک‌ها برابر با تعداد نقاط بوده و تعیین مقدار h توسط کاربر

  9. روش پارزن یک تخمین‌گر بدون بایاس مستقل از اندازه داده، N، می‌باشد. برای N ثابت، h کوچکتر موجب بیشتر شدن واریانس تخمین می‌شود • اگر h ثابت باشد، آنگاه با افزایش N مقدار واریانس کاهش می‌یابد. چونکه نقاط فضای تخمین چگالتر می‌شود، لذا برای h کوچکتر با N بزرگتر تخمین بهتر می‌باشد • در عمل با تعداد محدود داده، N، برای انتخاب مناسب بایستی یک مقایسه بین h و Nانجام گیرد. یک روش انتخاب متوالی h جهت کمینه کردن خطای طبقه‌بندی • با افزایش ابعاد بردار ویژگی، مسئله کم بودن N بیشتر نمایان می‌شود و برخی از نواحی فضای ویژگی دارای نقاط پراکنده می‌شوند. لذا، برای حل این مشکل بهتر است از h متغیر استفاده شود (در نقاط پراکنده از h بزرگ) • 4-3-3- مثال • مثالی از یک توزیع گوسی تک متغیره با میانگین صفر و واریانس واحد را درنظر بگیرید. تابع پنجره را نیز گوسی با همین مشخصات فرض کنید

  10. فرض باشد که h1 یک پارامتر در اختیار کاربر است. تابع چگالی میانگینی از چگالی نرمال بمرکز xi خواهدبود • 4-3-5- شبکه‌های عصبی احتمالی • هدف تخمین پارزن برای n نمونه‌ی d بُعدی از c کلاس می‌باشد • PNN شامل d واحد ورودی، n واحد الگو که هر واحد الگو تنها به یک کلاس اختصاص دارد، و c واحد کلاس است • ارتباط بین واحد ورودی و واحد الگو از طریق وزن‌های قابل اصلاح می‌باشد و اتصال بین هر واحد الگو با واحد کلاس مربوطه نیز فقط با یک دامنه‌ی ثابت صورت می‌گیرد • برای آموزش شبکه، ابتدا هر الگوی ورودی x به نُرم واحد نرمالیزه می‌شود و بعد، به واحد ورودی اعمال می‌شود • جهت اصلاح ضرایب، ابتدا w1= x1 تنظیم می‌شود و سپس، یک اتصال بین واحد الگو و یک گره از واحد کلاس برحسب برچسب الگوی ورودی برقرار می‌شود

  11. آموزش شبکه تا وارد شدن تمام الگوهای ورودی مطابق الگوریتم زیر ادامه خواهد داشت • جهت طبقه‌بندی یک الگوی آزمون ورودی، x نرمالیزه شده در واحد ورودی قرار گرفته و ضرب داخلی زیر حساب می‌شود • عمل هر واحد کلاس، محاسبه‌ی جمع تمام الگوهای متصل به آن می‌باشد • مزیت PNN آموزش بسیار ساده‌ی آن است. مقدار حافظه‌ی مورد نیاز جهت اجرا نیز برابر با O ((n+1)d)است

  12. 4-4- تخمین kn همسایه‌ی نزدیکتر • تخمین p (x) می‌تواند با رشد یک سلول بمرکز x تا در برگرفتن kn نمونه صورت گیرد. این نمونه‌ها را kn همسایه‌ی نزدیکتر از x می‌نامند • تابع چگالی احتمال از رابطه‌ی زیر حساب می‌شود • رابطه‌ی 31 مشابه 7 است با این تفاوت که حجم در 31 به مقدار kn وابسته است • شرایط همگرایی پارزن در اینجا نیز برقرار است و با افزایش تعداد نواحی، p (x) در حالت حدی پیوسته خواهدبود

  13. اگر انتخاب شود، آنگاه یک تخمین ضعیف و تیز خواهیم داشت • اگر انتخاب شود، آنگاه می‌توان دقت تخمین را کنترل کرد • 4-4-1- تخمین احتمال پسین • از یک مجموعه‌ی برچسب خورده‌ی n عضوی، یک سلول به حجم V بمرکز x ایجاد شده و k نمونه را در بر می‌گیرد • اگر ki نمونه متعلق به کلاس ωi در این حجم باشد، آنگاه احتمال توأم برابر است با • و احتمال پسین بصورت زیر خواهدبود • احتمال پسین برابر کسری از نمونه‌های متعلق به ωi درون سلول است و نرخ کمینه خطا، کلاس بیشتر دیده شده را نتیجه می‌دهد

  14. 4-5- قاعده‌ی نزدیکترین همسایه • برای k= 1، n نمونه‌ی برچسب خورده را با نشان داده و X’ متعلق به این مجموعه نزدیکترین نقطه به نمونه‌ی آزمایش x باشد • مطابق قاعده‌ی نزدیکترین همسایه، x به برچسب کلاس X’ تعلق دارد • اگر ωm(x) را بصورت زیر تعریف کنیم، آنگاه قاعده‌ی تصمیم بیزین همواره ωm را انتخاب می‌کند • قاعده‌ی نزدیکترین همسایه (kNN) منجر به تقسیم فضای ویژگی به سلولهایی می‌شود که تمام نقاط سلول به یک نقطه‌ی یادگیری X’ نزدیکتر است • تمام نقاط داخل چنین سلولی برمبنای کلاس X’ برچسب خورده‌اند • این چنین سلول‌هایی را سنگ‌فرش وُرونی گویند • اگر P (ωm|x) نزدیک واحد باشد، آنگاه اغلب همواره انتخاب NN معادل با بیزین است

  15. اگر احتمال خطای شرطی روی مجموعه‌ی یادگیری بصورت P (e|x) باشد، آنگاه متوسط خطا برابر است با

  16. اگر P*(e|x) حداقل مقدار ممکن برای متوسط خطا P (e|x) باشد، و P*نیز حداقل مقدار ممکن برای P (e) باشد، آنگاه • 4-5-1- همگرایی نزدیکترین همسایه • در روش نزدیکترین همسایه، اگر Pn(e) خطای n نمونه‌ای باشد و اگر • باید نشان داد که میانگین احتمال خطا در محدوده‌ی زیر قرار دارد • بردارهای همسایه‌ی متفاوتی برای طبقه‌بندی x برحسب مجموعه‌های متفاوت از n نمونه با قاعده‌ی نزدیکترین همسایه حاصل می‌شود • احتمال قرارگیری یک نمونه داخل ابرکره‌ای بمرکز x عددی مثبت است

  17. بنابراین، احتمال خطای قرار نگرفتن n نمونه در این کره با افزایش n به ‌سمت صفر میل می‌کند • 4-5-4- قاعده‌ی k همسایه‌ی نزدیکتر (k-NN) • این قاعده x را به برچسب k همسایه‌ی نزدیکترش نسبت می‌دهد

  18. مقدار k برای مسئله دو کلاسه فرد و برای c کلاسه نبایستی مضرب صحیح از تعداد کلاس باشد. • برای یک مسئله‌ی دو کلاسه با k فرد و تعداد نمونه‌های زیاد، نرخ خطای قاعده‌ی k-NN دارای کران بالایی برحسب خطای بیزین P* خواهدبود

  19. در ابتدا قاعده نزدیکترین همسایه برای یک بردار ویژگی x و یک اندازه فاصله بشرح زیر بیان می‌شود • - برای N بردار آموزش، k همسایه نزدیکتر باتوجه به برچسب کلاسها تعیین می‌شوند • - در بین این k نمونه، تعداد بردارهای ki متعلق به ωi را تعیین می‌کنیم • - بوضوح، بردار x به کلاس ωi با بیشترین ki اختصاص می‌یابد • اندازه‌های فاصله نظیر اقلیدسی، ماهالانوبیس، قدرمطلق فاصله یا نرم یک (L1)، و ... • برای k = 1 ساده‌ترین نوع الگوریتم بنام قاعده نزدیکترین همسایه (NN)، بعبارتی دیگر یک بردار ورودی ناشناس به برچسب کلاس نزدیکترین همسایه اختصاص می‌یابد • برای تعداد داده آموزشی کافی، این روش ساده دارای عملکرد مناسب می‌باشد و برای میل N به مقدار بینهایت، میزان خطای طبقه‌بندی برای k-NN به خطای بیزین میل می‌کند • وجود پیچیدگی برای جستجوی نزدیکترین همسایه‌ها در تکنیک kNN، میزان محاسبات متناسب با kN

  20. برای مجموعه‌داده با N کوچک، کارآیی روش kNN کاهش می‌یابد. استفاده از روش‌های ویرایش، تعریف فاصله سازگار با داده، و شیوه‌های دیگر جهت افزایش کارآیی • 4-6- متریک‌ها و طبقه‌بند همسایه‌ی نزدیکتر • طبقه‌بند k-NN از یک متریک یا فاصله جهت سنجش بین الگوها استفاده می‌کند • یک اندازه‌ی فاصله، D (., .)، برحسب بردارهای a, b, c دارای خواص زیر است • برای فاصله‌ی اقلیدسی در فضای d بُعدی داریم • یک کلاس عام برای متریک‌ها در فضای d بُعدی الگوها، متریک مینکووسکی است

  21. متریک مینکووسکی به نُرم Lk (نُرم L1) معروف است. فاصله‌ی اقلیدسی، نُرم L2 و نُرم L1 نیز به فاصله‌ی منهتن یا بلوک شهر (city block) معروف می‌باشند • انتخاب متریک یا فاصله به پیچیدگی محاسباتی و شرایط مسئله وابسته است • 4-7- طبقه‌بند فازی • در برخی موارد، دانش شهودی راجع به یک مسئله‌ی تشخیص الگو و طراحی طبقه‌بند وجود دارد • ‌طبقه‌بند فازی منجر به تولید توابع عضویت طبقه‌ای (Category) فازی می‌شود که یک پارامتر قابل سنجش شهودی (غیرخصوصی، objective) را به پارامتر خصوصی (subjective) عضویت طبقه تبدیل می‌کند • مثال: ویژگی روشنایی؛ تیره، تیره‌ی متوسط، متوسط، روشن متوسط، روشن؛ پنج طبقه برای توصیف یک ویژگی

  22. روش ارتباط بین توابع عضویت طبقه و اعداد متناظر با تصمیم نهایی را قاعده‌ی اتصال یا ادغام نامند • مقدار توابع عضویت به صفر و یک محدود می‌شود (جهت کاهش قواعد اتصال). اگر در مسئله‌ی ماهی، ویژگی‌های شهودی روشنایی و شکل دخیل باشند و طراح آنها را در دو طبقه‌ی روشن متوسط و مستطیلی فرض کند، آنگاه قاعده‌ی اتصال موجب تبدیل مقادیر عضویت به توابع تمایز می‌شود

  23. 4-8- روش‌های رهاسازی (Relaxation) • روش رهاسازی به تکنیک‌های ریاضی اشاره دارد که به تنظیم پارامترها می‌پردازند • ساده‌ترین روش توابع پتانسیل می‌باشند که نوعی تابع درونیاب هستند • تفاوت این روش با پنجره‌های پارزن در این است که دامنه‌ی هریک برای طبقه‌بندی درست داده‌ی یادگیری تنظیم می‌شود • شبکه‌ی RCEیا انرژی کاهش‌یافته‌ی کولمب نمونه‌ای از این نوع روش‌ها است • ساختار RCE مشابه PNN است ولی با این تفاوت که: • - در RCE هر واحد الگو دارای یک پارامتر قابل تنظیم است • - پارامتر واحد الگو با شعاع کره‌ی d بُعدی مرتبط است • - هر شعاع در طول یادگیری طوری تنظیم می‌شود تا هر واحد الگو یک ناحیه‌ی تا حد ممکن بزرگ را بدون همپوشانی با نواحی دیگر پوشش دهد

  24. 4-10- تمایز خطی فیشر (FLD) • تمایز خطی فیشر روشی جهت کاهش بُعد از یک فضای d بُعدی به یک فضای یک بُعدی با تصویر روی یک خط می‌باشد • فرض که n داده‌ی d بُعدی از نمونه‌ها x1, …, xn وجود دارند که n1 تا در زیرمجموعه‌ی D1 برای کلاس ω1 و n2 تا در زیرمجموعه‌ی D2 برای کلاس ω2هستند • یک ترکیب خطی از نمونه‌ها با رابطه‌ی زیر تشکیل می‌دهیم • N نمونه y1, …, yn در دو زیرمجموعه‌ تقسیم می‌شوند

  25. هدف یافتن بهترین جهت برای w است بطوری که منجر به تصویر داده روی یک خط با تفکیک‌پذیری داده‌های دو کلاس می‌باشد • یک اندازه برای جداپذیری، اختلاف بین میانگین کلاس‌ها است

  26. فاصله‌ی بین میانگین‌های تصویر شده برابر است با • با انتخاب w مناسب می‌توان اختلاف بین میانگین‌ها را تاحد ممکن بزرگ نمود. ولی، این کار تضمینی برای جداپذیری نمونه‌ها نخواهدبود • جهت داشتن جداپذیری خوب، وجود اختلاف بزرگ بین میانگین‌ها نسبت به یک انحراف معیار استاندارد بین کلاس‌ها، ‌معیار فیشر، مناسب است • هدف FLD تصویر خطی x در جهت w مستقل از نُرم w است تا تابع زیر بیشینه شود • با تعریف ماتریس‌های تفرق بصورت زیر داریم

  27. Sw ماتریس تفرق درون کلاسی و SB ماتریس تفرق برون کلاسی است. معیار J برحسب ماتریس‌های درون و برون کلاسی بصورت زیر خواهدبود

  28. رابطه‌ی 84 بعنوان نسبت تعمیم‌یافته‌ی رایلی معروف است. با توجه به مقادیر ویژه داریم • با حل معادله‌ی بالا، مقدار بهینه‌ی w (جهت بهینه‌ی خط تصویر) حاصل خواهدشد • برای مسئله‌ی چگالی احتمال شرطی کلاسی با توزیع نرمال و ماتریس کوواریانس برابر، مرز تصمیم بهینه بصورت زیر است • برای کلاس با توزیع نرمال و ماتریس کوواریانس برابر، قاعده‌ی بیز معادل با تجاوز FLDاز یک آستانه می‌باشد

More Related