رابطه ۲-۹ | |||
و رابطه ۲-۱۰ | Likehood_Ratio= |
اگر قانون بطور اتفاقی پیش بینی شود تعداد تکرار کلاس i میان رکوردهاست و مقدار مورد انتظار کلاس i است.
Cn2 از روشlikedhooh_ratio و RIPPER از FOIL برای خاتمه الگوریتم استفاده می کند[۴].
روش غیر مستقیم: استخراج قوانین از روش های دسته بندی مانند درخت تصمیم
در مقایسه با درخت تصمیم بزرگ قوانین برای انسان راحتتر قابل فهم است برای ساختن قوانین از درخت تصمیم ما هر مسیر از ریشه تا برگ را پیمایش میکنیم. معیار جدا کننده نودها برای رسیدن تا برگ AND است و برگ نتیجه نگه میدارد که قبلش برگThen می آید. در اینجا شرط انحصار متقابل برقرار است و هیچ دو قانونی یک رکورد را ارضا نمیکند[۴].
شکل ۲-۵: شبکه کد الگوریتم توالی پوشش [۴]
۲-۲-۵ مدل کاهل
در یک نگاه کلی میتوان دستهبندی را به دو گروه مشتاق و کاهل تقسیم کرد در نوع مشتاق، مدلی از داده ها در مرحله آموزش ساخته میشوند. درخت تصمیم نمونه ای از این مدل است. در مدل کاهل نمونههای آموزشی دریافت و ذخیره شده و تنها هنگام دستهبندی از آن استفاده می شود. در واقع مدلی از دادهها ساخته نمی شود و یادگیری تا زمان دسته بندی به تعویق میافتد. به این نوع دسته بندی، یادگیری مبتنی بر نمونه میگوییم.
تفاوت بین این دو مدل در این است که نوع مشتاق زمان زیادی صرف ساخت مدل کرده و در زمان دسته بندی سریع عمل می کند و نوع کاهل زمان بیشتری صرف دسته بندی می کند[۴].
در ادامه به بررسی الگوریتمهای مدل کاهل میپردازیم.
۲-۲-۵-۱ روش نزدیکترین همسایگی
این الگوریتم از سه گام زیر تشکیل شده است:
محاسبه فاصله نمونه ورودی با تمام نمونههای آموزشی
مرتب کردن نمونههای آموزشی بر اساس فاصله و انتخاب k همسایه نزدیکتر
استفاده از دستهای که اکثریت را در همسایههای نزدیک، به عنوان تخمینی برای دسته نمونه ورودی دارد.
در گام اول روش نزدیکترین همسایگی، باید فاصله نمونه ورودی با تمام نمونه آموزشی محاسبه شود. برای انجام این کار باید فاصله بین دو نمونه تعریف شد که با فرض اینکه نمونه x دارایi ویژگی است بصورت زیر تعریف می شود.
رابطه۲-۱۱ |
K همسایه نزدیکتر انتخاب شده و دستهای که دارای اکثریت است داده جدید آموزشی به آن تعلق میگیرد.[۴]
۲-۲-۵-۲ الگوریتمهایی برای اطمینان از عدم وجود داده مغشوش
در الگوریتم که قبلا گفتیم اگر مقدار k بسیار بزرگ باشد داده مغشوش تاثیر زیادی بر نتیجه ندارد. اما پیدا کردن k مناسب خود چالش بزرگی است در زیر به معرفی الگوریتمهایی میپردازیم که مبتنی بر این فرض هستند که نمونههایی را که کارایی خوبی برای دستهبندی دارند در مجموعه آموزشی نگه میدارند[۴].
-
- الگوریتم IB3 :
این الگوریتم در واقع یک پیش پردازش روی داده های آموزشی است که در واقع اگر T مجموعه آموزشی باشد در واقع زیر مجموعه ای از آن s را نگه میداریم
در شکل ۲- ۶ شبکه کد الگوریتم IB3 آمده است.
شکل ۲-۶: شبکه کد الگوریتم [۴] IB3
افزودن و حذف عناصر S با توجه به نرخ موفقیت نمونه و نرخ موفقیت پیش فرض آن صورت میگیرد.
نرخ موفقیت نمونه بصورت زیر تعریف می شود