۲-۲-۱ انگیزههای تجاری
هنگامیکه میخواهیم دادهها را از بعد تجاری مورد پردازش قرار دهیم نیاز به دادههایی داریم که ماهیت تجاری داشته باشند. به طور کلی سه منبع برای جمع آوری دادههای تجاری وجود دارند که عبارتند از: دادههای وب و دادههای تجارت الکترونیک، خرید و فروشهای موجود در فروشگاههای خواربار فروشی/سوپر مارکتهای زنجیرهای و تراکنشهای بانکی/تراکنشهای کارتهای اعتباری.
به طور کلی منظور از دادههای وب یا تجارت الکترونیک، دادههای معمولی مثلاً دادههای حاصل از جستجوهای معمولی نیست بلکه منظور از این دادهها تراکنشهایی است که همه روزه در اینترنت انجام شده و ثبت میشوند و از آنجایی که این دادهها زیاد هستند ثبت آنها وقت زیادی میگیرد. تعدادی از این دادهها عبارتند از: خرید و فروش بلیطهای هواپیما، قطار، پرداخت قبوض و …
خرید و فروشهای موجود در فروشگاههای خواربار فروشی/سوپر مارکتهای زنجیرهای نوع مهم دیگری از دادههای تجاری هستند. منظور از این دادهها خرید و فروشهایی هستند که همه روزه در فروشگاهها انجام میشود و شامل کالاهایی است که در سبد خرید مشتریهای مختلف صورت میگیرد.
تراکنشهای بانکی/تراکنشهای کارتهای اعتباری از دیگر دادههای تجاری میباشند که حجم عظیمی از دادهها را به صورت روزانه شامل میشوند. منظور از این دادهها، دادههای مربوط به عملیات بانکی است که همه روزه توسط مشتریان مختلفی که به یک بانک مراجعه میکنند، انجام شده و ثبت میشوند. به عنوان مثال اطلاعات مربوط به اینکه یک مشتری پول به حساب خود واریز کرده، پول از حساب خود برداشت کرده و … در سیستم ثبت میشود و از آنها به عنوان دادههای مربوط به تراکنشهای بانکی یاد میشود. همچنین تراکنشهای مربوط به کارتهای اعتباری در این مجموعه داده قرار میگیرند، به عنوان مثال هر فردی که کارتهای خود را وارد سیستم نموده و قصد انجام عملیاتی را دارد اطلاعات مربوط به آن مشتری، کالا(هایی) را که قصد خرید آن(ها) را دارد، زمانی که در حال خرید است، در سیستم ثبت میشود و از آنها به عنوان دادههای مربوط به تراکنشهای کارتهای اعتباری استفاده میشود.
در واقع هدف اصلی از پردازش دادههای تجاری دستیابی به سود بیشتر است. به عنوان مثال اگر دادههایمان از نوع دادههای وب یا دادههای تجارت الکترونیک باشند، میتوان از نتایج پردازش این دادهها در طراحی ساختار صفحات وب و ایجاد تکنولوژیهایی که سود آوری بیشتری دارند استفاده کرد. اگر دادههای مربوط به سبد خرید مشتریان را مورد پردازش قرار دهیم میتوانیم کالاهایی را که فروششان بیشتر است را شناسایی کنیم و آن کالاها را به میزان بیشتری برای سوپر مارکت تهیه نماییم و یا اینکه میتوانیم بفهمیم کدام کالاها معمولاً به همراه یکدیگر خریداری میشوند و در نتیجه آن کالاها را در چیدمان فروشگاه در کنار هم قرار دهیم تا خرید آنها برای مشتری راحتتر شده و مشتری برای خرید اجناس خود کمتر در فروشگاه حرکت کند و به این ترتیب رضایت مشتری بیشتر جلب شود. اگر تراکنشهای بانکی را پردازش میتوانیم اعتبار مشتریهای مختلف را بسنجیم و روی مشتریانی که ارزش سرمایه گذاری دارند سرمایه گذاری کنیم. به عنوان مثال به مشتریانی که اعتبار بالاتری دارند وام بدهیم و به این مشتریان برای سرمایه گذاری اعتماد کنیم.
در حوزه داده کاوی، شاخه علمی که بر روی بهبود سرویس دهی به مشتری تمرکز میکند با نام مدیریت ارتباط با مشتری[۷] شناخته میشود. هدف اصلی در این علم آن است که بتوانیم مشتریها را اعتبار سنجی کنیم و بر اساس آن یک فرایندی را ایجاد کنیم که در این فرایند به آن دسته از مشتریان که اعتبار بیشتری دارند، سرویسهای بیشتر و به مشتریانی که اعتبار کمتری دارند سرویس کمتری را ارائه بدهیم. هدف در داده کاوی این است که این فرایند اعتبار سنجی به صورت مکانیزه و هوشمند انجام شود [۸].
۲-۲-۲ انگیزههای علمی
هنگامیکه میخواهیم دادهها را از بعد علمی مورد پردازش قرار دهیم نیاز به دادههایی داریم که ماهیت علمی داشته باشند. به طور کلی چهار منبع عمده برای جمع آوری دادههای علمی در حجمهای بالا وجود دارند که عبارتند از: تصاویر ارسالی از طریق ماهوارهها، تصاویر ارسالی از تلسکوپها، دادههای دنباله ژنی و دادههای حاصل از شبیه سازی علمی.
دادهها و تصاویر ارسالی از ماهوارهها شامل تصاویری میباشند که از طریق حسگرهای نصب شده بر روی ماهوارهها، همه روزه در حجم بسیار بالا به زمین مخابره میشوند. این دادهها و تصاویر از طریق سیگنالهای ماهوارهای که در مکانی در مدار زمین قرار دارد، منتقل میشوند.
تلسکوپها نیز همه روزه تصاویری را از زمین میگیرند. این تصاویر به صورت روزانه از طریق تلسکوپها ارسال میشوند و شامل اطلاعات بسیار زیادی هستند.
دادههای دنباله ژنی، حاصل توصیف دنباله ژنی افراد مختلف میباشند و یکی از منابع دادهای بسیار مشهور با ماهیت علمی هستند. تکنیکهای میکرو آرایه، دادههای دنباله ژنی مربوط به یک بافت خاص را استخراج میکنند. این تکنیکها با پردازش نوآورانهای که روی بافت خاص از یک شخص (مثلاً کبد، معده، خون و …) انجام میدهند میتوانند یک دنباله ژنی منحصر به آن بافت را پیدا کنند که آن دنباله ژنی حاوی اطلاعات بسیاری است و تعداد زیادی ویژگی ایجاد میکند. عموماً این اعداد و ویژگیها در تشخیص بیماری افراد، کمک قابل ملاحظهای میکنند.
دادههای حاصل از شبیه سازی علمی منبع مهم دیگری از دادههای علمی هستند. منظور از شبیه سازی علمی مدل سازی یک سیستم در ابعاد کوچکتر است. شبیه سازی وقتی مورد استفاده قرار میگیرد که ما بتوانیم مکانیزم حاکم بر آن سیستم و محیط را به صورت یک مجموعه از قوانین بدانیم. ما میتوانیم سیستمها و محیطهای زیادی را شبیه سازی کنیم و اگر یک محیط شبیه سازی شده داشته باشیم، میتوانیم آزمایشهای مختلفی را بر روی آن انجام دهیم و دادههای زیادی را تولید کنیم که این دادهها میتوانند اطلاعات زیادی را به ما منتقل دهند. به عنوان مثال میتوانیم بدن یک انسان را شبیه سازی نموده و داروهای مختلف را روی آن امتحان کنیم و نتایج حاصل از آزمایشات را بدست آوریم. بخصوص اگر این آزمایشات هزینههای سنگینی داشته باشند، شبیه سازی و نتایج حاصل از آن بسیار با ارزش خواهند بود. شبیه سازی در محیطهای مختلف متفاوت است. چند نمونه از شبیه سازی عبارتند از: شبیه سازی یک آزمایش هستهای، شبیه سازی زلزله و … به طور کلی این شبیه سازیهای علمی دادههای بسیار حجیمی را فراهم میکنند.
وقتی دادهها از نوع علمی باشند، معمولاً نتیجه مستقیم کاوش دادههای علمی لزوماً به سود بیشتر منجر نمیشود، اما بیشتر اوقات منجر به ایجاد دانش جدید، دستاوردهای جدید و نیز باعث خدمت رسانی بیشتر به افراد و یا کشف حقایق خواهد شد. بنابراین میتوان نتیجه گرفت که انگیزه اصلی در پردازش دادههای علمی کمک به بسط و گسترش مرزهای دانش بشری در یک حوزه خاص میباشد[۸].
۲-۳ چالشهای داده کاوی
شاید بتوان مهمترین نقاط ضعف روشهای داده کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگیها. منظور از وجود داده این است که اصولاً دادهای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متأسفانه این مشکل در بسیاری از محیطهای واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام “محسن” زن وارد شده باشد و یا اشتباهات دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگیها بدین معناست که ویژگیهای اخذ شده برای هر رکورد یا شئ برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل دسته بندی کننده برای تشخیص بیماری دیابت است، ثبت ویژگی قند خون بسیار مهم است در حالی که ثبت ویژگی میزان تحصیلات اهمیتی ندارد. توجه داشته باشید اگر هر کدام از مشکلات سهگانه فوق در داده وجود داشته باشد، هیچ یک از الگوریتمهای داده کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده کاوی میتوان چالشها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو گروه میپردازیم.
۲-۳-۱ چالشهای اولیه
چالشهای اولیه که انگیزه مهم بکار گیری فرایند داده کاوی به جای روشهای سنتی تحلیل دادهها هستند عبارتند از: حجیم بودن دادهها، ابعاد بالای دادهها، طبیعت توزیع شده و ناهمگن دادهها. در ادامه به بررسی هرکدام از این چالشها میپردازیم [۸].
حجم بالای دادهها: الگوریتمهای داده کاوی با تعداد زیادی رکورد کار میکنند و حجم زیادی از دادهها را پردازش میکنند. به طور کلی هرچه تعداد رکوردهای موجود بیشتر باشد باعث میشود روشهای سنتی نتوانند این رکوردها را پردازش نمایند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولاً احتیاج به روشهای داده کاوی نیست. هرچه تعداد رکوردها بیشتر باشد باعث میشود علم داده کاوی بتواند کارکرد درخشانتری داشته باشد.
ابعاد بالای دادهها: منظور از بعد همان فیلد یا ویژگی (خصیصه) میباشد. به طور کلی هرچه تعداد ویژگیها بیشتر باشد، باعث خواهد شد که تحلیل دادهها مشکلتر شود. هرچه تعداد ویژگیهای موجود در دادهها بیشتر باشد، نمیتوان با بهره گرفتن از روشهای سنتی بین آنها نظمی پیدا کرد. این در حالی است که در اینگونه مواقع الگوریتمهای داده کاوی میتوانند اثر بخشی و توان بالقوهای که دارا هستند را نشان بدهند.
طبیعت توزیع شده دادهها: به طور کلی طبیعت توزیع شده دادهها و وجود دادهها در منابع پراکنده باعث میشود نتوانیم از روشهای سنتی برای پردازش دادهها استفاده کنیم. در این مواقع به روشهای داده کاوی نیاز داریم. این روشها باید قادر باشند دادههایی را که در مکانهای مختلف ذخیره شدهاند، به گونهای مدیریت کنند که دانش نهفته را از نهان این دادههای پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن دادهها: در انباره دادهای که به عنوان مخزن فرایند داده کاوی عمل میکند، انواع مختلفی از ویژگیها وجود دارد. هر ویژگی محدوده مقادیر مشخص و ویژهای اختیار میکند. کمینه و بیشینه مقادیر مربوط به بعضی ویژگیها با هم فرق دارند. بعضی ویژگیها حوزه مقداری بسیار وسیع و بعضی دیگر حوزه محدودی دارند. در این مواقع میتوان از مباحث نرمال سازی برای بخورد با این مشکل استفاده کرد. اما مسائل دیگری در ارتباط با ویژگیها نیز وجود دارد. به عنوان مثال بعضی ویژگیها عددی (صحیح یا حقیقی) هستند، بعضی دودویی، بعضی دیگر اسمی (مانند رنگ چشم) هستند. بعضی از ویژگیها نیز به گونهای هستند که در مورد آنها تنها میتوان گفت آیا با هم مساوی هستند یا خیر(مانند رنگ چشم)، گونهای دیگر از ویژگیها به این شکلاند که در مورد آنها علاوه بر مساوی و نامساوی بودن میتوان کوچکتر یا بزرگتر بودن آنها را نیز تعیین کرد (مانند سطح تحصیلات)، در مورد برخی دیگر از ویژگیها علاوه بر مساوی و نامساوی بودن، کوچکتری و بزرگتری، میتوان از عملگرهای جمع و تفریق نیز استفاده نمود ( مانند تاریخهای تقویم) و در نهایت در مورد گروهی دیگر از ویژگیها علاوه بر مساوی و نامساوی، کوچکتری و بزرگتری، جمع و تفریق میتوان عملگرهای ضرب و تقسیم را نیز بکار برد (مانند قد و وزن). در نتیجه به دلیل تنوع بالای ماهیت ویژگیها نمیتوان از روشهای سنتی برای پردازش دادهها استفاده نمود.
۲-۳-۲ چالشهای ثانویه
چالشهای ثانویه به آن دسته از چالشهایی گفته میشود که در قیاس با چالشها اولیه از اهمیت کمتری برخوردارند. البته میبایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالشها پایین است و یا حل مشکلات مربوط به آنها کار ساده و کم تأثیری است. در ادامه به بررسی این چالشها میپردازیم [۸].
کیفیت داده[۸]: مربوط به زمانی است که کیفیت دادهها پایین است. به عنوان نمونه هنگامی که دادههای ما شامل نویز[۹]، داده پرت[۱۰]، داده گمشده[۱۱] و داده تکرار شده[۱۲] باشد، شاهد پایین آمدن کیفیت دادهها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیعشدگی ممکن است نتوانیم کل دادهها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.
حفظ حریم شخصی دادهها[۱۳]: مربوط به زمانی است که باید با رعایت حریم شخصی، دادهها را کاوش نماییم. فرایند کاوش داده میبایست به گونهای انجام شود که بتوان بدون دسترسی به همه دادهها و با دیدن تنها بخش محدودی از آن فرایند داده کاوی را پیش برد. تفاوت حفظ حریم شخصی دادهها با توزیعشدگی و عدم مالکیت داده در این است که در توزیعشدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه دادهها استفاده شود ولی در اینجا ممکن است به بخشی از دادهها اصلاً دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان دادههای در دسترس بسازیم.
دادههای جریانی[۱۴]: به دادههای گفته میشود که سرعت تولید آنها بالاست به گونهای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتباً دادههای جدیدی تولید میشوند. بنابراین سیستم باید بصورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بروزی را در اختیار قرار دهد.
۲-۴ مروری بر کشف دانش و داده کاوی
کشف دانش و داده کاوی[۱۵] یک حوزه جدید میان رشتهای و در حال رشد است که حوزههای مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینههای مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از دادهها را استخراج نماید. با رشد سریع کامپیوتر و استفاده از آن در دو دهه اخیر تقریباً همه سازمانها حجم عظیمی داده در پایگاه داده خود ذخیره کردهاند. این سازمانها به فهم این دادهها و یا کشف دانش مفید از آنها نیاز دارند [۹].
همانطور که الکترونها و امواج موضوع اصلی مهندسی برق شدند، دادهها، اطلاعات و دانش نیز موضوع اصلی حوزه جدیدی از تحقیق و کاربرد به نام کشف دانش و داده کاوی یا به اختصار KDD هستند [۱۰].
به طور کلی، دادهها رشتهای از بیتها (به صورت صفر و یک) یا اعداد و نشانهها و یا اشیاء هستند که وقتی در فرمتی مشخص به یک برنامه ارسال میشوند، معنا مییابند ولی هنوز تفسیر نشدهاند. اطلاعات، دادهای است که موارد افزونه یا زایدش حذف شده است و به حداقل ممکنی که برای تصمیم گیری لازم است، تقلیل یافتهاند و حال دادهها تفسیر شدهاند. دانش، اطلاعات تلفیق شدهای است که شامل حقایق و روابط میان آنهاست. دانش در واقع به عنوان تصاویر ذهنی ما درک، کشف یا فراگیری شده است. به عبارت دیگر میتوان دانش را همان دادههایی فرض کرد که در بالاترین سطح تعمیم قرار گرفتهاند [۱۰].
متخصصانی که از حوزههای مختلف به رشد این موضوع جدید کمک میکنند، فهم متفاوتی از عبارات کشف دانش و داده کاوی دارند. تعریف مورد نظر در این تحقیق به شرح زیر است:
کشف دانش از پایگاه دادهها در واقع فرایند تشخیص الگوها و مدلها موجود در دادههاست. الگوها و مدلهایی که معتبر، بدیع، بالقوه مفید و کاملاً قابل فهم هستند. داده کاوی مرحلهای از فرایند کشف دانش است که با کمک الگوریتمهای خاص داده کاوی و با کارایی قابل قبول محاسباتی، الگوها یا مدلها را در دادهها پیدا میکند [۱۰].
مراحل این فرایند در شکل زیر آمده است:
شکل ۲-۱ فرایند داده کاوی و کشف دانش
به عبارت دیگر، هدف کشف دانش و داده کاوی یافتن الگوها و یا مدلهای جالب موجود در پایگاه دادههاست که در میان حجم عظیمی از دادهها مخفی هستند.
با توجه به تعریف ارائه شده از کشف دانش، درجه جذابیت[۱۶] یافتهها با معیارهای متعددی بیان میشود که به شرح زیر میباشند:
تصدیق یا گواهی[۱۷]، نشانگر معنیدار بودن یک یافته بر حسب یک معیار آماری است. افزونگی، مقدار شباهت یک الگوی کشف شده نسبت به یافتههای دیگر است و درجه تبعیت آن را از دیگری اندازه میگیرد. فایده، ارتباط یافته را با اهداف کاربران بیان میکند. بدیع بودن[۱۸]، بیانگر میزان تازگی نسبت به دانش قبلی کاربر یا سیستم است. سادگی، به پیچیدگی نحوی[۱۹] و نمایش یک الگوی کشف شده و نحوه تعمیم آن اشاره دارد [۱۰].
۲-۵ مراحل داده کاوی
فرایند داده کاوی شامل سه مرحله است: آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل ۲-۱ در فوق این مراحل سهگانه را به همراه زیر مراحل آن نشان میدهد. در ادامه به توصیف هر کدام از این مراحل میپردازیم [۸].
آماده سازی داده: اولین و مهمترین مرحله در فرایند داده کاوی آماده سازی داده میباشد. هدف در این مرحله تأمین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. در این مرحله داده پردازش نشده از کل منابع دادهای موجود (که ممکن است توزیع شده نیز باشند) استخراج شده، سپس در مرحلهای مستقل مورد پردازش اولیه قرار میگیرد. خروجی در مرحله آماده سازی مدل عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همانگونه که گفته شد اولین گام در مرحله آماده سازی داده استخراج داده از منابع دادهای موجود است. در این گام میبایست دادهها که در منابع مختلفی پراکنده شدهاند، به صورت متمرکز در یک محل جمع آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به صورت متمرکز در یک مکان وجود ندارد. به علاوه دادهها در بخشهای مختلف ممکن است در فرمتهای گوناگونی نیز ذخیره شده باشند. مثلاً ممکن است بخشی از دادهها در یک پایگاه داده Oracle و بخش دیگر دادهها در یک پایگاه داده SQL Server ذخیره شده باشند. حتی ممکن است بخشی از دادهها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات دادههایی وجود دارند که روی کاغذ نوشته شدهاند و حتی تایپ نشدهاند. حال اگر قرار باشد فرایند داده کاوی صورت پذیرد، باید دادههای موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انباره داده مرکزی ذخیره شوند. در غیر اینصورت فرایند داده کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانش با ارزش و درخور توجه تولید نماید.
دومین گام در مرحله آماده سازی داده پیش پردازش دادههای استخراج شده است. مهمترین رسالت این گام زدودن مشکلات مختلفی که احتمالاً در داده وجود دارند، خواهد بود. این مشکلات در واقع مانع از آن میشود که مرحله یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله آماده سازی داده، مجموعه دادهای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با بهره گرفتن از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف میشود.
یادگیری مدل: در این مرحله با بهره گرفتن از الگوریتمهای متنوع و با توجه به ماهیت داده، سعی ما بر این است که نظمهای مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل میبایست روشهای آن را به درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بکار بست.
روشهای یادگیری مدل در داده کاوی: مشهورترین روشهای یادگیری مدل در داده کاوی را در این بخش مورد بررسی قرار میدهیم. میتوان روشهای مختلف کاوش داده را در دو گروه روشهای پیش بینی و روشهای توصیفی طبقه نمود. در ادامه به شرح هر کدام از این دو گروه میپردازیم.
روشهای پیش بینی: این روشها از مقادیر بعضی از ویژگیها برای پیش بینی کردن مقدار یک ویژگی مشخص استفاده میکنند. در متون علمی مختلف روشهای پیش بینی با نام روشهای با ناظر[۲۰] نیز شناخته میشوند. روشهای دسته بندی[۲۱] ، رگرسیون[۲۲] و تشخیص انحراف[۲۳] سه روش یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در ادامه بررسی هر کدام از این روشها میپردازیم.
دسته بندی: در الگوریتمهای دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه دادههای آموزشی[۲۴] و مجموعه داده آزمایشی[۲۵] تقسیم میشود، با بهره گرفتن از مجموعه دادههای آموزشی مدل ساخته میشود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده میشود. هر رکورد شامل یک مجموعه از ویژگیهاست. یکی از این ویژگیها، ویژگی دسته نامیده میشود. در الگوریتمهای دسته بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتمهای با ناظر محسوب میشوند. الگوریتمهای با ناظر شامل دو مرحله با عنوان مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه دادههای آموزشی به یکی از الگوریتمهای دسته بندی داده میشود تا بر اساس مقادیر سایر ویژگیها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال، اگر الگوریتم یادگیرنده الگوریتم درخت تصمیم[۲۶] باشد مدل ساخته شده یک درخت تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته بند مبتنی بر قانون[۲۷] باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یادگیرنده مورد استفاده در مرحله آموزش، مدل ساخته میشود. پس از ساخت مدل، در مرحله ارزیابی دقت مدل ساخته شده به کمک مجموعه داده آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده را ندیده[۲۸] است، ارزیابی خواهد شد. از مجموعه دادههای آزمایشی در مرحله آموزش و ساخت مدل استفاده نمیشود.