خوشه بندی SVM
آماده سازی متن
استفاده از کلمات توقف
ریشه یابی و بازیابی اطلاعات
مدیریت و بازیابی دانش تکنیکهای مصور سازی گراف و چارت
شکل (۳-۲): فرایند متنکاوی به عنوان فرایند تعاملی و تکرارشونده.
در شکل ۳-۲ روش تکرارشونده برای کشف دانش باارزش که از فرمتهای دادههای متنی، اقتباس شدهاند نمایش داده شده است که در تحلیل دادههای حاصل از پژوهش جاری کاربرد دارد. اطلاعات موجود در فرمها از دادههای متنی به عنوان ورودی جهت آمادهسازی متن و روشهای پردازش متن مورد استفاده قرار میگیرد. هر دو مرحله آمادهسازی متن و مراحل پردازش متن باید به صورت تعاملی برای پیدا نمودن الگوهای مفید و قابل فهم در دادههایی که قرار است در مرحله پایانی یعنی تجزیه و تحلیل متن به صورت مصور نمایش داده شود پیادهسازی گردند. در نهایت نتایج به دست آمده در قالب نمودار یا جداولی نمایش داده میشوند. تکنیکهای دادهکاوی نسبت به متنکاوی کارآمدی پائین تری دارند چراکه داده در فرمتهای بدون ساختار نسبت به پایگاه دادههای ساختاریافته در دسترس تر است. روشهای متنکاوی دارای مزایایی است که باعث مدیریت بهتر منابع دانش و فعالیتهای مدیریت دانش و تجزیهوتحلیل پژوهشهای کیفی میگردد. متنکاوی جهت کشف دانش مفید برای کمک به پردازش اطلاعات و بهبود بهرهوری نتایج حاصل از پژوهشهای کیفی مورد استفاده قرار میگیرد. نتیجه متنکاوی افزایش ارزش افزوده یک پژوهش در راستای تسهیل فرایند تصمیمگیری، بهبود تحلیلها و کاهش هزینه، نسبت به سایر تکنیکهای پردازش متن است. در اصل برای بهدست آوردن مزایای رقابتیتر و بهرهبرداری از اطلاعات چندگانه، روشهای کشف دانش در نظر گرفته میشود. در نتیجه باید توجه بیشتری به تکنیکهای متنکاوی در راه حل های تحلیل کیفی گردد. تجزیه و تحلیل متن و طبقهبندی آن میتواند کمک بسزایی در شناسایی مسائل کلیدی نماید که در نهایت میتواند نقش مؤثری در آینده فرایند تصمیمگیری در بسیاری از زمینههای تحلیل کیفی میگردد. مدیریت بهتر منابع اطلاعاتی، کاهش زمان تحلیلها، بهبود سطح رضایت محقق و یا کیفیت نتایج دلایل اصلی برای بازبینی دادههای ذخیره شده در سیستم پایگاه داده فعلی است. بازنگری پژوهش با بهره گرفتن از تجزیه و تحلیل متن و تکنیکهای طبقهبندی متون میتواند جهت تصمیمگیری بهتر محقق برای رسیدن به نیازهای پژوهش مقرون بهصرفهتر و کارآمدتر باشد. فرضیههای ساخته شده در این کار پژوهشی، MKTPKS برای طبقهبندی اسناد به دو کلاس مختلف جهت بهبود دقت طبقهبندی در مقایسه با مدل مبتنی بر طبقهبندی Term مورد استفاده قرار میگیرد. اهداف پژوهش حاضر را میتوان به شرح ذیل برشمرد: اول این که برای اعمال تکنیکهای دادهکاوی متنی برای به دست آوردن اولین سطح دانش و تولید MKTPKS به نمایندگی از دانش مفید که از طریق تکنیکهای خوشهبندی کشف شده است نیاز است. دوم این که به منظور مطالعه تأثیرات مدلهای نمایندگی متنی متفاوت برای ردهبندی دادهها و روشهای بهبود برای به دست آوردن طبقهبندی بهتر از نتایج این پژوهش استفاده میگردد. [۶۳]
کشف الگو
تحلیل و پردازش دادهها
تکنیکهای داده کاوی
داده متنی خام
متدهای متن کاوی
اطلاعات تحکیم شده
راه حلهای کسب و کار تاثیرات هزینه
و تحلیل ریسک
پایگاه دانش
شکل (۳-۳) دادهکاوی متنی برای کشف دانش در پاییندست و راه حل های مدیریت
۳-۷-۱- روش تحقیق و معماری پیشنهادی
در این بخش یک سیستم پیشنهاد شده است که به تجزیه و تحلیل پایگاه داده متنی و طبقهبندی مطالب میپردازد به صورتی که مطالب را به کلاس متفاوت طبقهبندی می کند. در این تحقیق پیشنهاد سه سطح سیستم شامل ویژگیهای مختلف جهت متنکاوی ارائه گردیده است. سطوح سیستم پیشنهادی شامل مواردی از قبیل پردازش دانش و ذخیرهسازی در سطح اول، واحد پالایش در سطح دوم و کاربرد و طبقهبندی دانش در سطح سوم است. جریان اطلاعات و دانش از بخشهای مختلف سیستم به تولید خلاصه متن از MKTPKS و پس از آن طبقهبندی اسناد موجود بر اساس MKTPKS است.[۱۴۸] شرح مفصلی از دنبالهای از فعالیتها در ذیل آمده است:
۳-۷-۲- پردازش اطلاعات و داده
اولین گام در بررسی و تحلیل فرمت دادههای متنی بدینسان است که اطلاعات متنی بهصورت مستندات متنی (متون حاصل از مصاحبهها و مرور ادبیات) در دسترس باشند. معمولاً این مستندات توسط افراد خبره (کارشناسان) در سازمان و فرد محقق مورد بررسی قرار گرفته و تصمیمات ملزوم توسط این افراد اتخاذ میگردد که مفید یا غیرمفید است. این نوع بررسی گران است چراکه زمان و تلاش کارشناسان حوزههای مختلف را نیاز دارد. برای آغاز فرایند طبقهبندی خودکار متن دادههای ورودی باید در یک فرمت مناسب برای استفاده از تکنیکهای دادهکاوی متنی مختلف آماده شوند، که شامل حذف کلمات توقف و توابع ریشهیابی لغات ساده است. برای رسیدن به هدف (ایجاد دادههای کاربردی) جهت اعمال تکنیکهای مختلف دادهکاوی باید مراحل ذیل را طی نمود. گام اول حذف اطلاعات غیر ضروری موجود در فرمهای توقف کلمه است. مانند: افعال، حروف ربط، اتصالات قطع، ضمایر و غیره. کلماتی که حذف میشوند در تفسیر معنای متن دارای تأثیر کمتر هستند. ریشهیابی به عنوان روند آمیختن کلمات به ساقه اصلی، پایه یا ریشه آنها تعریف گردیده است. به طور مثال: ریشه رسیدن، میرسد، رساندن کلمه رسید است. این روش به گرفتن اطلاعات کل فضای حمل (دامنه فضای اطلاعات متنی) و هم چنین کاهش ابعاد داده و در نهایت به طبقهبندی دادهها کمک می کند. گام بعدی برای نمایش دادههای متنی به فرم ماتریس این است که در آن هر بردار ردیف شامل شرایط و هر بردار ستون شامل کد شناسایی مربوط به سند شناسه (ID) باشد. برای کاهش اثرات فقدان اطلاعات کلیدی در این مرحله از نمایش دادههای متنی از رویکرد BOW استفاده مینماییم که این متد از فضای کل اطلاعات برای تحلیل استفاده می کند. این روش مستقل از ساختار متن است و هر کلمه به عنوان یک نهاد مستقل حاوی برخی اطلاعات در نظر گرفته میشود.[۱۴۹]
۳-۷-۲-۱- سطح اول: واحد پردازش و ذخیرهسازی دانش
این بخش به تجزیه و تحلیل دادههای متنی کمک میکند تا با بهره گرفتن از الگوریتمهای دادهکاوی مختلف دادههایی به دست بیاوریم که نماینده سودمندی از کلمات و عبارات تعریف شده در متن باشند. متدهای نمایش دادههای مختلف که در این سطح استفاده میشوند اول بسامد کلمه (TF) و دوم بسامد معکوس اسناد (IDF). انتخاب نماینده از دادهها باید از طریق آزمایشهای گسترده و هم چنین با در نظر گرفتن کل فضای اطلاعات باشد، که کل موارد از طریق ماتریس صورت میپذیرد. با این وجود در حال حاضر تمرکز در پژوهش جاری با بهره گرفتن از تکنیکهای خوشهبندی جهت افراز بندی دادهها به زیرمجموعههای مفید از اطلاعات در هر خوشه است.[۱۵۰]
۳-۷-۲-۱-۱- خوشهبندی
خوشهبندی پردازشی است که برای گروهبندی اطلاعات و دادهها به گروههای دارای خواص مشابه با بهره گرفتن از معیارهای فیزیکی یا کمی صورت میپذیرد. این معیار کیفی میتواند بر اساس مرکز ثقل خوشه، عمل خوشهبندی را انجام دهد. [۶۴] تکنیک دیگر در یافتن شبیهترین اعضا از طریق Terms(مجموعه عبارات ساده) و روش K-Means است تا اولین سطح دانش را از بین ارتباطات طبیعی کشف نماید. یکی از مهمترین معیارهای خوشهبندی محاسبه فاصله اقلیدسی است که از این رابطه در روش خوشهبندی K-Means نیز میتوان استفاده نمود.[۱۵۱] فرمول ۳-۱:
D(x,y)=
تشکیل پایگاه داده رابطه ای
مستندات متنی
با فرمت آزاد
واحد متن کاوی
(پردازش اطلاعات و داده)
واحد پردازش و ذخیره سازی دانش (سطح ۱)
واحد پالایش دانش (سطح ۲)
خوشه بندی
K-MEANS
MKTPKS تشکیل
واحد رده بندی متن و کاربرد دانش (سطح ۳)
مستندات اطلاعات بد
مستندات اطلاعات خوب
شکل (۳-۴) سیستم ردهبندی متن و مدیریت دانش مبتنی MKTPKS
۳-۷-۲-۱-۲- تشکیل پایگاه داده رابطهای
خروجی کاربرد خوشهبندی K-Means باید به صورت فرمتهای قابل استفاده در جداول رابطهای مختلف ذخیرهسازی گردد. این جداول شامل ستونهایی به همراه شناسه خوشهبندی هستند، خوشهبندی و برچسبگذاری خوشهها بیشتر در پردازشهای هرس اطلاعات کلیدی یا کشف دانش مورد استفاده قرار میگیرد، این عملکرد به ذخیرهسازی و مدیریت اطلاعات برای بیشتر تحلیلها کمک می کند.
۳-۷-۲-۲- سطح دوم: واحد پالایش دانش
ورودی این واحد در قالب جداول رابطهای که در آن اسناد به عنوان معاملات یا تراکنشهای انجام شده شرایط به عنوان اقلام در نظر گرفته میشوند. فرایند با پالایش اطلاعات و دانش کلیدی به همراه تولید NKTPKS و از طریق کاربرد قوانین انجمنی APRIORI جهت کاوش انجام گردیده است. در ساخت MKTPKS یک بخش اساسی و ضروری استفاده از تحلیل دادهها برای ردهبندی مستندات متنی است. ساخت MKTPKS بر یافتن قوانین انجمنی ارجحیت دارد به دلیل آن که شناسایی بیش از حد قوانین موجب ازدیاد جمعیت در پایگاه دانش میگردد. علاوه بر این MKTPKS میتواند به کشف روابط باارزشتر در شرایط تعریف شده در متن کمک نماید. این اعمال به یافتن ارتباطات در میان مفاهیم مختلف تعریف شده در مستندات متنی کمک می کند. نگاشت MKTPKS های کشف شده به مجموعههای ویژه از مستندات به شناسایی مجموعه مستندات حاوی اطلاعات خوب و بد کمک می کند.[۱۵۲]