مبانی نظری و پیشینه تحقیق داده کاوی 12 (docx) 64 صفحه
دسته بندی : تحقیق
نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )
تعداد صفحات: 64 صفحه
قسمتی از متن Word (.docx) :
وزارت علوم، تحقیقات و فناوری
دانشگاه علوم و فنون مازندران
پایاننامه
مقطع کارشناسی ارشد
رشته: مهندسی فناوری اطلاعات
عنوان: مدیریت دانش مشتریان بانک مهر اقتصاد با استفاده از تکنیکهای دادهکاوی
اساتید راهنما: دکتر جواد وحیدی، دکتر بابک شیرازی
استاد مشاور: دکتر حسین علیزاده
دانشجو: سیده عطیه علیکیا امیری
) تابستان 1392(
این پایاننامه را تقدیم میدارم به:
روح پاک پدرم که عالمانه به من آموخت که چگونه در عرصه زندگی، ایستادگی را تجربه نمایم.
و به مادرم، دریای بیکران فداکاری و عشق که وجودم برایش همه رنج بود و وجودش برایم همه مهر.
و خواهرانم که حضورشان همیشه مایهی دلگرمی و امید من است.
و سپاس ...
سپاس خدای را که سخنوران، در ستودن او بمانند و شمارندگان، شمردن نعمتهای او ندانند و کوشندگان، حق او را گزاردن نتوانند. و سلام و درود بر محمد و خاندان پاك او، طاهران معصوم، هم آنان که وجودمان وامدار وجودشان است، و نفرين پيوسته بر دشمنان ايشان تا روز رستاخيز...
و سپاسگزارم از اساتید گرامی و بزرگوار
جناب آقای دکتر جواد وحیدی و جناب آقای دکتر بابک شیرازی که در کمال سعهصدر، با حسن خلق و فروتنی، از هیچ کمکی در این عرصه بر من دریغ ننمودند و زحمت راهنمایی این پایاننامه را بر عهده گرفتند.
و از استاد گرامی، جناب آقای دکتر حسین علیزاده که زحمت مشاوره این پایاننامه را عهدهدار بودند که بدون مساعدت ایشان، این پروژه به نتیجه مطلوب نمیرسید.
و از استاد گرامی، جناب آقای پروفسور ایرج مهدوی که زحمت داوری این پایاننامه را متقبل شدند، کمال تشکر و قدردانی را دارم.
این پژوهش از حمایت موسسه مالی و اعتباری مهر برخوردار بوده است.
فهرست مطالب
TOC \o "1-5" \h \z \u فصل دوم PAGEREF _Toc522521614 \h 2
ادبیات و پیشینه تحقیق PAGEREF _Toc522521615 \h 2
2-1- مقدمه PAGEREF _Toc522521616 \h 3
2-8- دادهکاوی PAGEREF _Toc522521617 \h 5
2-8-1- مقايسه روشهای آماری و دادهکاوی PAGEREF _Toc522521618 \h 7
2-8-2- مفهوم دادهکاوی PAGEREF _Toc522521619 \h 9
2-8-3- دادهکاوی و کشف دانش PAGEREF _Toc522521620 \h 11
2-8-4- فرايند دادهکاوی PAGEREF _Toc522521621 \h 14
2-8-5- معرفی روشهای دادهکاوی PAGEREF _Toc522521622 \h 21
2-8-5-1- دستهبندی PAGEREF _Toc522521623 \h 23
2-8-5-2- درخت تصمیم PAGEREF _Toc522521624 \h 24
2-8-5-3- شبکههای عصبی PAGEREF _Toc522521625 \h 25
2-8-5-4- پیش بینی PAGEREF _Toc522521626 \h 27
2-8-5-5- خوشهبندی PAGEREF _Toc522521627 \h 28
2-8-5-5- انواع خوشهبندی PAGEREF _Toc522521628 \h 29
2-8-5-5-2- معیارهای ارزیابی در خوشهبندی PAGEREF _Toc522521629 \h 31
2-8-5-6- تحلیل انحراف PAGEREF _Toc522521630 \h 33
2-8-5-7- قواعد وابستگی (انجمنی) PAGEREF _Toc522521631 \h 34
2-8-5-8- تحلیل توالی PAGEREF _Toc522521632 \h 34
2-8-6- نرمافزار دادهکاوی PAGEREF _Toc522521633 \h 36
2-8-7- کاربردهای دادهکاوی PAGEREF _Toc522521634 \h 37
2-8-7-1- دادهکاوی در صنعت بانكداری PAGEREF _Toc522521635 \h 38
2-9- پیشینه تحقیق PAGEREF _Toc522521636 \h 39
2-9-1- کاربرد دادهکاوی در بخشبندی و مدلسازی رفتاری مشتریان در صنعت بانکداری PAGEREF _Toc522521637 \h 41
2-9-2- کاربرد دادهکاوی در ارزیابی اعتبار مشتریان PAGEREF _Toc522521638 \h 44
2-9-3- کاربرد دادهکاوی در زمینه کشف تقلب PAGEREF _Toc522521639 \h 46
2-9-4- کاربرد دادهکاوی در تحلیل رویگردانی مشتری PAGEREF _Toc522521640 \h 47
2-10- جمعبندی مطالب فصل PAGEREF _Toc522521641 \h 54
منابع و مآخذ PAGEREF _Toc522521642 \h 57
فصل دوم
ادبیات و پیشینه تحقیق
center17607000
2-1- مقدمه
افزایش روزافزون سطح رقابت در میان کسبوکارهای امروزی سبب گشته سازمانها جهت ربودن گوی سبقت از رقیبان، به دنبال رویکردهای نوینی باشند. بنابراین مطالعات و تحقیقات گستردهای جهت کسب مزیت رقابتی توسط سازمانها صورت گرفت. در این میان عامل مشتری از اهمیت خاصی برخوردار است و مطالعات ویژهای به این مبحث مهم اختصاص یافته است.
صنعت بانکداری از جمله صنایعی است که در آن مشتریان، به دلیل ارتباطات مستقیم با سازمان اهمیت ویژهای دارند. از طرفی رواج کسبوکار الکترونیک در سازمانها و بانکها و مؤسسات مالی و اعتباری سبب برجای ماندن دادههای غنی حاصل از تعاملات و ارتباطات مشتری با سازمان شده که این دادهها در صورت بهرهبرداری درست و استخراج دانش و الگو از میان آنها به گنجینهای غیر قابل توصیف بدل خواهند شد.
از طرفی، به طور خاص در صنعت بانکداری، به نظر میرسد مسائلی چون مشکلات موجود در نظام اقتصادی کشور، افزایش میزان عرضه بر تقاضا در صنعت بانکداری، دولتی بودن بسیاری از بانکهای کشور و عرضه خدمات بانکی مشابه و... توجه به مشتری و جایگاه او در نظام بانکی را با بیمهری مواجه نموده است. وجود این مسائل خود میتواند فرصتی باشد تا بانک با بهرهگیری از ابزارهای مدیریت دانش مشتری، نیازها و توقعات مشتریان را زودتر از سایر رقبا پیشبینی نموده و گوی سبقت را از رقیبان برباید [11].
مدیریت دانش مشتری ابزاری است که سعی دارد با تمرکز بر چگونگی پیشرفت و توسعه سازمان به کمک دانش کسب شده از روی دادههای حاصل از روابط با مشتریان و کسب مشتریان جدید و تأمین رضایت مشتریان ارزش افزوده را برای سازمان به ارمغان آورد.
در این تحقیق ابزار دادهکاوی جهت کشف دانش پنهان در میان حجم عظیم دادههای مربوط به مشتریان انتخاب شده است. این ابزار با وجود روشهای متنوع موجود در آن و امکان تحلیل انبوهی از دادهها، محدودیتهای روشهای سنتی گزارش گیری و روشهای آماری را برطرف نموده است. امروزه کاربردهای جالب و وسیع این ابزار در اکثر علوم و به طور خاص صنعت بانکداری مورد توجه محققان و متخصصین امر قرار گرفته است.
این فصل تاریخچه بانکداری و دادهکاوی، مفاهیم و کاربردهای آن تشکیل شده است.
در بخش دادهکاوی به تعاریف و مفاهیم و تفسیر مختصری از الگوریتمهای موجود در زمینه علم دادهکاوی خواهیم پرداخت. در ادامه به نمونههایی از کاربردهای دادهکاوی به خصوص در صنعت بانکداری اشاره شده و در نهایت پیشینه تحقیق بررسی خواهد شد.
2-8- دادهکاوی
سرعت روزافزون انباشت دادههای حاصل از پردازش و تعاملات و تبادلات و ارتباطات موجود در فضای کسبوکار، به خصوص با وجود پیشرفت سیستمهای فناوری اطلاعات و ارتباطات، مجموعه وسیعی از دادهها را پدید آورده است. طبق آخرین تحقیقات محققان، ظرفیت ذخیرهسازی دادهها در سراسر دنیا هر نه ماه دو برابر و دادههای در دسترس نیز هر پنج سال دو برابر میشوند. همچنین دانشمندان پیشبینی کردهاند پایگاههای داده هر 5 سال یک بار به طور کامل فراموش شده و دادههای موجود در آنها فقط در انبارهای داده ذخیره میشوند.
هرچند در نگاه اول ممکن است به نظر برسد این دادهها بیفایده هستند، اما این دادهها میتوانند در صورت وجود ابزارهای مناسب، حکم معادن طلا را برای سازمانها، کسبوکارها و شرکتها داشته باشند. با این حال که ما از نظر دادهای غنی هستیم اما از نظر دانشی بسیار فقیریم [31]. اکثر سازمانها با فقر دانش مواجهاند و میتوان ادعا نمود این مسئله به سبب عدم شناخت سازمانها از ابزارهایی نظیر دادهکاوی است که برخلاف ابزارهای گزارش گیری و آمارگیری قدیم میتوانند حجم عظیمی از دادهها را تحلیل نموده و الگوهای پنهان مفیدی از دل این دادهها آشکار نمایند.
دادهکاوی به کشف الگوهای پنهان و استخراج دانش و اطلاعات از پایگاه دادههای بسیار بزرگ اشاره دارد.
دادهکاوی الگوریتمهایی چون دستهبندی، خوشهبندی، قوانین انجمنی و ... را بر روی مجموعهای از دادهها اعمال نموده و بعد از تحلیل محتویات دادهای مدلهایی را به عنوان خروجی تولید مینماید. روشهای آماری اساس کار دادهکاوی را تشکیل میدهند.
2-8-1- مقايسه روشهای آماری و دادهکاوی
با پیشرفت روزافزون علوم در گذر زمان روشهای قدیمی موجود جای خود را به روشهای نوین میسپارند تا محدودیتهای روشهای گذشته را برطرف نمایند. علم آمار که یکی از شاخههای علوم ریاضیست نیز از این امر مستثنی نبوده و دستخوش تغییرات بسیاری گشته است. آمار، علمی است که به جمع آوری، توضیح و تفسیر دادهها میپردازد. اشتراک تکنیکهای آماری و دادهکاوی بیشتر در تخمین و پیشبینی است. همچنین از آزمونهای آماری در ارزیابی نتایج دادهکاوی نیز استفاده میشود. از این منظر میتوان روشهای آماری را اساس کار دادهکاوی دانست.
دادهکاوی به صورت يك محصول قابل خريداري نميباشد، بلكه يك رشته علمي و فرآيندي است كه بايد به صورت يك پروژه پيادهسازي شود. دادهها اغلب حجيم ميباشند و به تنهایی قابل استفاده نيستند، بلكه دانش نهفته در دادهها قابل استفاده ميباشد. بنابراين بهرهگيري از قدرت فرآيند دادهکاوی جهت شناسايي الگوها و مدلها و نيز ارتباط عناصر مختلف در پايگاه داده جهت كشف دانش نهفته در دادهها و نهايتاً تبديل داده به اطلاعات، روز به روز ضروريتر ميشود [11].
پايه و اساس دادهکاوی به دو مقوله آمار و هوش مصنوعي تقسيم شده است، كه روشهاي هوش مصنوعي به عنوان روشهاي يادگيري ماشين در نظر گرفته ميشوند. تفاوت اساسي بين روشهاي آماري و روشهای يادگيري ماشين بر اساس فرضها و يا طبيعت دادههايي كه پردازش ميشوند.
تفاوتهاي موجود بين روشهای آناليز آماری و روشهای دادهکاوی در جدول 2-3 نشان داده شده است.
جدول 2-3 مقایسه روشهای تحلیل آماری و دادهکاوی [11 به نقل از 14]
روشتحلیل آماریدادهکاویفرضیهآمارشناسان همیشه با یک فرضیه شروع بکار میکنند.دادهکاو به فرضیه احتیاجی ندارد.نوع دادههااز دادههای عددی استفاده میکند.ابزارهای دادهکاوی میتوانند از انواع مختلف داده و نه فقط داده عددی استفاده کنند.ایجاد روابطآمارشناسان باید رابطههایی ایجاد کنند که با فرضیه ارتباط دارد.الگوریتمهای دادهکاوی به صورت اتوماتیک روابط را ایجاد میکنند.صحت دادههاآنها میتوانند دادههای نابجا و نادرست را در طول تحلیل مشخص کنند.دادهکاوی به دادههای صحیح و درست نیاز دارد.قابلیت تفسیرآنها میتوانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.نتایج دادهکاوی نسبتاً پیچیده است و نیاز به متخصصانی جهت تحلیل و بیان نتایج به مدیران دارد.
2-8-2- مفهوم دادهکاوی
برای دادهکاوی تعاریف بسیار زیادی ارائه شده است که البته بسیاری از این تعاریف بسیار نزدیک به یکدیگرند. در بعضی منابع دادهکاوی را با اصطلاحاتی نظیر کشف دانش معادل قرار دادهاند که باید اینگونه اصلاح شود، دادهکاوی یک گام اساسی در فرایند کشف دانش است.
اصطلاحات و عبارات بسيار ديگري نيز معادل با دادهکاوی بکار رفتهاند كه معاني مشابه و گاهی متفاوت دارند مانند، كاوش دانش از پايگاه داده، استخراج دانش، تحليل الگوي داده، لايروبی داده و باستانشناسي [11].
دادهکاوی یک گام از فرایند کشف دانش از پایگاه داده است و به الگوریتمهایی که برای استخراج الگو از دادهها بکار میرود، گفته میشود. اطلاعات حاصل میتواند به عنوان ورودی برای تشکیل مدل دستهبندی و یا پیشبینی، یا بهبود یک مدل موجود بکار رود [53]. دادهکاوی جستجو و یا کاوش دانش (الگوهای دلخواه) از مقادیر زیاد دادههای موجود است [31].
در تعریفی دیگر دادهکاوی به این صورت تعریف شده است: بهکارگیری الگوریتمهای یادگیری ماشین برای یافتن الگوهای نهفته از ارتباطات موجود در بین عناصر دادهای موجود در یک مجموعه داده بسیار بزرگ که میتواند منجر به افزایش سود شود [26].
دادهکاوی يك متدولوژي بسيار قوي و با پتانسيل بالا ميباشد كه به سازمانها كمك ميكند كه بر مهمترین اطلاعات از مخزن داده هاي خود تمركز نمايند [52].
دادهکاوی به فرايند استخراج اطلاعات نهفته، قابل فهم، قابل تعقيب از پایگاه دادههای بزرگ و استفاده از آنها در تصميمگيريهاي تجاري مهم اطلاق ميشود [13].
فرایند دادهکاوی را میتوان به عنوان سیستمی تصمیمیار تلقی نمود که سازمان و مدیران آن را قادر میسازد از دادههای خام به گنجینههای دانشی دست یابند و از این دانش در مسیر اتخاذ استراتژیهای سازمانی بهره گیرند.
اگر هرم دادهها را به صورت زير در نظر بگيريم:
شکل 2-6 سیر تکامل در هرم دانش [11]
با آگاهي از تعريف دادهکاوی و نگاهي به هرم بالا بهتر ميتوان به نقش دادهکاوی در سازمانها پي برد. دادهکاوی سبب ميشود كه سازمانها از سطح داده به سطوح بالاتر دانش و الگوهاي ناشناخته برسند. الگوهاي استخراج شده ميتوانند رابطهاي بين ويژگيها و مشخصات سيستم مانند نوع تقاضا و نوع مشتري، پيشبينيهاي آينده بر اساس مشخصات سيستم، قوانين (اگر-آنگاه) بين متغيرهاي سيستم، دستهبنديها و خوشهبنديهاي اشياء و ركوردهاي شبيه به هم در يك سيستم و غيره باشند [11 به نقل از 52].
2-8-3- دادهکاوی و کشف دانش
دادهکاوی را میتوان به عنوان ابزاری جهت کشف دانش از پایگاههای داده تعریف نمود. دادهکاوی یک گام در فرایند کشف دانش از پایگاه داده است که با استفاده از الگوریتمهای کشف و تحلیل دادهها تعداد خاصی الگو یا مدل را از روی دادهها تولید میکند.
الگوی زیر مراحل استخراج دانش مشتری به کمک دادهکاوی در سازمان را نمایش میدهد.
شکل 2-7 گامهای فرایند تولید دانش از پایگاه دادهها [31و53]
این الگو گامهای فرایند کشف دانش از پایگاه داده را در [53] به صورت زیر نشان داده است:
چنانچه از نمایش الگوی فوق برداشت میشود، ابتدا باید شناسایی دامنه فعالیتهای کسبوکار صورت گرفته و دسترسی به دادهها مقدور گردد. دادهها در اینجا میتواند مجموعهای از حقایق، الگوها و یا خبرگی باشد.
در مرحله بعد با توجه به اهداف تعیین شده مورد نظر ذینفعان سازمان (مدیران، کارمندان، سرپرستان شعب، کاربران، خبرگان و مشاورین فناوری اطلاعات)، رکوردهای مورد نیاز توسط دادهکاو از میان حجم عظیم دادههای سازمان مورد نظر انتخاب میشوند. در این مرحله حجم انبوه دادهها به دادههای هدف کاهش داده میشود.
برای آمادهسازی بخش دادههای انتخابی باید عملیات پیشپردازشی روی آنها صورت گیرد. این عملیات شامل جمع آوری اطلاعات لازم برای مقداردهی به مقادیر رکوردهای از قلم افتاده، تشخیص دادههای متفاوت و هماهنگی آنها با بقیه، جمع آوری اطلاعات لازم برای اصلاح یا حذف دادههای نامناسب میباشد. محصول این مرحله دادههای پیشپردازش شده خواهد بود.
گام بعد گزینش دادهها با هدف کاهش حجم آنها و یافتن ویژگیهایی از دادهها با توجه به هدف تعیین شده برای کسبوکار خواهد بود. با کاهش حجم دادهها یا روشهای تغییرات آنها حجم دادهها میتواند به مقدار مفید و مؤثری کاهش یابد.
مرحله بعد اعمال یک یا چند الگوریتم (مانند کلاسیفایرها و یا شبکههای عصبی و ...) از بین الگوریتمهای موجود و یا ابتکاری دادهکاوی بر روی دادههاست. حاصل این مرحله یک یا چند مدل و یا الگو خواهد بود.
در گام بعد با تحلیل، ارزیابی و تفسیر الگوهای معنادار کشف شده، دانش استخراج میگردد. دانش استخراج شده میتواند به صورت قواعدی مستند شود.
یک الگو زمانی میتواند به عنوان دانش تلقی شود که :
به سادگی برای افراد قابل فهم باشد.
اعتبار آن از یک حد آستانهای پایینتر نباشد.
دانش جدیدی متناسب با اهداف تعیین شده سازمان ارائه دهد.
کاربردی باشد [1].
2-8-4- فرايند دادهکاوی
دادهکاوی، فرایندی خلاقانه است که دانش و مهارتهای گوناگونی را میطلبد. وجود یک استاندارد جهت انجام این فرایند به تبدیل مشکلات کسبوکار به مسائل دادهکاوی، گزینش روشهای دادهکاوی و تبدیل دادهها متناسب با نوع کسبوکار، معنا دادن به ارزیابی اثربخشی و مستندسازی نتایج اهمیت فراوان دارد.
چرخه CRISP-DM فرایند استانداردی است که با هدف ارائه چارچوبی برای اجرای پروژههای دادهکاوی بزرگ، یا هزینه کمتر، قابلیت اطمینان بیشتر، قابلیت مدیریت بیشتر و سریعتر توسعه یافت [50].
مدل مرجع CRISP-DM نمای کلی از چرخه عمر یک پروژه دادهکاوی را نشان میدهد. این مدل شامل فازهای یک پروژه، کارهای لازم برای انجام هر فاز و خروجیهای هر فاز است.
چرخه عمر یک پروژه دادهکاوی چنانچه در شکل 2-8 نشان داده شده است به شش فاز شکسته میشود. توالی فازها اجباری نیست بلکه این ترتیب مرسومترین، مهمترین و پر تکرارترین وابستگی بین فازها را نشان میدهد. در مورد پروژههای خاص این ترتیب بستگی به این دارد که خروجی کدام فاز و یا عمل خاص نیازمند اجرای فاز بعدی است [50].
حلقه بیرونی مربوط به طبیعت پروژههای دادهکاوی است. بدین معنی که پروژه دادهکاوی با تولید یک راهکار خاص در زمان مشخص پایان نمییابد بلکه با اجرای یک دور فرایند دادهکاوی در سازمان و اجرای آن راهکار در سازمان، ممکن است نتایجی حاصل شود که سؤالات جدیدی از کسبوکار را برانگیزد و این نیازمند تکرار دو و یا چند باره چرخه خواهد بود.
شکل 2-8 متدولوژي فرآيند استاندارد ميان صنعتي دادهکاوی (CRISP-DM) [50]
مدل فرایند CRISP-DM شامل فازهای زیر میباشد:
گام درك موقعيت كسبوكار
گام درك دادهها
گام پيشپردازش دادهها
گام مدلسازی
گام ارزيابي
گام بهکارگیری
در ادامه هر یک از این گامها به طور خلاصه توضیح داده میشود.
درک موقعیت کسب و کار: این گام، بخش آغازین مدل CRISP-DM میباشد که بر روی درک و تعیین اهداف و نیازمندیها از منظر کسبوکار و تبدیل این دانش به تعریف یک مسئله دادهکاوی و طراحی طرح اولیه پروژه برای دستیابی به این اهداف تمرکز دارد. در اين گام بايد متخصص دادهكاو از توان و تجربه متخصص كسب و كار بهرهمند گردد [50]. البته در يك پروژه موفق دادهکاوی اين مشاركت در گام اوليه متوقف نخواهد شد، بلكه در سراسر فرآيند دادهکاوی ادامه خواهد داشت [53].
درك دادهها: گام درک دادهها با جمع آوری دادههای اولیه آغاز میشود و با فعالیتهایی جهت آشنایی با دادهها، شناسایی مشکلات موجود در کیفیت دادهها، اکتشاف دادهها و یا تشخیص زیرمجموعههای جالب جهت تشکیل فرضیهها برای اطلاعات مخفی پیگیری میشود. ارتباط نزدیکی بین دو گام درک موقعیت کسب و کار و درک دادهها وجود دارد. ساختار مسئله دادهکاوی و طرح پروژه به درک حداقلی از دادههای در دسترس نیازمند است [50].
در کل میتوان گفت گام درک دادهها بر اساس سه گام جمع آوری دادهها، بهکارگیری تحلیل اکتشافی برای دستیابی به یک دید اولیه و ارزیابی کیفیت دادهها استوار است [11].
پيشپردازش دادهها: فاز آمادهسازی دادهها کلیه فعالیتهای مربوط به ساخت مجموعه داده (دادهای که میتواند به عنوان ورودی ابزار مدلسازی مورد استفاده قرار گیرد) از دادههای خام اولیه را در بر میگیرد. پس از گردآوري دادهها بايد خطاهاي احتمالي موجود در آنها را از بين برده و دادهها را تميز نمود [31]. فعالیتهای مربوط به آمادهسازی دادهها شامل ساخت جدول، ثبت دادهها و انتخاب ویژگی، پاکسازی دادهها، تشکیل ویژگیهای جدید و تغییر شکل دادهها متناسب با ابزارهای مدلسازی میباشد [50].
اهمیت پیشپردازش دادهها به این دلیل است که اكثر دادههايي كه در پايگاههاي دادهاي وجود دارند و پيشپردازش نشدهاند، ناقص و نويزدار هستند و داراي مشكلات احتمالي زير ميباشند:
مقادير دور افتاده يا حدي، مقادیر گم شده، صفات تكراري، دادههايي كه در فرم مناسب براي مدلسازي نيستند و دادههايي كه با عقل سليم جور در نميآيند. براي اين منظور در دادهکاوی روشهاي مختلف تميز كردن و تغيير شكل دادهها ارائه گرديده است [11].
مدلسازي: در این گام، روشهای متفاوت مدلسازی انتخاب و بکار گرفته میشود، و پارامترهای آنها به صورت مقادیر بهینه تنظیم میشود. بعضی از روشها ساختار دادهای خاصی را میطلبند. بین فازهای آمادهسازی و مدلسازی دادهها ارتباط نزدیکی برقرار است. اغلب مشکلات دادهها حین مدلسازی درک میشود و یا ایدههایی برای ساخت دادههای جدید به ذهن میرسد [50].
این گام شامل بخشهای زیر است [11]:
انتخاب و استفاده از تكنيك مدلسازي مناسب
دستكاري و تنظيم مدل براي دستيابي به نتايج بهينه
در صورت نياز برگشت به گام پيشپردازش
ارزيابي: در پروژهای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام بهکارگیری، مدلها باید به طور دقیق ارزیابی شوند و گامهای اجرایی ساخت مدلها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [50]. مدلهاي دادهکاوی بايد به فرآيند تصميمگيري كمك كنند [31]. پس مدل زماني مفيد است كه تفسير پذير باشد زيرا انسانها مايل به استفاده از اصول پیچیده در فرایند تصمیمگیری جعبه سیاه مانند خود نیستند [11].
بهکارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندیها، فاز بهکارگیری میتواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند دادهکاوی تکرارپذیر باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گامهای استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [50].
هر کدام از گامهای مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول 2-4 آمده است.
جدول 2-4 فعالیتهای مربوط به فازهای CRISP-DM و خروجی هر فعالیت [50]
درك كسبوكاردرك دادههاآمادهسازی دادههامدلسازيارزيابيبهکارگیری-تعیین اهداف کسبوکاردرک اهداف کسب و کار و معیارهای موفقیت آن-ارزیابی وضعیتموجودی منابع، نیازمندیها، فرضیات، محدودیتها، ریسکها و احتمالات، مجموعه اصطلاحات و هزینهها و فایدهها-تعیین اهداف دادهکاویاهداف دادهکاوی، عوامل موفقیت دادهکاوی-تولید طرح پروژهطرح پروژهتخمین اولیه ابزارها و تکنیکها-جمع آوری دادههای اولیهگزارش جمع آوری دادههای اولیه-توصیف دادههاگزارش توصیف دادهها-مرور دادههاگزارش مرور دادهها-ارزیابی کیفیت دادههاگزارش کیفیت دادهها-جمع آوری دادههاتوصیف مجموعه داده-انتخاب دادهمنطق انتخاب/حذف دادهها-پاکسازی دادههاگزارش پاکسازی دادهها-ساختاردهی دادههاتفکیک ویژگیهاتولید رکوردها-یکپارچگی دادهها-دادههای یکپارچه-سازماندهی دادههادادههای مجدد سازماندهی شده-انتخاب روش مدلسازیروش مدلسازیفرضیات مدلسازی-تولید تستطرح تست-ساخت مدل-تنظیمات پارامترهای مدلشرح مدل-ارزیابی مدلارزیابی مدلپارامترهای اصلاح شده-ارزیابی نتایجارزیابی دادههاکاوش نتایج بر مبنای معیارهای موفقیت کسبوکارمدلهای بهبود یافته-بازبینی فرایندبازبینی فرایند-تعیین اقدامات بعدیلیستی از اقدامات و تصمیمات ممکن-بهکارگیری طرحطرح توسعه-نظارت و نگهداری طرحطرح نگهداری و نظارت-گزارش نهایی پروژهگزارش نهاییارائه نهایی-بازبینی پروژهمستندات تجربی
2-8-5- معرفی روشهای دادهکاوی
روشهای دادهکاوی در یک تقسیمبندی کلی به دو دسته روشهای توصیفی و روشهای پیشبینانه تقسیم میشوند. روشهای توصیفی به خواص عمومی دادهها میپردازند. بدین ترتیب که الگوهایی قابل تفسیر توسط انسان از دادهها استخراج میکنند. در رویکرد پیشبینانه هدف پیشبینی رفتارهای آینده است. در این روشها از چند متغیر جهت پیشبینی مقادیر آینده استفاده میشود. تقسیمبندی برخی روشهای دادهکاوی در شکل 2-9 نشان داده شده است.
شکل 2-9 دستهبندی کلی عملکردهای دادهکاوی
در ادامه برخی از این روشها به طور مختصر معرفی خواهند شد.
2-8-5-1- دستهبندی
این روش از رایجترین، محبوبترین و قابل درکترین روشهای دادهکاوی میباشد. در این روش هر یک از نمونهها به یکی از گروهها یا دستهها تخصیص مییابد. در روش دستهبندی هر نمونه با تعدادی خصوصیت که یکی از این خصوصیتها صفت کلاس مربوط به آن نمونه است، شناخته میشود. برای دستهبندی نمونهها جهت استخراج مدل، وجود صفت کلاس برای هر نمونه الزامی است. هدف از دستهبندی، یافتن مدلی بر اساس خصوصیت قابل پیشبینی یا کلاس هر نمونه به عنوان تابعی از سایر ویژگیهای آن نمونه میباشد [1]. این روش به انتساب نمونهها به دستهها بر اساس صفتی قابل پیشبینی اشاره دارد [2].
مطابق شکل 2-9 از الگوریتمهای شاخص این روش میتوان درخت تصمیمگیری، شبکههای عصبی و ناوی بیز را نام برد. این الگوریتمها معمولاً به یک مقدار هدف نیاز دارند تا هر داده را به یکی از مجموعه کلاسهای از پیش تعریف شده منتسب کنند. به چنین الگوریتمهایی که برای یادگیری نیاز به مقدار هدف دارند الگوریتمهای با ناظر گویند.
دستهبندی در مسائل تجاری مانند مدیریت ریسک، تبلیغات هدفمند و تحلیل رویگردانی مشتری کاربرد دارد.
2-8-5-2- درخت تصمیم
مهمترین مدلی که در این رویکرد استفاده میشود، درخت تصمیمگیری میباشد. در این روش درختی ساخته میشود و در هر گره از آن آزمونی بر روی یک از ویژگیها انجام میشود و داده با توجه به مقدار مشخصههای خود در راستای یکی از فرزندان گره هدایت میشود، تا جایی که داده به برگ برسد. هر برگ نشان دهنده یک دسته میباشد [11].
جدول 2-5 نمونهای از یک مسئله دستهبندی را نشان میدهد. X1 تا Xm ویژگیهایی هستند که به کمک آنها کلاس (C1 یا C2) هر یک از نمونههای U1 تا Un مشخص میشود. aij مقدار مربوط به ویژگی j از نمونه i است.
جدول 2-5 نمونه دادههای مورد نیاز در یک مسئله مدلسازی به روش دستهبندی [1]
YXm. . .X2X1C2a1m. . .a12a11U1C1a2m. . .a22a21U2....... . ..........C2anm. . .an2an1Un
از دلایل استفاده از درخت تصمیم میتوان به موارد زیر اشاره نمود:
1. پس از تشکیل درخت تصمیم پیچیدگی محاسباتی به صورت لگاریتمی شده و کاهش مییابد.
2. میتوان قواعدی به صورت اگر-آنگاه از درخت تصمیم استخراج و از آن به صورت جداگانه استفاده نمود [11]. درخت تصمیم برخلاف شبکههای عصبی به تولید قانون میپردازد و نتایج بدست آمده از درخت در قالب یک سری قوانین توضیح داده میشود.
3. در درخت تصمیم برخلاف شبکههای عصبی لزومی ندارد دادهها به صورت عددی باشند.
از ویژگیهای درخت تصمیم میتوان به عدم حذف دادهها در زمان دستهبندی، استفاده آسان، درک ساده مدل حاصل با وجود پیچیدگی کار الگوریتم ساخت درخت تصمیم و ... اشاره نمود [31].
2-8-5-3- شبکههای عصبی
شبكه عصبي مصنوعي يك سيستم پردازش اطلاعات است كه ویژگیهای عملكردي مشابه شبكه عصبي بيولوژيكي دارد. شبكههاي عصبي مصنوعي به عنوان مدلهای رياضي تعميم يافته از نرونهای بيولوژيكي يا شناخت انسان بر اساس مفروضات زير توسعه يافته است:
پردازش اطلاعات در واحدهاي بسيار سادهاي كه نرون ناميده میشوند رخ میدهد.
سیگنالهای نرونها از طريق اتصالات انتقال مییابد.
هر ارتباط يك وزن دارد كه در يك شبكه عصبي متداول، در سيگنال ورودي ضرب میشود.
هر نرون يك تابع فعال سازي دارد (كه عمدتاً غيرخطي است) كه ورودي شبكه جمع و سیگنالهای ورودي وزن را به خروجی تبديل میکند.
میتوان هر شبكه عصبي را با ویژگیهای زير تشريح نمود:
الگوي ارتباطات بين وزنها (كه معماري شبكه ناميده میشود)
روش تعيين وزنها در ارتباطات (که يادگيري يا آموزش ناميده میشود)
تابع فعالسازي
عمدتاً شبکههای مختلف در جنبه هاي فوق متفاوت هستند و بدين طريق از هم متمايز میشوند.
هر شبكه عصبي از تعداد زيادي واحد ساده پردازش كننده كه نرونها، واحدها، سلولها و يا گرهها ناميده ميشوند، تشكيل شده است. هر نرون با نرونهای ديگر به وسيله اتصالات مستقيم مرتبط است كه هر اتصال با يك وزن نمايندگي میشود. در واقع وزنها اطلاعاتي را كه براي حل مسئله مورد استفاده قرار میگیرد بازنمایی ميكند.
هر نرون يك وضعيت دروني دارد كه فعالسازي يا سطح فعاليت ناميده میشود و تابعی از ورودیهایی است كه دريافت میکند. هر نرون فعاليت خود را به عنوان يك سيگنال به ساير نرونها ارسال میکند. البته لازم به توجه است كه هر نرون تنها يك سيگنال در هر لحظه از زمان قادر است ارسال كند [11].
2-8-5-4- پیش بینی
این تکنیک از روشهای مهم و قدیمی دادهکاوی است که میتواند جهت پاسخگویی به مسائلی از قبیل میزان جذب سرمایهگذاری ماه آینده بانک، پیشبینی ارزش سهام در روز آینده و ... مورد استفاده قرار گیرد.
در پیشبینی مجموعهای از اطلاعات به عنوان ورودی به الگوریتم داده میشود. خروجی یک معادله ریاضی متناسب با این ورودی خواهد بود. برای پیشبینی یک متغیر در آینده دادهها را به فرمول ایجاد شده میدهیم و حاصل پیشبینی مورد نظر خواهد بود.
تفاوت این روش با روشهای دستهبندی در این است که در روش دستهبندی متغیر هدف، مقادیری گسسته دارد اما در مورد روش پیشبینی مقادیر هدف پیوستهاند [1].
از مدلهای رایج در زمینه پیشبینی میتوان به رگرسیون اشاره نمود. رگرسیون خطی و منطقی از پرکاربردترین روشهای رگرسیوناند. رگرسیون خطی رویکردی برای مدلسازی رابطه بین متغیرهای اسکار Y و متغیرهای پیشبینی کننده X است.
امروزه برای مدلسازی روابط غیرخطی و پیچیده بین متغیرهای ورودی خروجی از روشهایی مانند شبکه عصبی استفاده میشود.
2-8-5-5- خوشهبندی
خوشهبندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی با هم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با دادههای موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با دادههای موجود در سایر خوشهها متفاوتاند.
در خوشهبندی موضوعات زیر مورد توجه است:
چه تعداد از خوشهها میتواند دانش نهفته در دادهها را کشف نماید؟ مسئله تعداد خوشهها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت دادهها چیست؟ این معیارها خود به واسطه روشهای مختلفی محاسبه میگردد، اما در بیشتر روشهای خوشهبندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روشهای مختلفی چون فاصله اقلیدسی، فاصله مینکوفسکی و یا فاصله مانهاتان محاسبه شود.
بعد از تعیین تعداد خوشهها و معیار شباهت یا فاصله دادهها، دادهها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشهبندی یک الگوریتم بدون ناظر در دادهکاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقهبندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند.
به طور خاص در صنعت بانکداری از الگوریتمهای خوشهبندی در بخشبندی مشتریان به گروههای مشخص بر طبق الگوهای رفتاری آنها کاربرد دارد. شناسایی گروههای مشتریان بسیار برای بانک حائز اهمیت بوده و میتواند در تصمیمگیریهای کنونی و اتخاذ راهبردهای میانمدت و بلندمدت بانک راهگشا باشد.
2-8-5-5- انواع خوشهبندی
امروزه الگوریتمهای متنوعی در زمینه خوشهبندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشهبندی سلسلهمراتبی
در این نوع خوشهبندی خوشهها به صورت متوالی به دو شیوه انباشتی و یا تقسیمکنندگی توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل دادهها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشهها ادامه مییابد.
2- خوشهبندی مبتنی بر مدل
در این روش یک مدل احتمالی مشخص برای دادهها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که دادهها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشهبندی مبتنی بر بخشبندی
نام دیگر این روش خوشهبندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف میباشد. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینهسازی آن، ساختار معنیداری (خوشهها) را در دادههای مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشهبندی مبتنی بر بخشبندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیشترین شباهت و با مراکز دیگر خوشهها بیشترین عدم شباهت را داشته باشند.
2-8-5-5-2- معیارهای ارزیابی در خوشهبندی
تکنیکهای خوشهبندی برای تخصیص هر داده به خوشه مربوطه بر اساس یکی از معیارهای شباهت و یا عدم شباهت (یا فاصله) عمل میکنند. داده، در صورتی که بیشترین شباهت را با دادههای یک خوشه و یا بیشترین فاصله را با خوشههای دیگر داشته باشد، به خوشه منتسب میشود.
زمانی که مشاهدات به گونهای خوشهبندی شوند که هر خوشه در حداکثر تراکم باشد و حداکثر فاصله را با دیگر خوشهها داشته باشند، خوشه بندی خوبی انجامگرفته است [11].
معیار شباهت، معیاری عددی است که میزان شباهت دو شیء داده را نسبت به یکدیگر نشان میدهد. هر چقدر دو شیء به یکدیگر شبیهتر باشند این معیار مقدار بالاتری دارد و معمولاً مقداری بین 0 و 1 دارد. معیارهای ارزیابی شباهت در جدول 2-6 نشان داده شده است.
n: تعداد ابعاد (ویژگیهای) ورودی، p و q: اشیاء داده ورودی، pk و qk: kامین ویژگی یا شیء داده ورودی میباشند.
جدول 2-6 معیارهای محاسبه شباهت در خوشهبندی
نام معیارفرمول محاسبهکسینcos(d1∙d2)d1d2d1 و d2 دو بردار متن میباشندجاکاردT(p,q)=p∙qp2+p2-p∙q
معیار فاصله نیز مقداری عددی است که میزان تفاوت دو شیء داده را نشان میدهد. هر چقدر دو شیء داده به یکدیگر شبیهتر باشند این معیار مقدار پایینتری خواهد داشت. معیارهای ارزیابی فاصله در جدول 2-7 ارائه شده است.
جدول 2-7 معیارهای محاسبه فاصله در خوشهبندی
نام معیارفرمول محاسبهفاصله اقلیدسیdist=k=1n(pk-qk)2مینکوسکیdist=(k=1npk-qkr)1rسیتی بلاک یا مانهاتانdist=(k=1npk-qkr)1r if r=1ماهالانوبیسmahalanobis(p,q)=(p-q)-1(p-q)T
2-8-5-6- تحلیل انحراف
این روش جهت یافتن دادههایی که بسیار متفاوت از دادههای دیگر عمل میکنند یا تغییرات چشمگیری نسبت به رفتار مشاهده شده قبلی دارند. این دادهها، دادهها پرت نام دارند. از کاربردهای این روش میتوان به کشف تقلب در کارتهای اعتباری اشاره نمود جایی که شناسایی رفتار غیر نرمال از بین میلیونها تراکنش کاری دشوار و تا حدودی ناممکن مینماید. کشف نفوذ در شبکه و تشخیص کلاهبرداری در معاملات از دیگر کاربردهای این روش میباشد. این الگوریتم در سادهترین حالت با استفاده از سطح زیر منحنی نرمال و در نظر گرفتن مقدار معینی از انحراف معیار نمونههای متفاوت با سایرین را شناسایی مینماید [1].
یک سوءاستفاده مالی در بانک میتواند مدیران بانک را متحمل هزینههای زیادی نماید. با بهکارگیری این الگوریتم میتوان به کشف رفتارهای مشکوک مشتریان پرداخت و در نتیجه هزینههای ناشی از اینگونه سوءاستفادهها را کاهش داد.
2-8-5-7- قواعد وابستگی (انجمنی)
این روش برای یافتن الگوهای پر تکرار، وابستگیها، ارتباطات یا ساختارهای علی موجود در میان مجموعهای از عناصر و یا اشیاء در پایگاه دادههای تراکنشی و یا پایگاه دادههای رابطهای و دیگر مخازن اطلاعات به کار میرود. مثلاً اینکه چه نوع خدمات بانکی اغلب به صورت همزمان توسط یک مشتری مطالبه میشود میتواند به صورت یک قاعده از پایگاه دادههای بانک استخراج شود [31].
قواعد وابستگی برای بیان حقایق موجود در مجموعهای از دادهها به کار میروند. بدین ترتیب که اگر بعضی وقایع رخ دهند آنگاه وقایع دیگری نیز رخ خواهند داد. اگر یک قاعده وابستگی را با X⟹Y نشان دهیم (یعنی در صورتی که X اتفاق بیافتد Y هم اتفاق میافتد)، مسئله قواعد وابستگی در اصل یافتن قواعدی است که از حداقل پشتیبانی برقرار بوده و به اندازه کافی به آنها اعتماد داشته باشیم.
2-8-5-8- تحلیل توالی
تحلیل توالی برای یافتن الگوهای موجود در بین یک مجموعه داده است. تحلیل توالی و قواعد انجمنی هر دو شامل مجموعهای از حالات، تراکنشها و یا ارتباطات هستند. تفاوت این دو روش در این است که تقدم و تأخر رخدادها در تحلیل توالی بسیار حائز اهمیت است و توالی انتقالهای بین حالتهای مختلف تحلیل میشود. در صورتی که در قواعد انجمنی تراکنشهای مختلف یک مشتری ارزش یکسان دارند. مثلاً در تحلیل توالی اینکه یک مشتری بانک از خدمات انتقال وجه بعد از واریز سود بهره گیرد یا پیش از واریز سود اهمیت دارد. اما در کشف قواعد انجمنی اینکه کدام فعالیت زودتر یا دیرتر انجام شده اهمیتی ندارد و دو تراکنش واریز سود و برداشت وجه مجموعه اقلام یکسانی را میسازند.
شکل 2-10 توالی از بازدیدهای وب را نشان میدهد. هر گره شامل یک گروه URL است. هر خط جهت دار انتقال بین این گرهها را نشان میدهد و وزن هر انتقال نشان دهنده احتمال انتقال بین این گرههاست [1].
شکل 2-10 نمونهای از توالی بازدیدها در وب
2-8-6- نرمافزار دادهکاوی
ابزارهای دادهکاوی که جهت مدیریت دانش مشتری انتخاب میشوند باید قادر باشند تا اطلاعات ضروری را از میان انبوه دادههای در دسترس استخراج کنند. برای حصول این منظور ابزارهای دادهکاوی باید خصوصیات زیر را داشته باشند:
محیط کاربر پسند.
بهرهوری بالا
قابلیت انجام عملیات اساسی لازم
هزینه اجرای نسبتاً پایین [30].
در حال حاضر چندین نرمافزار جهت دادهکاوی توسط شرکتهای معتبر نرمافزاری عرضه شده است. نرمافزار مورد استفاده در این تحقیق SPSS Clementine 12.0 میباشد. SPSS از شرکتهای عمده آماری است که حاوی تعدادی از محصولات دادهکاوی میباشد. SPSS توسط شرکت بریتانیایی ISL در اواخر سال 1998 ارائه شد و بسته دادهکاوی Clementine را ارائه نمود.
Clementine از اولین نرم افزارهایی بود که به مفهوم جریان دادهکاوی پرداخت و به کاربر این امکان را داد که کارهایی چون پاکسازی دادهها، تبدیل دادهها و آموزش مدل را در همان محیط گردش کار انجام دهند. این نرمافزار شامل ابزارهایی برای مدیریت چرخه پروژه دادهکاوی دارا میباشد.
2-8-7- کاربردهای دادهکاوی
امروزه کاربردهای بسیار زیادی از دادهکاوی در بسیاری از زمینهها از جمله بازاریابی، علوم پزشکی، شرکتهای بیمه و مخابرات، شرکتهای تبلیغاتی و همه سازمانهایی که به علت تراکنشهای بالا و سروکار داشتن با مشتریان، دارای پایگاه دادههای بزرگ میباشند، شناخته شده است.
این علم میتواند پیشبینیهایی با دقت بالا برای سازمانها انجام دهد، همچنین به مدیران و متخصصان و کارشناسان کمک میکند که بتوانند آینده شرکت و کسب و کار خود را با دقتهای بسیار بالا پیشبینی کنند، دادهکاوی به مراکز صنعتی کمک میکند که درک و بینش صحیحی از نحوه کارکرد دستگاههای صنعتی پیچیده خود بدست آورند. در واقع دادهکاوی ابزاری بسیار کارا برای استفاده از دادههایی است که تولید میشوند اما استفادهای از آنها نمیشود.
دادهکاوی علمی است که باعث تغییر و تحول در هر صنعت و کسب و کاری میشود و اکنون بسیاری از شرکتهای معتبر در سرتاسر دنیا توانستهاند با استفاده از روشهای دادهکاوی سود سالیانه خود را به اندازه چشم گیری افزایش دهند تا جایی که این شرکتها در کنار واحدهایی مانند تحقیق و توسعه، تکنولوژی اطلاعات، برنامهریزی و غیره، اقدام به تأسیس واحدهای دادهکاوی نمودهاند.
همچنین کاربردهای زیادی از دادهکاوی در زمینه صنعت بانکداری شناخته و بکار گرفته شده است. از این میان میتوان به کاربرد این ابزار در بازاریابی و مدیریت ارتباط با مشتریان (نظیر پروفایل سازی جهت جذب، حفظ و توسعه مشتری، مراقبت از مشتری، تحلیل رویگردانی مشتری)، کاربرد دادهکاوی در کشف تقلب و سوءاستفادههای مالی (مانند فساد مالی، سوءاستفاده از داراییها و تقلب در گزارشگری مالی)، کاربرد دادهکاوی در پیشبینی عملکرد بانک، دادهکاوی جهت ارزیابی اعتبار مشتریان بانک و دادهکاوی جهت ارزیابی عملکرد بانکها اشاره نمود [1].
2-8-7-1- دادهکاوی در صنعت بانكداری
بخش بانكداري طبق الگوي پورتر براي فعاليت در محيط رقابتي امروز با پنج نيروي رقابتي مواجه است كه يكي از آنها قدرت چانه زني مشتري است. افزايش رقابت بين بانکها، تغيير قوانين و معرفي فناوریهای جديد و خصوصاً زيرساخت اينترنتي سبب افزايش آگاهي مشتريان به همه امور شده است و در نتيجه قدرت چانه زني مشتري را بيشتر كرده است، به طوري كه مشتري قادر است در كمترين زمان به بانك ديگري رجوع كند [11].
شکل 2-11 نیروهای رقابتی پورتر [11 به نقل از 6]
صنعت بانكداري در جهان تحت تغييرات شديد در طريقه انجام كسب و كار میباشند. بانکهای پیشرو از ابزارهاي دادهکاوی براي بخشبندي، تعيين سودمندی، دسته بندي اعتبار، پيشبيني قصور در بازپرداختها، بازاريابي، تشخيص تراکنشهای متقلبانه و غيره استفاده میکنند. این ابزار به عنوان یک ابزار رقابتی در بانک شناخته شده است [11].
داده يكي از با ارزشترین دارایيهاي شرکتها میباشد، اما فقط در صورتي كه بدانيم چگونه دانش در آنرا آشكار كنيم. داده كاوی امکان استخراج دانش موجود در دادههاي تاريخي و پيش بيني پيامدهاي موقعيتهاي آينده را در اختیار میگذارد. دادهکاوی ابزار ارزشمندي میباشد كه با کمک آن يك سازمان میتواند با شناسايي اطلاعات مفيد بالقوه از مقدار اطلاعات جمع آوري شده، مزيت واضحي نسبت به رقبايش كسب نمايد [11].
كاهش هزينهاي ذخيره سازي دادهها و افزايش راحتي در ذخيرهسازي دادهها، توسعه الگوریتمهای قوي و مؤثر يادگيري ماشين براي پردازش دادهها و كاهش هزينه قدرت محاسباتي از عواملی است که باعث گسترش و علاقه به دادهکاوی گشته است [11].
2-9- پیشینه تحقیق
از آنجاکه هوشمندی سازمانی بر کشف دانش به واسطه بهرهگیری از منابع دادهای تأکید داشته و این امکان جهت پشتیبانی اتخاذ تصمیمات در سازمانها کاربرد دارد، جای تعجب نیست که اخیراً مسائلی چون مدیریت دانش مشتری، مدیریت ارتباط با مشتری، دادهکاوی و ترکیب این زمینهها مطالعات بسیاری را به خود اختصاص دادهاند. در این میان بانکها به دلیل ماهیت ارتباط خود با مشتریان و حجم زیاد تراکنشها و دادههای برجای مانده از آنها توجه ویژهای را میطلبند.
مدهوشی و همکاران در [21] اثر مدیریت دانش مشتری (CKM) بر مدیریت ارتباط با مشتری (CRM) را توسط ابزارهای آماری بررسی و تحلیل نمودند. در این مطالعه برای جمع آوری دادهها، پرسشنامهای بین 1440 نفر از مدیران، معاونان و کارشناسان شعب بانک ملی استان مازندران توزیع شد. دادههای حاصل توسط نرمافزارهای SPSS و LISREL مورد تجزیه و تحلیل قرار گرفت. تست نتایج آزمون با روش آلفای کرونباخ، ضریب ثابت 94.78 را نشان داد. نتایج آزمون کولموگروف-اسمیرنوف نشان داد که متغیرهای CKM و CRM نرمال هستند. به منظور تست اولویت اجزای CKM و CRM آزمون کروسکال-والیس را اجرا شد. سپس با استفاده از تست رگرسیون همبستگی، ارتباط بین CKM و CRM مورد مطالعه قرار گرفت. در نتیجه آنها نشان دادند که ارتباط معنیداری بین CKM و CRM وجود دارد. در نهایت تحلیل برازش منحنی ریشه متوسط خطای مربعی کمتر 0.10 و شاخصهای مناسب بودن برازش بیشتر از 0.90 را نشان داد که این نتایج حاکی از تأثیر CKM بر CRM در بانک ملی ایران، شعب مازندران بوده است.
همانطور که پیش از این اشاره شد تا به امروز زمینههای بسیاری از کاربرد دادهکاوی در صنعت بانکداری شناخته شده و این زمینهها مطالعات و تحقیقات زیادی را به خود تخصیص دادهاند. از جمله این کاربردها میتوان به کاربرد دادهکاوی در بخشبندی مشتریان و مدلسازی رفتاری آنها با اهداف پیشبینی ارزش طول عمر مشتری (CLV) یا ارائه سرویس مناسب به مشتریان بالقوه در مسیر اجرای CRM، کاربرد دادهکاوی در رتبهبندی اعتبار مشتریان متقاضی وام، کاربرد دادهکاوی در زمینه تحلیل رویگردانی مشتریان بانک، کاربرد دادهکاوی در زمینه کشف تقلب و سوءاستفادههای مالی، کاربرد دادهکاوی در زمینه پیشبینی عملکرد بانک و کاربرد دادهکاوی در ارزیابی عملکرد بانکها و ... اشاره نمود [1].
از این رو در بخش پیشینه تحقیق، بررسی مطالعات صورت گرفته به تفکیک کاربرد مطرح خواهد شد.
2-9-1- کاربرد دادهکاوی در بخشبندی و مدلسازی رفتاری مشتریان در صنعت بانکداری
با در نظر گرفتن این اصل که برای موفقیت در کسب و کار درک کامل مشتریان ضروری است و از آنجا که مشتریان سازمان نیازها و روحیات متفاوتی دارند میتوان گفت استفاده از استراتژیهایی چون بازاریابی مستقیم جهت ارائه و معرفی خدمات و محصولات جدید سازمان به مشتریان چندان کارامد نخواهد بود. از این رو تکنیکهای رتبهبندی مشتریان به مدیران امکان خواهد داد تا با هر مشتری بر اساس علایق و خواستههای او برخورد نموده و از ویژگیهای مربوط به هر دسته جهت اتخاذ استراتژیهای متناسب بهره گیرد.
مؤمنی و همکاران در [8] به لزوم ارتباط با مشتری در بانکها پرداختهاند. در این مقاله اشاره شده که طبق قاعده معروف 80/20 پارتو معمولاً 20 درصد مشتریان، 80 درصد سودآوری سازمان را منجر میشوند. بنابراین دستهبندی مشتریان میتواند ابزار شناسایی این گروه طلایی و ارائه خدمات بیشتر به آنها بوده و سود بیشتر سازمان را برای سازمان به ارمغان آورد. در ادامه به کاربردهای دادهکاوی در صنعت بانکداری اشاره شده و به طور خاص دادهکاوی جهت امتیازدهی و برآورد اعتبار مشتریان پرداخته شده است. در این مطالعه مشتریان از نظر اعتبار به چهار دسته تقسیم شده و مشتریان متقاضی اعتبار جدید نیز بر مبنای مدل حاصل دستهبندی میشوند.
هسيه در [35] به تحقيقي تحت عنوان «مدل يكپارچه دادهکاوی و رتبهبندي رفتاري براي تجزيه و تحليل رفتار مشتريان بانک» پرداخته است. اين تحقيق مدلي ادغامی از دادهکاوی و مدل رتبهبندي مشتريان جهت مديريت كارتهاي اعتباري مشتریان در بانك ارائه ميدهد. در اين تحقيق جهت ساخت مدلي براي شناسايي الگوي رفتاري مشتريان از شبكههاي عصبي و روش خود سازمان دهنده، استفاده گرديده است. در ابتدا مشتريان بانك با استفاده از تكنيكهای SOM خوشهبندي گرديده و سپس با استفاده از قوانين وابستگي متغيرهاي رفتاري كه بيشترين ارتباط را با يكديگر دارند شناسايي گرديدهاند. اين تحقيق مشتريان بانك را به سه گروه اصلي تقسيم مينمايد. اين مطالعه نشان ميدهد كه شناسايي مشخصههاي مشتريان با استفاده از مدل رتبهبندي رفتاري مفيد ميباشد و توسعه استراتژيهاي بازاريابي را تسهيل مينمايد.
حسینی در [11] از تكنيكهاي هوشمند دادهکاوی جهت مدیریت ارتباط با مشتریان بانک پارسیان بهره گرفته است. او در پایاننامه خود با تركيب دو دسته از متغيرها، 30 متغير براي بررسي الگوي رفتاري مشتريان شناسايي نموده و با استفاده از شبكه عصبي كوهنن ماتريس نرونهاي خروجي شبكه 3*5 را تشخيص داده و مشتريان را در 13 خوشه تقسیم نمود. در ادامه این تحقیق ارائه سرويسهاي بانكي مناسب به مشتريان بالقوه با استفاده از تكنيكهاي دادهکاوی را مورد بررسی قرار داده و نتايج بدست آمده حاكي از آنست كه از 21 سرويس در نظر گرفته شده بانک پارسیان كه شامل اعلام موجودي، دريافت صورت حساب، پرداخت قبض، برداشت وجه، انتقال وجه، عمليات مربوط به چك از كانالهاي مختلف بانكي شامل دستگاه ATM، اينترنت، موبايل، تلفن و پايانههاي خريد POS ميباشد، 12 سرويس در گروه مورد نظر بيشترين استفاده را داشته است. کشف این مسئله که كدام دسته از مشتريان سودمندي لازم را براي نگهداري دارند و جلوگيري از هزينههاي اضافي تبليغات به صورت گسترده با ارائه سرويسهاي مناسب به مشتريان بالقوه، از نتایج این بررسی اعلام شده است.
مقاله [23] به خوشهبندی مشتریان با خصوصیات رفتاری مشابه (RFM) با هدف تخمین وفاداری مشتری جهت تسهیل اتخاذ استراتژی و پیشنهاد سرویسهای متناسب هر گروه با ترکیب روشهای دادهکاوی و ارزش طول عمر مشتری (CLV)، پرداخته است. در این تحقیق از دادههای جمعیت شناختی و دادههای مربوط به تراکنشهای مالی مشتریان (RFM) مربوط به شرکت ایرانی ساپکو به عنوان ورودی استفاده شد. این مقاله رویه جدیدی را بر مبنای مدل RFM توسعه یافته که شامل یک پارامتر اضافی است معرفی مینماید. در این رویه، روش RFM وزن دار با الگوریتم K-Means در دادهکاوی ترکیب شده و از روش دیویس- بولدین برای محاسبه مقدار بهینه K استفاده شده است و نهایتاً مشتریان بر مبنای وفاداری به محصولات شرکت ساپکو ایران دستهبندی شدند. نتایج حاصل نشان داد قابلیت سازمان برای جلب وفاداری مشتریان خود با استراتژیهایی که با توجه به این دستهبندی بکار برد در مقایسه با روش معمول انتخاب تصادفی که در اکثر سازمانها در ایران بکار میرود، افزایش چشمگیری داشته است.
2-9-2- کاربرد دادهکاوی در ارزیابی اعتبار مشتریان
عبدو و همکاران در [29] به مطالعه دادههای مشتریان یک بانک مصری که از این بانک وام گرفته بودند پرداختند. در این مطالعه مشتریان بانک از لحاظ اعتبار دستهبندی شدند. الگوریتمهای بکار رفته در این مقاله شبکههای عصبی احتمالی و چند لایه و رگرسیون لاجیت و ورودیهای این الگوریتمها اطلاعات شخصی مشتری شامل سن، درآمد ماهانه، جنسیت، وضعیت تأهل، وضعیت مسکن، مقدار وام، مدت بازپرداخت و... بوده است. در این تحقیق عملکرد شبکههای عصبی احتمالی و چند لایه با روشهای مرسوم مانند آنالیز تفکیکی، رگرسیون منطقی و آنالیز بر اساس حداقل انحراف از میزان متوسط مقایسه شده است. نتایج حاصل بیانگر این مسئله است که رگرسیون لاجیت با 88% پیشبینی صحیح عملکرد بهتری نسبت به روشهای مرسومی که نام برده شد، داشته است؛ و در مقایسه کلی شبکه عصبی با 96% دقت بهترین عملکرد را داشته است.
لی و همکاران در [22] یک روش ترکیبی جدید برای انتخاب دادههای ورودی دستهبندی مشتریان بانک جهت ارزیابی اعتبار آنان معرفی کردهاند. در این مقاله رویکردی ترکیبی که حاصل ترکیب رویکردهای انتخاب ویژگی موجود (آنالیز ترکیبی خطی، تئوری مجموعههای ناهموار، درخت تصمیم و روش Fscore) با روش ماشین بردار پشتیبان است برای انتخاب متغیرها معرفی شده و در ادامه مقایسهای بین رویکردهای ترکیبی بر پایه SVM به منظور انتخاب ویژگیها صورت گرفته است. در این تحقیق از دادههای معروف مربوط به کارتهای اعتباری UCI مربوط به کشور آلمان و استرالیا استفاده شد. تمرکز مقاله بر یافتن مرتبطترین ویژگیها با اهداف منظور است و بیان میشود که مسئله مهم نه فقط کاهش حجم متغیرهای ورودی بلکه حذف نویزهای ورودی نیز میباشد. نتایج حاصل نشان میدهند که عملکرد روشها به صورت ترکیبی در انتخاب ویژگیهای ورودی بسیار بهتر از عملکرد هر یک از این روشها به طور منفرد است.
[18] ایجاد یک ارتباط محکم و بلند مدت و مثمر ثمر با مشتریان را هسته اصلی CRM، و درک درست از مشتری را اساس افزایش ارزش طول عمر مشتری (CLV) دانسته است. در این مقاله، هدف از بخشبندی مشتری، ایجاد گروههای سودآور و در حال رشد بر پایه ویژگیهای مشترک آنهاست که سازمان را قادر میسازد تا هر گروه را با پیشنهاداتی خاص مورد هدف قرار دهد. این امر بدون استفاده از روشها و راهکارهای هوشمند برای تحلیل دادهها میسر نیست. تمرکز این مقاله بر روی بخشبندی استراتژی محور مشتریان سازمان در جهت تلاش برای به حداکثر رساندن پتانسیل مشتری که با اهمیتترین منبع در کسب و کار است، میباشد. این مقاله بر بخشبندی اعتبار مشتریان در صنعت بانکداری تمرکز دارد و در مطالعه موردی خود از شبکههای عصبی چند لایه با بازخورد رو به جلو برای بخشبندی مشتریان به دو دسته استفاده نموده است: مشتریانی که با پرداخت مشکل دارند یا با پرداخت مشکلی ندارند.
2-9-3- کاربرد دادهکاوی در زمینه کشف تقلب
چن و همکاران در [24] به دستهبندی مشتریان جهت کشف تقلب و سوءاستفادههای مالی و شناسایی بعضی از عوامل کلیدی برای تشخیص تقلب خریداران و فروشندگان در معاملات آنلاین توسط کارت اعتباری پرداختهاند. به این منظور از دادههای مربوط به یک دوره سه ماهه مزایدات آنلاین فروش لپ تاپ استفاده شده است. تکنیک مورد استفاده در این تحقیق رگرسیون لاجیت بوده که برخی از ویژگیهای مربوط به دادههای اولیه ورودی آن مبلغ اولیه پیشنهادی، مدت زمان انجام مزایده، سود مزایده، میزان اعتبار فروشنده و قیمت بهایی مزایده بوده است که اعتبار فروشنده به عنوان یک عامل مهم در تشخیص تقلب استفاده شده است. در نهایت دقت مدل پیشنهادی 91% محاسبه شده که دقت نسبتاً قابل قبولی میباشد.
2-9-4- کاربرد دادهکاوی در تحلیل رویگردانی مشتری
مسئله حفظ مشتری و افزایش وفاداری او به سازمان از مسائلی است که هسته اصلی بحث ارتباط با مشتری را تشکیل میدهد. با تحلیل دادههای بر جای مانده از مشتریانی که سازمان را ترک نمودهاند، قوانین و الگوهایی حاصل میشود که میتوان به کمک آنها مشتریانی که احتمال میرود در آینده نزدیک سازمان را ترک کنند و به سوی رقیب بروند شناسایی نمود. بدین ترتیب مدیران میتوانند با اخذ تصمیماتی جهت بهبود ارتباط با اینگونه مشتریان مانع از رویگردانی آنان گردند.
در [19] از الگوریتمهای دادهکاوی جهت ساخت مدلی به منظور پیشبینی رویگردانی مشتریانی که از کارت اعتباری استفاده میکنند استفاده شده است. این تحقیق بر روی پایگاه داده مشتریان یک بانک چینی صورت گرفته و از چهار دسته متغیر اطلاعات مشتری، اطلاعات کارت اعتباری، دادههای مربوط به ریسک مشتری و اطلاعات مربوط به تراکنشها استفاده شده که در مجموع شامل 135 متغیر میباشد. از بین این متغیرها 95 متغیر با توجه به همبستگی بین آنها برای انجام مراحل بعدی انتخاب شدند. در این تحقیق مشتری رویگردان فردی تعریف شده که در طول دوره مشاهده دوازده ماهه هیچ تعاملی را با بانک نداشته است. در این تحقیق الگوریتمهای رگرسیون و درخت تصمیم جهت دستهبندی مشتریان انتخاب شده و نتایج تحقیق نشان داد که عملکرد مدلهای رگرسیونی کمی بهتر از عملکرد درختهای تصمیم بوده است. در این تحقیق یک فاصله یک ساله به عنوان دوره ارزیابی عملکرد در نظر گرفته شد.
[28] تأکید میکند که رویگردانی مشتری در بانکهای چینی مورد تأکید زیادی قرار گرفته است. این بانکها تلاش میکنند با منابع محدودی که در اختیار دارند به حداکثر رضایت مشتریان دست یابند. در این مقاله از یک روش یادگیری جدید به نام جنگلهای تصادفی متوازن بهبود یافته (IBRF) جهت تعدیل مشکل بحث برانگیز عدم توازن در توزیع دادهها در تحلیل رویگردانی مشتری استفاده شده است. در این مطالعه اثربخشی رویکرد جنگل تصادفی استاندارد و روشهای مختلف نمونهبرداری نیز در پیشبینی رویگردانی مشتری نیز بررسی شده و با عملکرد IBRF مورد مقایسه قرار گرفت. این روش بر روی دادههای واقعی مربوط به رویگردانی مشتری یک بانک چینی اعمال شده و مشخص شد که این روش به طور قابل توجهی دقت پیشبینی را در مقایسه با سایر الگوریتمها مانند شبکههای عصبی مصنوعی، درختهای تصمیم و ماشین بردار پشتیبان بهتر عمل کرده است. این روش در مقایسه با سایر الگوریتمهای جنگل تصادفی مانند الگوریتم جنگل تصادفی متوازن و الگوریتم جنگل تصادفی وزندار بهتر عمل کرده است.
[20] بیان میکند که از منظر اقتصاد و مدیریت ریسک، درک ویژگیهای مشتری جهت حفظ مشتری ضروری به نظر میرسد و لازم است سازمانها بین مشتریان معتبر و مشتریان بد تمایز قائل شوند. این مقاله تئوری مجموعههای ناهموار را که یک روش تصمیمگیری بر اساس قوانین است، برای استخراج قوانین مرتبط با رویگردانی مشتری بکار میگیرد. سپس از گراف شبکه جریان که یک رویکرد وابسته به مسیر است برای کشف قوانین و متغیرهای تصمیمگیری استفاده مینماید و در نهایت ارتباط بین قوانین و انواع مختلف روگردانی را نشان میدهد. این تحقیق بر روی نمونهای 21000 نفره از مشتریان صورت گرفته و آنها را به سه دسته مشتریان پایدار، رویگردانی داوطلبانه و رویگردان غیر داوطلبانه تقسیم میکند. متغیرهای ورودی این تحقیق را متغیرهای جمعیتشناختی، روانشناختی و تراکنشهای مربوط به این گروه از مشتریان تشکیل میدهند. نتایج نشان داد که این مدل ترکیبی پیشگویی خوبی از رویگردانی مشتری داشته و اطلاعات مفیدی برای تصمیم گیران در تدوین استراتژیهای بازاریابی فراهم میکند.
جدول 2-8 پژوهشهای انجامگرفته در زمینه کاربرد دادهکاوی در صنعت بانکداری
شماره مرجعهدفروشهای مورد استفادهورودیهاکاربرد دادهکاوی در بخشبندی و مدلسازی رفتاری مشتریان در صنعت بانکداری[23]بخشبندی مشتریان جهت تخمین وفاداری مشتریدادههای جمعیتشناختی، دادههای وزندار مربوط به تراکنشهای مالی (WRFM) مشتریان شرکت ایرانی ساپکوخوشهبندی با استفاده از روش K-means و SOM[8]دستهبندی مشتریان جهت شناسایی مشتریان طلایی طبق اصل 20/80 پارتواطلاعات مربوط به مشتریان وام گیرنده از بانکشبکههای عصبی[35]شناسایی الگوی رفتاری مشتریانمتغیرهای جمعیتشناختی، متغیرهای RFM مشتریان بانک و لیستی از خدمات قابل ارائه توسط بانکشبکههای عصبی، خوشهبندی توسط تکنیکهای خود سازمان دهنده (SOM) و الگوریتم Apriori برای شناسایی وابستگی متغیرهای رفتاری[11]بخشبندی مشتریان جهت مدیریت ارتباط با آنان و کشف سرویسهای مرتبط با هر بخشمتغیرهای جمعیتشناختی، متغیرهای RFM مشتریان بانک و لیستی از خدمات ارائه شده توسط بانک.مورد مطالعه: بانک پارسیانشبکههای عصبی، خوشهبندی توسط تکنیکهای خود سازمان دهنده (SOM) و الگوریتم Apriori برای کشف وابستگی بین خدمات ارائه شده توسط بانک با مشتریان.کاربرد دادهکاوی در ارزیابی اعتبار مشتریان[22]دستهبندی مشتریان بانک جهت ارزیابی اعتبار آنهادادههای مربوط به کارت اعتباری UCI مربوط به کشور آلمان و استرالیارویکردی ترکیبی که حاصل ترکیب رویکردهای انتخاب ویژگی موجود (آنالیز ترکیبی خطی، تئوری مجموعههای ناهموار، درخت تصمیم و روش Fscore) با روش ماشین بردار پشتیبان[18]بخشبندی اعتبار مشتریان در صنعت بانکداری به دو دسته: مشتریانی که با پرداخت مشکل دارند یا با پرداخت مشکلی ندارندمجموعه دادههای اعتباری مشتریانشبکههای عصبی چند لایه با بازخورد رو به جلو[29]دستهبندی مشتریان از لحاظ اعتبار بازپرداخت واماطلاعات شخصی مشتری (همچون سن، درآمد ماهانه، جنسیت، وضعیت مسکن و...) و اطلاعات وام (شامل مقدار وام و مدت بازپرداخت وام و ...)الگوریتم شبکههای عصبی احتمالی و چند لایه و رگرسیون لاجیتکاربرد دادهکاوی در زمینه کشف تقلب[24]دستهبندی مشتریان جهت کشف تقلب و سوءاستفادههای خریداران و فروشندگان در معاملات آنلاین توسط کارت اعتباریدادههای مربوط به یک دوره سه ماهه مزایدات آنلاین فروش لپ تاپ (شامل ویژگیهای مبلغ اولیه پیشنهادی، مدت زمان انجام مزایده، سود مزایده، میزان اعتبار فروشنده و قیمت بهایی مزایده)رگرسیون لاجیتکاربرد دادهکاوی در تحلیل رویگردانی مشتری[19]پیشبینی رویگردانی مشتریان از کارت اعتباریپایگاه داده 12 ماهه مشتریان یک بانک چینی (شامل 95 متغیر از 135 متغیر مربوط به اطلاعات مشتری، اطلاعات کارت اعتباری، دادههای مربوط به ریسک مشتری و اطلاعات مربوط به تراکنشها)الگوریتمهای رگرسیون و درخت تصمیم جهت دستهبندی مشتریان[28]رویگردانی مشتری در بانکهای چینی جهت دستیابی به حداکثر رضایت مشتریاندادههای واقعی مربوط به رویگردانی مشتری یک بانک چینیجنگلهای تصادفی متوازن بهبود یافته (IBRF)[20]استخراج قوانین مرتبط با رویگردانینمونهای 21000 نفره از مشتریان (شامل متغیرهای جمعیتشناختی، روانشناختی و تراکنشهای مربوط به این گروه از مشتریان)تئوری مجموعههای ناهموار و گراف شبکه جریان
نگاي در [25] به مرور و دسته بندي ادبيات در زمينه كاربردهاي دادهکاوی در مديريت ارتباط با مشتري پرداخته است. در اين تحقيق ضمن بيان ضرورت كاربردهاي تکنیکهای دادهکاوی در مديريت ارتباط با مشتري به دستهبندي تکنیکها و مقايسه روشهای دادهکاوی در اين زمينه پرداخته است. در انتها چارچوبي جهت انجام تحقيقات آتي در زمينه كاربردهاي دادهکاوی در حوزه مدیریت ارتباط با مشتری ارائه شده است.
2-10- جمعبندی مطالب فصل
در این فصل ابتدا به تعاریف و مفاهیم پایه مرتبط با موضوع تحقیق پرداخته شد و مفاهیمی چون مدیریت دانش، مدیریت دانش مشتری، مدیریت ارتباط با مشتری و دادهکاوی معرفی شدند. در نهایت پیشینه تحقیق مورد بررسی قرار گرفت.
به طور خلاصه میتوان گفت با تبدیل مشتری به یک دارایی مهم و ارزشمند سازمان و تعیین دانش به عنوان عامل پویایی و بقای سازمان، مباحثی چون مدیریت دانش مشتری در میان محققان جایگاه ویژهای یافت. مدیریت دانش میتواند مزایایی چون تسهیم و اشتراک دانش و صرفهجویی در زمان و ... را به دنبال داشته باشد. بهرهگیری از این مزایا منجر به حفظ بقای سازمان در محیط متلاطم و پر رقابت کسب و کار امروز خواهد بود.
مدیریت ارتباط مشتری سنتی ابزاری جهت ارتباط با مشتریان و تلاش جهت حفظ وفاداری آنها بود. اما خلأ بزرگ آن عدم بهرهمندی از مدیریت دانش مشتریان بود. اما زمانی که مدیریت ارتباط مشتری، مدیریت دانش را جهت کسب دانش مشتری بکار گیرد فرایند مدیریت دانش مشتری خواهیم داشت. ابزار حاصل کمک خواهد کرد ارتباط سازمان با مشتریان از حالت منفعل خارج شده و با مشتری به عنوان شریک دانشی سازمان ارتباط برقرار نماید.
مدیریت دانش مشتری با ترکیب هر دو رویکرد فناوری محور و دادهگرا در بحث مدیریت ارتباط با مشتری و رویکرد فرد گرا در بحث مدیریت دانش با هدف بهرهگیری از پتانسیل همافزای هر دوی آنهاست [41]. نتیجه این مسئله میتواند توصیف شیواتر دانش برای مشتری، دانش درباره مشتری و دانش از سوی مشتری باشد. بنابراین این امکان وجود خواهد داشت که محصولات و خدمات جدید به گروه مناسب از مشتریان تحویل شود. بنابراین ریسک شکست محصول جدید کاهش خواهد یافت [27].
از آنجا که به طور مشخص، در نظام بانکی، مشتری سودمندترین و مهمترین رکن این سازمان میباشد، تمرکز و مطالعه بر اطلاعات و رفتار مشتریان و کشف دانش موجود و بهرهگیری از دانش کشف شده جهت اتخاذ استراتژیهای کسبوکار میتواند در مسیر جذب و حفظ مشتریان و افزایش حس رضایت آنها مؤثر باشد.
در این مسیر ابزار دادهکاوی جهت کشف دانش مشتریان گردید. فرایند دادهکاوی به سازمانها کمک میکند تا انبوه دادههای مشتریان را تحلیل نمایند و اطلاعات مفید را از آنها استخراج نموده و مزیت رقابتی را نسبت به دیگران کسب نمایند [30].
لازم به ذکر است جزییات دقیق روش انتخابی جهت دادهکاوی در فصلهای آینده به تفصیل مورد بحث قرار خواهد گرفت.
منابع و مآخذ
[1] شهرابی، جمال، هداوندی، اسماعیل، "دادهکاوی در صنعت بانکداری"، انتشارات جهاد دانشگاهی واحد صنعتی امیرکبیر، 1390، صص 25-70.
[2] مینائی، بهروز، نصیری، مهدی، حسنی، دانیال، شناسا، ابراهیم، آموزش گام به گام دادهکاوی با Clementine، انتشارات گروه مهندسی-پژوهشی ساحر، چاپ اول، پاییز 1390.
[3] الهی، شعبان، حیدری، بهمن، مدیریت ارتباط با مشتری، تهران، شرکت چاپ و نشر بازرگانی، 1387.
[4] افراز، ع.، مدیریت دانش (مفاهیم، مدلها، اندازهگیری و پیادهسازی)، چاپ اول، انتشارات دانشگاه صنعتی امیرکبیر، 1384.
[5] تقوی، مهدی، اقتصاد کلان، انتشارات دانشگاه پیام نور، صص 176-185.
[6] علی احمدی، علیرضا. ابراهیمی، مهدی. سلیمانی ملکان، حجت، برنامه ریزی استراتژیک فناوری اطلاعات و ارتباطات، انتشارات تولید دانش، تهران، 1383.
[7] شامی زنجانی، مهدی، نجفلو، فاطمه، ارائه چارچوبی مفهومی برای نوعشناسی دانش مشتری: یک مطالعه موردی، مدیریت فناوری اطلاعات، دوره 3، شماره 9، صص 163-189، زمستان 1390.
[8] مؤمنی، حمیدرضا و همکاران، "استفاده از تکنیک دادهکاوی در مدیریت ارتباط با مشتریان در نظام بانکی"، کنفرانس ملی فناوری اطلاعات و جهاد اقتصادی، دانشگاه سلمان فارسی، کازرون، اسفند 1390.
[9] برزین پور، فرناز، اخوان، پیمان، زارع مقدم، زینب، ارائه چارچوب مفهومی عوامل و مؤلفههای مدیریت دانش مشتری در بانک ملی، نشریه علمی پژوهشی مدیریت فردا، سال هشتم، شماره 24، پاییز 1389.
[10] شهرکی، علیرضا، چهکندی، محسن، ملاشاهی، علیرضا، بررسی سیستم مدیریت ارتباط با مشتری در نظام بانکی ایران، 2010.
[11] حسینی بامکان ، سید مجتبی، پایان نامه کارشناسی ارشد، بکارگیری تکنیکهای داده کاوی جهت بهبود مدیریت ارتباط با مشتری در صنعت بانکداری (مطالعه موردی: بانک پارسیان)، استاد راهنما، دکتر محمدرضا تقوا، دانشکده حسابداری و مدیریت، دانشگاه علامه طباطبایی، 1388.
[12] ترابی، مصطفی، عوامل مؤثر بر بكارگيري خدمات موبايل بانك توسط مشتريان مورد مطالعه بانک تجارت، پایان نامه کارشناسی ارشد، به راهنمای، دکتر تقوی فرد، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی، 1378.
[13] ناوی، مانیا، شناسايي مولفه هاي تشكيل دهنده بار با استفاده از تكنيك داده كاوي، پایان نامه کارشناسی ارشد، استاد راهنما، دکتر محسن پارسا مقدم، دانشکده فنی و مهندسی، دانشگاه تربیت مدرس، 1387.
[14] حسین زاده، لیلا، دسته بند ي مشتر يان هدف در صنعت بيمه با استفاده از داده كاوي، پایان نامه کارشناسی ارشد، استاد راهنما، دکتر شعبان الهی، دانشکده انسانی، دانشگاه تربیت مدرس، 1386.
[15] جمالي فيروز آبادي، کامران، دارنده، احسان، ابراهيمي، سيد بابک، ارائه چارچوب مدیریت دانش مشتری (CKM) بر مبنای استقرار همزمان KM و CRM در سازمان، مجموعه مقالات مهندسی صنایع و نرمافزار، 1385.
[16] نوروزیان، م، کاربرد مدیریت دانش در بخش دولتی، مجله تدبیر، شماره 176، 1385.
[17] همایونی، سید مهدی، محتشمی، الهام، اسفندیاری، علیرضا، مدیریت دانش مشتری، کنفرانس بینالمللی مدیریت بازاریابی، شهریور 1385، صص 3-12.
[18] Bosjank,z. , "Credit users segmentation for improved customer relationship management in banking", Applied Computational Intelligence and Informatics (SACI), IEEE , 2011, pp. 379 - 384.
[19] Nie, Guangli, et al. "Credit card churn forecasting by logistic regression and decision tree." Expert Systems with Applications 38.12 (2011) : 15273-15285.
[20] Lin, Chiun-Sin, Gwo-Hshiung Tzeng, and Yang-Chieh Chin. "Combined rough set theory and flow network graph to predict customer churn in credit card accounts." Expert Systems with Applications 38.1 (2011) : 8-15.
[21] Madhoushi, Mehrdad and et al., "Survey of Customer Knowledge Management Impact on Customer Relationship Management: (Iranian study)", International Journal of Business and Social Science, Vol. 2, No. 20, November 2011.
[22] Lee, Byungtae and et al., "Empirical analysis of online auction fraud: Credit card phantom transactions", Expert Systems with Applications, vol 37, pp. 2991–2999, 2010.
[23] Hosseini, Seyed Mohammad Seyed, Anahita Maleki, and Mohammad Reza Gholamian. "Cluster analysis using data mining approach to develop CRM methodology to assess the customer loyalty." Expert Systems with Applications 37.7 (2010): pp. 5259-5264.
[24] Chen, Fei-Long and et al., "Combination of feature selection approaches with SVM in credit scoring", Expert Systems with Applications, vol 37, pp. 4902–4909, 2010.
[25] Ngai, Eric WT, Li Xiu, and D. C. K. Chau. "Application of data mining techniques in customer relationship management: A literature review and classification." Expert Systems with Applications 36.2 (2009): 2592-2602.
[26] Nisbet, Robert, John Fletcher Elder, and Gary Miner. Handbook of statistical analysis and data mining applications. Academic Press, 2009.
[27] Rezvani, Zeinab, New Product Development Based on Customer Knowledge Management, Master Thesis, Luleå University of Technology, pp.25-35, 2009.
[28] Xie, Yaya, et al. "Customer churn prediction using improved balanced random forests." Expert Systems with Applications 36.3 (2009) : 5445-5449.
[29] Abdou, Hussein et al., "Neural nets versus conventional techniques in credit scoring in Egyptian banking", Expert Systems with Applications, vol 35, pp. 1275–1292, 2008.
[30] Ranjan, Jayanthi, A Review of Data Mining Tools In Customer Relationship Management ,Journal of Knowledge Management Practice, Vol. 9, No. 1, March 2008.
[31] Han, Jiawei, and Micheline Kamber. Data mining: concepts and techniques. Morgan Kaufmann, 2006.
[32] Paquette, Scott. "Customer knowledge management." Encyclopedia of Knowledge Management (2006): 90.
[33] Rollins, Minna, and Aino Halinen. "Customer knowledge management competence: towards a theoretical framework." System Sciences, 2005. HICSS'05. Proceedings of the 38th Annual Hawaii International Conference on. IEEE, 2005.
[34] Feng, Tian-Xue, and Jin-Xin Tian. "Customer knowledge management and condition analysis of successful CKM implementation." Machine Learning and Cybernetics, 2005. Proceedings of 2005 International Conference on. Vol. 4. IEEE, 2005.
]35[ Hsieh, Nan-Chen. "An integrated data mining and behavioral scoring model for analyzing bank customers." Expert Systems with Applications 27.4 (2004): 623-633.
[36] Bose, Ranjit, and Vijayan Sugumaran. "Application of knowledge management technology in customer relationship management." Knowledge and process management 10.1 (2003): 3-17.
[37] Gebert, Henning, et al. "Knowledge-enabled customer relationship management: integrating customer relationship management and knowledge management concepts [1]." Journal of knowledge management 7.5 (2003): 107-123.
[38] Gibbert, Michael, Marius Leibold, and Gilbert Probst. "Five styles of customer knowledge management, and how smart companies use them to create value." European Management Journal 20, no 5 , pp 459-469 ,2002.
[39] Bose, Ranjit. "Customer relationship management: key components for IT success." industrial management & data systems 102.2 (2002): 89-97.
[40] Dyche, Jill. The CRM handbook: a business guide to customer relationship management. Addison-Wesley Professional, 2002.
[41] Garcia-Murillo, Martha, and Hala Annabi. "Customer knowledge management." Journal of the Operational Research Society , pp. 875-884 ,2002.
[42] Rowley J. Eight Enhancing Questions for Customer Knowledge Management in e-Business. Journal of Knowledge Management 2002; 6(5): 500-511.
[43] Rowley, Jennifer E. "Reflections on customer knowledge management in e-business." Qualitative Market Research: An International Journal 5.4 (2002): 268-280.
[44] Zack, Michael H. "Developing a knowledge strategy." The strategic management of intellectual capital and organizational knowledge (2002): 76-255.
[45] Bhatt, Ganesh D. "Knowledge management in organizations: examining the interaction between technologies, techniques, and people." Journal of knowledge management 5.1, pp. 68-75, 2001.
[46] Ling, Raymond, and David C. Yen. "Customer relationship management: An analysis framework and implementation strategies." Journal of Computer Information Systems 41.3 (2001): 82-97.
[47] Davenport, Thomas H., Jeanne G. Harris, and Ajay K. Kohli. "How do they know their customers so well?." MIT Sloan Management Review 42.2 (2001): 63-73.
[48] Davenport, Thomas H., and Laurence Prusak. Working knowledge: How organizations manage what they know. Harvard Business Press, 2000.
[49] Mårtensson, Maria. "A critical review of knowledge management as a management tool." Journal of knowledge management 4, no 3 (2000): 204-216.
[50] Wirth, Rüdiger, and Jochen Hipp. "CRISP-DM: Towards a standard process model for data mining." Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining. 2000.
[51] uit Beijerse, Roelof P. "Questions in knowledge management: defining and conceptualizing a phenomenon." Journal of Knowledge Management 3.2 (1999): 94-110.
[52] Chen, Ming-Syan, Jiawei Han, and Philip S. Yu. "Data mining: an overview from a database perspective." Knowledge and data Engineering, IEEE Transactions on 8.6 (1996): 866-883.
[53] Fayyad, Usama and et al., "From Data Mining to Knowledge Discovery in Databases", AI Magazine, Vol. 17, Number 3, 1996.
[54] Szulanski, Gabriel. "Exploring internal stickiness: Impediments to the transfer of best practice within the firm." Strategic management journal 17 (1996): 27-43.
[55] Nonaka, Ikujiro, and Hirotaka Takeuchi. The knowledge-creating company: How Japanese companies create the dynamics of innovation. Oxford University Press, USA, 1995.