صفحه محصول - فصل دوم پایان نامه داده کاوی در بیمه

فصل دوم پایان نامه داده کاوی در بیمه (docx) 1 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 1 صفحه

قسمتی از متن Word (.docx) :

واحد بین الملل پايان‌نامه كارشناسي ارشد در رشته‌ی کامپیوتر - مهندسی نرم افزار ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی مطالعه موردی: شرکت سهامی بیمه ایران به کوشش: فرامرز کرمی زاده استاد راهنما: دکترغلامحسین دستغیبی فرد بهمن ماه 1392 171069031623000 186309036766500 201549049149000 به نام خدا اظهار نامه اینجانب فرامرز کرمی زاده (908891) دانشجوی مقطع کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرم افزار واحدبین الملل دانشگاه شیراز اظهار می نمایم که این پایان نامه حاصل پژوهش خودم بوده و در جاهایی که از منابع دیگران استفاده کرده ام نشانی دقیق و مشخصات کامل آن را نوشته ام. همچنین اظهارمی کنم که تحقیق و موضوع پایان نامه ام تکراری نیست و تعهد می نمایم که بدون مجوز دانشگاه دستاوردهای آن رامنتشرننموده و یا در اختیار غیر قرار ندهم. کلیه حقوق این اثر مطابق با آیین نامه مالکیت فکری و معنوی متعلق به دانشگاه شیراز است . نام و نام خانوادگی : فرامرز کرمی زاده تاریخ و امضا: 176784052832000 17202158509000 تقدیم به همسرمهربان و فداکارم که در تمام مراحل زندگی، یار و یاورم بوده اند و مرا در سخت ترین شرایط تحصیل علم ذره ای تنها نگذاشته اند و مدام طی کردن پله های ترقی را برایم آسان نموده است. تقدیم به مادرم که همیشه خواستار سلامتی و مشتاق دیدن پیشرفت های فرزندانش بوده است. تقدیم به پدرم، خواهرانم و برادرانم که همیشه مشوق و مهیا کننده شرایط تحصیلم بوده اند. این نوشتار حاصل تلاشی برگرفته از قلوب پرمهر و عطوفت شما بوده است و اکنون به عنوان دارایی معنوی و علمی ام هرچند که درمقابل وسعت روح شما ناچیز است به شما تقدیم می گردد. 214884046291500 سپاسگزاری اکنون که این رساله با توفیقات خداوند متعال به پایان رسیده است از استاد ارجمند جناب آقای دکتر غلامحسین دستغیبی فرد که با راهنمایی های متعهدانه مرا در انجام این رساله یاری نموده اند کمال تشکر را دارم. همچنین از اساتید محترم جناب آقای دکتر اشکان سامی و جناب آقای دکتر سیدمصطفی فخراحمد که به عنوان اساتید مشاور و داور این رساله ازمساعدت ایشان بهره مند بوده ام صمیمانه تشکر و قدردانی می نمایم. همچنین از ریاست اداره آمار و اتکایی شرکت سهامی بیمه ایران جناب آقای محمد حضرتی اسطلخ کوهی که با در اختیار قراردادن امکانات لازم اینجانب را در انجام این تحقیق یاری نموده اند و آقای مهندس بابک فولادی نیا که درانجام بخش های عملی پایان نامه و نگارش این رساله مشاورات فراوانی را به اینجانب ارائه کرده اند نیز قدردانی می نمایم. 1634490398272000 چکیده ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی مطالعه موردی: شرکت سهامی بیمه ایران به کوشش: فرامرز کرمی زاده بررسی اطلاعات بیمه های اتومبیل نشان داده عواملی چون نوع استفاده خودرو، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، مبلغ حق بیمه، میزان تعهدات بیمه نامه، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه، تاخیردرتمدید بیمه نامه، در سود و زیان شرکت های بیمه تاثیر داشته اند. هدف این پایان نامه شناخت عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکت های بیمه با استفاده از روش داده کاوی و سپس انتخاب الگوریتمی که بهترین میزان دقت پیش بینی برای تشخیص این عوامل را داشته اند می باشد. نتیجه حاصل از این پژوهش نشان می دهد که روشهای داده کاوی با استفاده از الگوریتم های دسته بندی با دقت بالای 91% و الگوریتم های درخت تصمیم با دقت بالای 96% و الگوریتم های خوشه بندی با ایجاد خوشه های قابل قبول قادر به ارائه مدلی برای تشخیص عوامل اثرگذار و تعیین میزان اثر آنها در سود و زیان بیمه نامه شخص ثالث خودرو خواهند بود. کلیدواژگان: داده کاوی ـ بیمه شخص ثالث خودرو ـ سود و زیان فهرست مطالب عنوان صفحه فصل اول: مقدمه TOC \o "1-3" \h \z \u 1-1تعریف داده کاوی PAGEREF _Toc385885024 \h 41-2تعریف بیمه PAGEREF _Toc385885025 \h 41-3هدف پایان نامه PAGEREF _Toc385885026 \h 51-4مراحل انجام تحقیق PAGEREF _Toc385885027 \h 51-5ساختار پایان نامه PAGEREF _Toc385885028 \h 6فصل دوم: ادبیات موضوع و تحقیقات پیشین2-1داده کاوی و یادگیری ماشین PAGEREF _Toc385885030 \h 82-2ابزارها و تکنیک های داده کاوی PAGEREF _Toc385885031 \h 92-3روشهای داده کاوی PAGEREF _Toc385885032 \h 112-3-1روشهای توصیف داده ها PAGEREF _Toc385885033 \h 122-3-2روشهای تجزیه و تحلیل وابستگی PAGEREF _Toc385885034 \h 122-3-3روشهای دسته بندی و پیشگویی PAGEREF _Toc385885035 \h 122-3-4درخت تصمیم PAGEREF _Toc385885036 \h 132-3-5شبکه عصبی PAGEREF _Toc385885037 \h 142-3-6استدلال مبتنی بر حافظه PAGEREF _Toc385885038 \h 142-3-7ماشین های بردار پشتیبانی PAGEREF _Toc385885039 \h 152-3-8روشهای خوشه بندی PAGEREF _Toc385885040 \h 162-3-9روش K-Means PAGEREF _Toc385885041 \h 162-3-10شبکه کوهنن PAGEREF _Toc385885042 \h 162-3-11روش دو گام PAGEREF _Toc385885043 \h 172-3-12روشهای تجزیه و تحلیل نویز PAGEREF _Toc385885044 \h 172-4دسته های نامتعادل]صنیعی آباده 1391[. PAGEREF _Toc385885045 \h 182-4-1راهکار مبتنی بر معیار PAGEREF _Toc385885046 \h 182-4-2راهکار مبتنی بر نمونه برداری PAGEREF _Toc385885047 \h 192-5پیشینه تحقیق PAGEREF _Toc385885048 \h 202-6خلاصه فصل PAGEREF _Toc385885049 \h 23فصل سوم: شرح پژوهش3-1انتخاب نرم افزار PAGEREF _Toc385885051 \h 263-1-1Rapidminer PAGEREF _Toc385885052 \h 263-1-2مقایسه RapidMiner با سایر نرم افزار های مشابه PAGEREF _Toc385885053 \h 273-2داده ها PAGEREF _Toc385885054 \h 313-2-1انتخاب داده PAGEREF _Toc385885055 \h 313-2-2فیلدهای مجموعه داده صدور PAGEREF _Toc385885056 \h 313-2-3کاهش ابعاد PAGEREF _Toc385885057 \h 313-2-4فیلدهای مجموعه داده خسارت PAGEREF _Toc385885058 \h 373-2-5پاکسازی داده ها PAGEREF _Toc385885059 \h 373-2-6رسیدگی به داده های از دست رفته PAGEREF _Toc385885060 \h 373-2-7کشف داده دور افتاده PAGEREF _Toc385885061 \h 393-2-8انبوهش داده PAGEREF _Toc385885062 \h 413-2-9ایجاد ویژگی دسته PAGEREF _Toc385885063 \h 413-2-10تبدیل داده PAGEREF _Toc385885064 \h 413-2-11انتقال داده به محیط داده کاوی PAGEREF _Toc385885065 \h 423-2-12انواع داده تعیین شده PAGEREF _Toc385885066 \h 423-2-13عملیات انتخاب ویژگیهای موثرتر PAGEREF _Toc385885067 \h 433-3نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی PAGEREF _Toc385885068 \h 443-4ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی PAGEREF _Toc385885069 \h 463-5معیارهای ارزیابی الگوریتمهای دسته بندی PAGEREF _Toc385885070 \h 473-6ماتریس درهم ریختگی PAGEREF _Toc385885071 \h 473-7معیار AUC PAGEREF _Toc385885072 \h 483-8روشهای ارزیابی الگوریتم های دسته بندی PAGEREF _Toc385885073 \h 493-8-1روش Holdout PAGEREF _Toc385885074 \h 493-8-2روش Random Subsampling PAGEREF _Toc385885075 \h 503-8-3روش Cross-Validation PAGEREF _Toc385885076 \h 513-8-4روش Bootstrap PAGEREF _Toc385885077 \h 513-9الگوریتمهای دسته بندی PAGEREF _Toc385885078 \h 523-9-1الگوریتم KNN PAGEREF _Toc385885079 \h 533-9-2الگوریتم Naïve Bayes PAGEREF _Toc385885080 \h 543-9-3الگوریتم Neural Network PAGEREF _Toc385885081 \h 543-9-4الگوریتم SVM خطی PAGEREF _Toc385885082 \h 563-9-5الگوریتم رگرسیون لجستیک PAGEREF _Toc385885083 \h 583-9-6الگوریتم Meta Decision Tree PAGEREF _Toc385885084 \h 593-9-7الگوریتم درخت Wj48 PAGEREF _Toc385885085 \h 613-9-8الگوریتم درخت Random forest PAGEREF _Toc385885086 \h 633-10معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) PAGEREF _Toc385885087 \h 653-10-1الگوریتم FPgrowth PAGEREF _Toc385885088 \h 663-10-2الگوریتم Weka Apriori PAGEREF _Toc385885089 \h 673-11معیارهای ارزیابی الگوریتمهای خوشه بندی PAGEREF _Toc385885090 \h 673-12الگوریتم های خوشه بندی PAGEREF _Toc385885091 \h 693-12-1الگوریتم K-Means PAGEREF _Toc385885092 \h 693-12-2الگوریتم Kohonen PAGEREF _Toc385885093 \h 733-12-3الگوریتم دوگامی PAGEREF _Toc385885094 \h 77فصل چهارم: ارزیابی و نتیجه گیری4-1مقایسه نتایج PAGEREF _Toc385885096 \h 834-2الگوریتمهای دسته بندی PAGEREF _Toc385885097 \h 844-3الگوریتم های دسته بندی درخت تصمیم PAGEREF _Toc385885098 \h 844-4الگوریتم های خوشه بندی PAGEREF _Toc385885099 \h 964-5الگوریتم های قواعد تلازمی(مبتنی بر قانون) PAGEREF _Toc385885100 \h 984-6پیشنهادات به شرکت های بیمه PAGEREF _Toc385885101 \h 994-7پیشنهادات جهت ادامه کار PAGEREF _Toc385885102 \h 101منابع و مأخذفهرست منابع فارسی PAGEREF _Toc385885103 \h 102فهرست منابع انگلیسی PAGEREF _Toc385885104 \h 103 فهرست جدول‌ها عنوان صفحه جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی24 جدول شماره 3-2: فیلدهای اولیه داده های صدور26 جدول شماره 3-3: فیلدهای نهایی داده های صدور27 جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها28 جدول 3-5: فیلدهای استخراج شده از داده های خسارت28 جدول 3-6: نتایج نمودار boxplot31 جدول 3-7: انواع داده استفاده شده33 جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف37 جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records)38 جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth55 جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori55 جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means57 اجرا برای 9 خوشه در الگوریتم K-Means60 جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen64 جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی69 جدول 4-1: مقایسه الگوریتم های دسته بند70 جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم70 جدول 4-3: ماتریس آشفتگی قانون شماره 171 جدول 4-4: ماتریس آشفتگی قانون شماره 272 جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72 جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72 جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73 عنوان صفحه جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73 جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73 جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74 جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76 جدول 4-12: ماتریس آشفتگی قانون شماره 476 جدول 4-13: ماتریس آشفتگی قانون شماره 577 جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77 جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78 جدول 4-16: ماتریس آشفتگی قانون شماره778 جدول 4-17: ماتریس آشفتگی قانون شماره879 جدول 4-18: مقایسه الگوریتم های خوشه بندی79 جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80 جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81 فهرست شکل‌ها عنوان صفحه شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33 شکل 3-2: نتایج الگوریتمPCA 34 شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35 شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35 شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36 شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41 شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42 شکل 3-8: نمودار AUC الگوریتم KNN42 شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43 شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44 شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44 شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45 شکل 3-13 : نمودار AUC الگوریتم SVM Linear46 شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47 شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48 شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49 شکل 3-17 : نمودار radial الگوریتم Meta Decision Tree49 شکل 3-18: نمودار AUC الگوریتم Wj4850 شکل 3-19 : نمودار tree الگوریتم Wj4851 شکل 3-20 : نمودار AUC الگوریتم Random forest52 شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53 شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53 عنوان صفحه شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57 شکل 3-24 : Predictor Importance for K-Means58 شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم K-Means59 شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60 شکل 3-27 : Predictor Importance for Kohonen61 شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم Kohonen62 شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63 شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63 شکل 3-31 : Predictor Importance for دوگامی64 شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم دوگامی65 شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66 شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75 فصل اول 194500518986500 مقدمه شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد. از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006]. عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند. بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است. با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد. امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند. داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است. تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی" داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012]. انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند: 1-جدا سازی داده مفید از داده بیگانه 2-یکپارچه سازی داده های مختلف تحت یک قالب واحد 3-انتخاب داده لازم از میان دیگر داده ها 4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین 5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی 6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها 7-انتشار دانش استخراج شده به کاربران نهایی تعریف بیمه بیمه: بيمه عقدي است كه به موجب آن يك طرف تعهد مي كند در ازاء پرداخت وجه يا وجوهي از طرف ديگر در صورت وقوع يا بروز حادثه خسارت وارده بر او را جبران نموده يا وجه معيني بپردازد. متعهد را بيمه گر طرف تعهد را بيمه گذار وجهي را كه بيمه گذار به بيمه گر مي پردازد حق بيمه و آنچه را كه بيمه مي شود موضوع بيمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[. هدف پایان نامه در این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است. مراحل انجام تحقیق در این پایان نامه با استفاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند. ساختار پایان نامه این پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند. فصل دوم 193548028194000 ادبیات موضوع و تحقیقات پیشین در این فصل ابتدا مروری بر روشهای داده کاوی خواهیم داشت سپس به بررسی تحقیقات پیشین می پردازیم. داده کاوی و یادگیری ماشین داده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010]. هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] . داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] . 1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار 2-یکپارچه سازی داده: ترکیب منابع داده گوناگون 3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده 4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش 5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی 6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند 7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] . ابزارها و تکنیک های داده کاوی با توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ . روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد. در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد. هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند. قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006]. روشهای داده کاوی عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز. می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر نیزشناخته می شوند. روش های دسته بندی، رگرسیون و تشخیص انحراف از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی و مجموعه داده های آزمایشی تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است. یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته می شوند ]صنیعی آباده 1391[. روشهای توصیف داده ها هدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] . روشهای تجزیه و تحلیل وابستگی هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند. روشهای دسته بندی و پیشگویی دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه، بیز ساده و SVM است [Kumar and Verna 2012]. یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم. PCA=PAC PCPA رگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود. درخت تصمیم درخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد. 2-3-5-شبکه عصبی روش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [Pradhan et. al 2011 ] . 2-3-6- استدلال مبتنی بر حافظه توانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود. از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند. باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] . 2-3-7-ماشین های بردار پشتیبانی SVM اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] . SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] . رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند. 2-3-8-روشهای خوشه بندی هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] . 2-3-9- روش K-Means یکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007]. 2-3-10-شبکه کوهنن شبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد. 2-3-11-روش دو گام این روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند. 2-3-12-روشهای تجزیه و تحلیل نویز بعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999]. دسته های نامتعادل]صنیعی آباده 1391[. مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند. در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود: راهکار مبتنی بر معیار راهکار مبتنی بر نمونه برداری راهکار مبتنی بر معیار در دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرآیند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر. 2-4-2-راهکار مبتنی بر نمونه برداری نمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از: الف- نمونه برداری تضعیفی: در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد. ب- نمونه برداری تقویتی: این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود. ج- نمونه برداری مرکب: در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید. در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود 3 هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود. پیشینه تحقیق سالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد. Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید. Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است. Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نیز یک متدلوژی با استفاده از روشهای داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد. مورکی علی آباد ] موركي علي‌آباد1390[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقه‌بندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيك‌هاي داده‌كاوي (مورد مطالعه: بيمه‌گذاران بيمه آتش‌سوزي شركت بيمه كارآفرين (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی 4 سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است. عنبری ]عنبری 1389[ نیز پژوهشی در خصوص طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است. رستخیز پایدار]رستخیز پایدار 1389[ تحقیقی دیگر در زمینه بخش بندي مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با استفاده از مفاهيم شبکه خود سازمانده بخش بندي بر روي مشتريان بيمه بدنه اتومبيل بر اساس ريسک صورت گرفت. در اين تحقيق عوامل تأثيرگذار بر ريسک بيمه گذاران طي دو مرحله شناسايي گرديد. در مرحله اول هيجده فاکتور ريسک در چهار گروه شامل مشخصات جمعيت شناختي، مشخصات اتومبيل، مشخصات بيمه نامه و سابقه راننده از بين مقالات علمي منتشر گرديده در ژورنال هاي معتبر در بازه سال هاي 2000 الي 2009 استخراج گرديد و در مرحله دوم با استفاده از نظرسنجي از خبرگان فاکتورهاي نهايي تعيين گرديد. مشتريان بيمه بدنه اتومبيل در اين تحقيق با استفاده از شبکه هاي عصبي خودسازمانده به چهار گروه مشتريان با ريسک هاي متفاوت بخش بندي گرديدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است. ایزدپرست  ]ایزدپرست1389[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوی انجام داده است که چارچوبي براي شناسايي مشتريان بيمه بدنه اتومبيل ارائه مي‌گردد كه طي آن میزان خطرپذیری مشتریان پیش‌بینی شده و مشتریان بر اساس آن رده‌بندی می‌گردند. در نتیجه با استفاده از این معیار (سطح خطرپذیری) و نوع بیمه‌نامه مشتریان، میتوان میزان خسارت آنان را پیش‌بینی کرده و تعرفه بیمه‌نامه متناسب با ریسک آنان تعریف نمود. که این مطلب می‌تواند کمک شایانی برای شناسایی مشتریان و سیاستگذاری‌های تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشه‌بندی و درخت‌تصمیم استفاده می‌گردد. در روش خوشه‌بندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشه‌ها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشه‌ها شبیه تر هستند در یکی از آنها قرار می‌گیرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصمیم با استفاده از داده‌های مشتریان، درختی را بر اساس مجموعه‌ای از قوانین که بصورت "اگر-آنگاه" می‌باشد ایجاد کرده و سپس مشتریان جدید با استفاده از این درخت رده‌بندی می‌گردند. در نهایت هر دو این مدلها مورد ارزیابی قرار می‌گیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد. خلاصه فصل عمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با استفاده از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود. فصل سوم 2087880229743000 منابع و مأخذ منابع فارسی  ]ایزدپرست1389[ سید محمود ایزدپرست، (1389)، "ارائه چارچوبی برای پیش بینی خسارت مشتریان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوی" ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ]رستخیز پایدار 1389[ ندا رستخیز پایدار، (1389)، "بخش بندي مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) "، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ]صنیعی آباده 1391[ صنیعی آباده محمد، (1391)، "داده کاوی کاربردی"، چاپ اول، نشرنیازدانش، تهران-ایران ]عنبری 1389[ الهام عنبری، (1389)، "طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي"، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ] فولادی نیا و همکاران 1392 [ فولادی نیا بابک، کرمی زاده فرامرز، دستغیبی فرد غلامحسین، سامی اشکان، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، هفتمین کنفرانس داده کاوی ایران، 19 و 20 آذر، تهران ]فولادی نیا 1392[ فولادی نیا بابک، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، پابان نامه کارشناسی ارشد، دانشکده آموزشهای الکترونیکی، دانشگاه شیراز ]موركي علي‌آباد1390[ سمانه موركي علي‌آباد ، (1390)، "طبقه‌بندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيك‌هاي داده‌كاوي (مورد مطالعه: بيمه‌گذاران بيمه آتش‌سوزي شركت بيمه كارآفرين "( ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" منابع انگلیسی [Allahyari Soeini et. al 2012] Allahyari Soeini R and Vahidy Rodpysh K (2012), “Applying Data Mining to Insurance Customer Churn Management”, “Third International Conference, ICICA 2012, Chengde, China, September 14-16, 2012. Proceedings, Part I (Communications in Computer and Information Science) [Alpaydin 2010] Alpaydin E. (2010), “Introduction to Machine Learning”, The MIT Press Cambridge, Massachusetts London, England. [Bolton & Hand 2002] Bolton R. J. & Hand D. J. (2002), “Statistical fraud detection: a review”, Statistical Science, vol. 17, no. 3, pp. 235–55. [Brockett et. al 1998]Brockett P. L. Xia X. & Derrig R. A. (1998), “Using kohonen”s selforganizing feature map to uncover automobile bodily injury claims fraud”, The J. of Risk and Insurance, Vol. 65, No. 2, pp. 245-74. [Derrig et. al 2006] Derrig, R. , Johnston, D. & Sprinkel, E. (2006), “Auto Insurance Fraud: Measurements and Efforts to Combat It”, Risk Management and Insurance Review, Vol 9(2), pp.109 – 130. [Derrig & Ostazewski 1995] Derrig R. A. & Ostazewski K. M. (1995), “Fuzzy techniques of pattern recognition in risk and claim classification”, The J. of Risk and Insurance, Vol. 62, No. 3, pp. 447-82. [Gupta 2006] Gupta, G. K. (2006), ” Introduction to Data Mining with case studies”. Prentice Hall of India, New Delhi. [Han and Kamber 2001] Han J. and Kamber K, Data Mining: Concepts and Techniques, San Francisco, Morgan Kaufmann Publishers, 2001. [Jiawei Han, 2010] Jiawei Han, Micheline Kamber, and Jian Pei(2010), ”Data Mining, Concepts and Techniques”, 3rd ed, University of Illinois at Urbana-Champaign & Simon Fraser University. [Koh & Geravis 2010] Koh H. C. and Geravis G. (2010), ”Fraud Detection Using Data Mining Techniques:Applications In The Motor Insurance Industry”, Journal of Proceedings of Business And Information, Volume 7, No 1, pp. 49. [Kumar and Verna 2012] Kumar R. AND Verma R. (2012), “ Classification Algorithms for Data Mining: A Survey, International Journal of Innovations in Engineering and Technology (IJIET), Vol. 1, Issue 2, August 2012. [Lin & Yeh 2012]Lin Kuo-Chung and Yeh Ching-Long (2012), “Use of Data Mining Techniques to Detect Medical Fraud in Health Insurance”, International Journal of Engineering and Technology Innovation, vol. 2, no. 2, pp. 42-53. [Liu et. al 2012 ]Liu Jenn-Long, Chen Chien-Liang and Yang Hsing-Hui (2012), “Efficient Evolutionary Data Mining Algorithms Applied to the Insurance Fraud Prediction”, International Journal of Machine Learning and Computing, Vol. 2, No. 3, pp. 308-314. [Osmar 1999] Osmar, R. Zaïane (1999), “Principles of Knowledge Discovery in Databases”, University of Alberta. [Patil et. al 2012 ] Patil S. P. , Patil U. M. and Borse S. (2012), “ The novel approach for improving apriori algorithm for mining association rule”, World Journal of Science and Technology 2012, 2(3):75-78, Proceedings of “National Conference on Emerging Trends in Computer Technology (NCETCT-2012), Held at R. C. Patel Institute of Technology, Shirpur, Dist. Dhule, Maharashtra, India. [Phua et. al 2004]Phua C. , Alahakoon D. & Lee V. (2004), “Minority report in fraud detection: classification of skewed data”, Sigkdd Explorations, vol. 6, no. 1, pp. 50-9. [Pradhan et. al 2011 ] Pradhan R. , Pathak K. K. and Singh V. P. (2011), “ Application of Neural Network in Prediction of Financial Viability”, International Journal of Soft Computing and Engineering (IJSCE), ISSN: 2231-2307, Volume-1, Issue-2, May 2011. [Ramamohan et. al 2012 ] Ramamohan Y. , Vasantharao K. , Chakravarti C. K. , Ratnam A. S. K (2012), “ A Study of Data Mining Tools in Knowledge Discovery Process”, International Journal of Soft Computing and Engineering (IJSCE), Volume-2, Issue-3, July 2012. [Ristianini and Shawe 2000] Ristianini N, Shawe-Taylor J. “An introduction to support vector machines and other kernel-based learning methods”, Cambridge, UK:Cambridge University Press; 2000. [Sirikulvadhana 2002] Sirikulvadhana, Supatcharee (2002), “Data Mining as a Financial Auditing Tool”, M. Sc. Thesis in Accounting Swedish School of Economics and Business Administration. [Tan et al 2006] Pang-Ning Tan, Michael Steinbach and Vipin Kumar, “Introduction to Data Mining”, Addison Wesley, 2006. [Wilson 2003] Wilson, H. J (2003), “An analytical approach to detecting insurance fraud using logistic regression”, Journal of Finance and Accountancy, Vol. 1, pp. 1-15. [Wilson and Martinez 1997] Wilson D. Randall and Martinez Tony R “Improved Heterogeneous Distance Functions”, Journal of Artificial Intelligence Research, Volume 6, pages 1-34. [Xindong et al 2007] XindongWu , Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J, McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2007) . “Top 10 Algorithms in data mining”, Survey paper. Springer–Verlag London Limited. ABSTRACT PROPOSING A MODEL TO DETECT IMPACT FACTOR AND THEIR EFFECT IN AUTOMOBILE THIRD PARTY INSURANCE PROFIT AND LOSS OF INSURANCE COMPANY USING DATA MINING CASE STUDY: IRAN INSURANCE COMPANY By Faramarz Karami Zadeh Past research on auto insurance show, factors such as type of car, compliance or non-compliance vehicle with driver's license, amount of premium, level of commitment in insurance certificate, quality of auto vehicle, driver’s age, driver’s education, lack of compliance with the insurance premiums, delays in the extended hull insurance,… may affect loss or profit of insurance companies. The goal of this thesis is to recognize these factors in 3rd party insurance and their impact on the profit and loss of insurance companies by data mining techniques. The result of this study has shown that classification and decision tree algorithms provide over 91% and 96% accuracy respectively. Also clustering algorithms can create acceptable clusters. Key Words: Data Mining - Automobile Third Party Insurance - profit and loss 2059305635000 190690566357500 175450587947500 Shiraz University International Branch M. S. Thesis In Software Engineering of Computer PROPOSING A MODEL TO DETECT IMPACT FACTOR AND THEIR EFFECT IN AUTOMOBILE THIRD PARTY INSURANCE PROFIT AND LOSS OF INSURANCE COMPANY USING DATA MINING BY FARAMARZ KARAMIZADEH Supervised by Dr. GH. DASTGHAIBY FARD February 2014 165925538862000

فایل های دیگر این دسته

مجوزها،گواهینامه ها و بانکهای همکار

فروشگاه فایل صدرا دارای نماد اعتماد الکترونیک از وزارت صنعت و همچنین دارای قرارداد پرداختهای اینترنتی با شرکتهای بزرگ به پرداخت ملت و زرین پال و آقای پرداخت میباشد که در زیـر میـتوانید مجـوزها را مشاهده کنید