تحقیق شبیه سازی گرافولوژی دست نوشته فارسی با کامپیوتر (docx) 1 صفحه
دسته بندی : تحقیق
نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )
تعداد صفحات: 1 صفحه
قسمتی از متن Word (.docx) :
Contents TOC \o "1-3" \h \z \u 1-1گرافولوژی PAGEREF _Toc530989942 \h 31-2اهمیت و ضرورت تحقیق: PAGEREF _Toc530989943 \h 41-3اهداف تحقیق PAGEREF _Toc530989944 \h 5شبیه سازی PAGEREF _Toc530989945 \h 64-1 پیش پردازش PAGEREF _Toc530989946 \h 74-2 استخراج ویژگی PAGEREF _Toc530989947 \h 9ویژگی ها ونحوه استخراج آنها در کارهای قبلی به شرح زیر می باشد: PAGEREF _Toc530989948 \h 10الف) تعداد خطوط اصلی نوشتار PAGEREF _Toc530989949 \h 10ب) طول خط اصلی نوشتار PAGEREF _Toc530989950 \h 11ج) زاویه حرکت خط اصلی نوشتار PAGEREF _Toc530989951 \h 11د)فشردگی متن PAGEREF _Toc530989952 \h 12ه)درشتی خط PAGEREF _Toc530989953 \h 14و)شکل حاشیه PAGEREF _Toc530989954 \h 15ز)زاویه کشید گی حروف به بالا و پایین PAGEREF _Toc530989955 \h 16ک) لرزش PAGEREF _Toc530989956 \h 17ویژگیها و نحوه استخراج آنها در این تحقیق به شرح زیر میباشد: PAGEREF _Toc530989957 \h 17الف) تعداد خطوط اصلی نوشتار PAGEREF _Toc530989958 \h 17ب)حاشیه متن PAGEREF _Toc530989959 \h 17ج)درشتی خط PAGEREF _Toc530989960 \h 18ه)شیب خط PAGEREF _Toc530989961 \h 184-2-1 بررسی نمونههایی از دستنوشتهها و خروجی الگوریتم استخراج ویژگی PAGEREF _Toc530989962 \h 18جدول (4-1) خروجی الگوریتم استخراج ویژگی برای نمونهای از دستنوشتهها PAGEREF _Toc530989963 \h 20شکل(4-1) نمونهای از دستخط با جهت پایین و حاشیه زیاد PAGEREF _Toc530989964 \h 21شکل(4-2) نمونهای از دستخط با جهت پایین و حاشیه کم PAGEREF _Toc530989965 \h 21شکل(4-3) نمونهای از دستخط درشت و حاشیه کم PAGEREF _Toc530989966 \h 23شکل(4-4) نمونهای از دستخط ریز و حاشیه کم PAGEREF _Toc530989967 \h 234-3 گروه بندی ویژگی ها PAGEREF _Toc530989968 \h 234-3-1 مروری بر ابزارهای ماشین PAGEREF _Toc530989969 \h 24سییتم استنتاج فازی PAGEREF _Toc530989970 \h 25ماشین بردار پشتیبان (SVM) PAGEREF _Toc530989971 \h 254-3-2 بحث PAGEREF _Toc530989972 \h 264-3-3 درخت تصمیم PAGEREF _Toc530989973 \h 274-3-3-1 الگوریتم ID3 PAGEREF _Toc530989974 \h 284-3-4 شبیه سازی الگوریتم پیشنهادی PAGEREF _Toc530989975 \h 30جدول (4-2) گروه بندی شخصیت افراد PAGEREF _Toc530989976 \h 30جدول (4-3) گروه بندی شخصیت افراد مورد استفاده در شبیه سازی PAGEREF _Toc530989977 \h 31جدول (4-4) دادههای آموزشی PAGEREF _Toc530989978 \h 324-5 نتایج PAGEREF _Toc530989979 \h 33جدول شماره (4-5) بررسی نتایج استخراج ویژگی PAGEREF _Toc530989980 \h 344-5-2 تشخیص انسانی PAGEREF _Toc530989981 \h 344-5-3 راستیآزمایی با پرسشنامه شخصیتی MMPI PAGEREF _Toc530989982 \h 354-6 مقایسه با دیگر روشها PAGEREF _Toc530989983 \h 35فهرست منابع PAGEREF _Toc530989984 \h 37
گرافولوژی
تحقیقات روانشناسی نشان داده است که بسیاری از ویژگی های اخلاقی و رفتاری افراد مختلف را میتوان از بررسی دست نوشته های آنها استخراج کرد. خط شناسی علمی را ((گرافولوژی)) مینامند. دستخط همانند حرکات دست و سرهنگام سخن گفتن، طرز راه رفتن و اشارات صورت یک حرکت معنی دار است. حرکات یاد شده در بالا دوام و استمراری ندارند، در صورتیکه یک خط بر کاغذ، اثری است که باقی میماند و احساس نویسنده آن را در هنگام نوشتن که با انبساط خاطر و یا با شک و تردید یا با عکس العمل فرد در مقابل واقعیتها انجام شدهاست منعکس میسازد. اسلوب نوشتن هرچه باشد، نسخ یا نستعلیق، کتابی یا چاپی و یا بر اساس سرمشقهای خوشنویسی، نویسنده برحسب خلق و خوی و یا طبع و سرشت خود، کم کم از آن دور میشود. مهارت یک خط شناس عبارتست از : تشخیص خطوط اصلی خلق و خوی یک فرد و تعیین قوایی که در درون او باعث تقویت و یا ضعف نفسانی اش می شوند و تعادل یا ناپایداری او را به وجود می آورند. خلاصه باعث تعیین شخصیت و موجودیت او هستند.
اهمیت و ضرورت تحقیق:
بطور کلی و مختصر میتوان گفت که به دو علت زیر از یک خط شناس میخواهند که در ماجرایی دخالت و کمک کند :
میخواهند یک فرد خارجی را در یک محیط مشخص وارد کنند. این محیط ممکن است خانواده، محیط کار و یا نهاد سیاسی یا حکومتی باشد.
چنانچه معلوم و مشهود گردد که در یک محیط مشخص هماهنگی وجود ندارد و میخواهند یک فرد ناباب را از آن محیط خارج سازند 1.
در فرانسه، مهمترین کاربرد گرافولوژی گزینش متقاضیان استخدام است. بعضی از شرکتها، خصوصاً در اروپا، تحلیل دست نوشته متقاضیان استخدام را روی فرم های تقاضا به عنوان یکی از شاخصهای انتخاب آنها در نظر می گیرند. در ضمن دست نوشته افراد می تواند بیانگر بعضی اختلالات روانی آنها نیز باشد که به کمک آن میتوان به پیشرفت معالجه بیماران روانی کمک کرد . بدیهی است استفاده از گرافولوژی در مقایسه با تکمیل پرسشنامه های مربوط به آزمونهای روانشناسی باعث صرفه جویی فراوان در وقت و همچنین اجتناب از مشکلات عدم پاسخگویی صحیح به سوالات میباشد . ضمناً از بعضی ویژگی های دستخط میتوان در تشخیص هویت و یا تعیین جعلی بودن اسناد و مدارک دستنویس نیز استفاده کرد .
اهداف تحقیق
گرافولوژی میبایست توسط خط شناسان زبر دست انجام شود تا کمتر در این امر اشتباه صورت پذیرد و تعداد خط شناسان زبر دست محدود میباشد. با توجه به کاربردهای فراوان گرافولوژی، در این پایان نامه سیستم گرافولوژی دست نوشته فارسی به کمک کامپیوتر ارایه نمودهایم.
شبیه سازی
در این نوشتار به نحوه پیاده سازی و نتایج تجربی میپردازیم. پیاده سازی سه مرحله اصلی دارد که شامل پیش پردازش، استخراج ویژگی و گروهبندی ویژگیها میباشد.
در این تحقیق ضمن مرور نحوه پیادهسازی کارهای پیشین، به تشریح الگوریتم پیشنهادی و نتایج بدست آمده پرداخته میشود و نمونههایی از نتایج تجربی به دست آمده نمایش داده میشود.
4-1 پیش پردازش
در پیاده سازی پروژه های شناسایی دست خط ، تشخیص حالات روحی افراد از روی دست خط ، شناسایی اسناد جعلی دست نویس و ... اغلب سه فازمهم پیش پردازش ، استخراج ویژگی و دسته بندی اعمال می شود فاز پیش پردازش به نرمال سازی و حذف نویز و قطعه بندی و فاز دسته بندی با استفاده از ویژگی های استخراج شده به شناسایی حروف دست نویس می پردازد .
در عملیات پیش پردازش ابتدا تصاویر بانیری شده و سپس عملیات نازک سازی و حذف نویز و حذف پس زمینه انجام می شود. بانیری کردن ، سطوح روشنایی تصویر را به دو سطح تبدیل میکند تا از این طریق بتوان عملیات هایی از قبیل ریخت شناسی را به سادگی روی آنها انجام داد نازک سازی یکی از عملکردهای ریخت شناسی است که در مقاله خانم ساجدی و همکاران روی تمام تصاویر اعمال شده است.
حذف نویز در عملیات پیش پردازش یکی از مراحلی است که انجام آن باعث افزایش دقت خواهد شد.برای حذف نویز از راهکارهای مختلفی می توان استفاده کرد یکی از این روشها فیلترینگ است که اعمال آن روی تصاویر تأثیر بسزایی در حذف نویز خواهد داشت.
جوهرهای مختلف تاثیر زیادی بر روی امضا دارند وامضای یک شخص با دو جوهر متفاوت در شرایط یکسان، متفاوت خواهد بود. یک جوهر با رنگ تیره تر همیشه سطوح خاکستری نزدیک به سیاه را ایجاد می کند و جوهر روشن تر منجر به سطوح خاکستری بالاتر می شود.
برای اینکه تاثیر جوهرهای مختلف در فرایند شناسایی یا تایید امضا از بین برود، باید سعی کنیم تا تصاویر را از این نظر نرمال سازی نماییم. با انتقال هیستوگرام سطح خاکستری به سمت صفر، به طوری که پایین ترین سطح روی صفر قرار بگیرد می توانیم به این امر دست پیدا کنیم. برای این منظور کمترین سطح خاکستری را از سطوح خاکستری تفریق می کنیم.
در این تحقیق ابتدا تصویر خوانده شده نرمال سازی میگردد تا برنامه نوشته شده برای کلیه تصاویر با سایزهای مختلف قابل استفاده باشد. سپس تصویر باینری میشود و فیلتر پایین گذر روی آن اعمال میگردد. فیلتر پایین گذر دو تاثیر روی تصویر میگذارد: 1- حذف نویز انجام میدهد. 2- روی تصویر بلورینگ اتفاق میافتد و به این ترتیب لبهها محو شده و تا حدی گسستگیها از بین میرود.
از بين بردن نويز : در بسياري از موارد تصوير نمونه اي كه اسكن شده است داراي عوارض و لكه هاي ناخواسته اي هستند كه نويز ناميده ميشوند. اين نويزها در هنگام اسكن كردن تصوير، کثیفی کاغذ و یا نوک سر قلم بوجود می آید. براي حذف اين نويزها از فيلتر ميانگين استفاده شده است كه عبارتند از:
فيلتر پايين گذر يا ميانگين: در اين نرم افزار براي فيلتر ميانگين گيري از يك ماتريس 3×3 شامل 9 المان مطابق شكل زیر استفاده مي شود:
مقادير پيكسل هاي ماتريس خروجي از حاصل ضرب پيكسل هاي Pi,j تصوير اوليه در المانهاي متناظر ماتريس ضرايب fi,j بدست ميآيد. سپس حاصل جمع مقادير المان هاي جديد بجاي پيكسل مياني (پيكسل مورد نظر) گذاشته ميشود. اين عمليات را مي توان بصورت زير بيان نمود :
فیلتر پایین گذر را با ماسکهای 3*3 و 5*5 و وزنهای مختلف امتحان کردیم. و بهترین نتیجه را با ماسک 3*3 و وزنهای یک گرفتیم.
سپس از عملیات ریخت شناسی(morphologi) جهت حذف نویز و از بین رفتن گسستگیها استفاده نمودیم. پیوسته کردن خطوط به کاهش خطا در استخراج ویژگی خصوصاً محاسبه تعداد خط کمک شایانی مینماید.
4-2 استخراج ویژگی
در میان انواع دست خط ها ، پیچیدگی های موجود در اسناد دست نویس فارسی بارزتر خواهد بود. علت این امر، خصوصیات نگارش این زبان است برخی از ویژگی ها و شاخص های نوشتاری فارسی بدین شرح است:
مهمترین ویژگی زبان فارسی پیوستگی حروف می باشد که این زبان را از سایر زبانها متمایز کرده است یکی از خصوصیات اصلی زبان فارسی شروع آن از سمت راست است. ویژگی دیگر این است که شکل حروف در زبان فارسی تابعی از محل قرار گرفتن آنها در کلمه است. و هر حرف بر حسب موقعیت های مختلف در کلمه (اول، وسط ، آخر) میتواند اشکال مختلفی داشته باشد و از طرفی دارای تنوع فراوان در شیوه های نگارشی در مقایسه با نوشتار لاتین می باشد. بدیهی به نظر می رسد که تعداد سبک نوشتاری اسناد دست نویس ، فرایند تشخیص حالات روحی فرد از روی دست خط را مشکل می سازد18.
در این بخش ابتدا مروری به کارهای قبلی خواهیم داشت.
ویژگی ها ونحوه استخراج آنها در کارهای قبلی به شرح زیر می باشد:
الف) تعداد خطوط اصلی نوشتار
ممکن است یک فرد در فضای مشخص شده استاندارد تعداد بیشتری خط بنویسد خطوط اصلی نوشتار از پنجره های پیکسلی با اندازه مشخص و تعیین خط اصلی محلی همه پنجره ها ، با اتصال این خطوط با کوتاه ترین فاصله بین آنها بدست می آید 4.
صابری اناری و همکاران (1391) برای یافتن خطوط اصلی نوشتار (خط پایه) ، ارتفاع کلمات اندازه گیری شده به 4 بخش تقسیم نموده و خط قله که شامل تعداد پیکسل سیاه می باشد خط وسط را مشخص می کند 8.
ب) طول خط اصلی نوشتار
برای محاسبه طول تقریبی هر خط ابتدا خط اصلی نوشتار را تشخیص داده و به علت اینکه خط اصلی نوشتار تا جایی ادامه پیدا خواهد کرد که پیکسل های مشکی در آن خط ها قرار دارند می توان طول هر خط اصلی نوشتار تشخیص داده شده در تصویر دستخط را به عنوان طول خط واقعی در نظر گرفت این مقدار طول با توجه به تورفتگی یک خط و یا مقادیر تراز از سمت چپ و راست می تواند برای هر خط متفاوت باشد که این الگوریتم می تواند طول تقریبی این خطوط را از سمت راست تا سمت چپ تشخیص دهد1.
ج) زاویه حرکت خط اصلی نوشتار
خطوط اصلی نوشتار در دستخط های فارسی ممکن است افقی و یا با زاویه های منفی به سمت پایین و یا با زاویه های مثبت به سمت بالا ظاهر شوند زاویه هر کدام از خطوط اصلی نوشتار به طور جداگانه محاسبه و میانگین کل زاویه ها بدست می آید و در واقع زاویه کلی متن دستخط یا جهت کلی آن تعیین می شود 4.
صابری اناری و همکاران (1391) 8 برای یافتن زاویه حرکت خط اصلی نوشتار دو روش برای محاسبه شیب خط ارائه کرده اند. در روش اول ابتدا متن را به کلمات تشکیل دهنده تقسیم بندی کرده و هر کلمه به دو بخش تقسیم می گردد. سپس مرکز جرم هر بخش را محاسبه نموده و به ازای هر دو بخش نقطه مختصات X و Y را بدست می آورد و با اتصال این 2 نقطه به یکدیگر یک خط بدست می آید و شیب خط را با استفاده از فرمول زیر محاسبه می شود.
Slop= (Ya- Yb)/( Xa- Xb)
با گرفتن میانگین شیب خط مربوط به کلمات شیب دستخط هر فرد محاسبه می گردد.
Ya و Xa مربوط به مختصات بخش چپ تصویر و دیگری مربوط به مختصات بخش راست تصویر می باشد.
در روش دوم برای محاسبه شیب دستخط از پارامترهای بیضوی استفاده شده است .
پارامترهای بیضوی شامل : قطر بزرگ ، قطر کوچک ، زاویه ، مرکز ثقل می باشد برای محاسبه شیب افقی است ابتدا قطرها و مرکز ثقل هر کلمه را محاسبه کرده وسپس با استفاده از این دو پارامتر زاویه ایجاد شده بین قطر بزرگ با خط افق را بدست بیاوریم . سپس با محاسبه میانگین زاویه کلمات متن دستخط شیب متن بدست می آید. روش دوم بالاترین در صد را از لحاظ کارآیی دارا می باشد 8.
بهرامی شریف وکبیر(1384) 2 و نوروز زاده و همکاران (1386) 7 ، برای یافتن زاویه حرکت خط اصلی نوشتار، متن دست نوشته ، با زوایای مختلف به فاصله 1- درجه ، دربازه{8 و 8-} چرخانده می شود و پس از هر چرخش ، افکنش (projection) افقی آن محاسبه می شود . سپس آنتروپی این افکنش بدست می آید. زاویه ای که این آنتروپی را به کمترین مقدار خود میرساند، بیانگر کجی متن است 2و7 .
فشردگی متن
فشردگی می تواند از نزدیکی کلمات یک خط و از نزدیکی خطوط مختلف و در هم نویسی ناشی شود جهت محاسبه فاصله بین خطوط نوشتار اختلاف عمودی بین خطوط اصلی را به صورت تکی و میانگین کل فاصله ها بدست آورده می شود و جهت محاسبه فاصله میان کلمات از روی خط اصلی تشخیص داده شده حرکت کرده و با در نظر گرفتن پنجره های بالا و پایین خط اصلی نوشتار ، ستونهای پیکسلی با مقدار پیکسل های سفید را کلاس بندی کرده و میانگینی از اندازه همه کلاس ها را به عنوان فاصله خالی میان حروف بر می گرداند 4. بهرامی شریف وکبیر(1384)2 و نوروز زاده و همکاران (1386) 7، جهت استخراج فشردگی متن از روش های زیر استفاده نمودند:
برای محاسبه میزان نزدیکی خطوط مختلف درجه تفکیک تصویر دست نوشته 20 بار در هر راستا کم میشود . برای محاسبه میزان نزدیکی کلمات ابتدا در تصویر دست نوشته تکه های پیوسته تعیین میشوند و مراکز ثقل آنها مشخص می شود پس تصویر حاصل به 14 نوار سطری به صورت مساوی تقسیم بندی میشود در هر نوار کمترین فاصله هر نقطه برای تصمیم گیری گرافولوژی استفاده میشود همچنین برای محاسبه نزدیکی کلمات تصویر متن به 14 نوار افقی مساوی تقسیم میشود. سپس تکه های پیوسته در هر نوار تعیین میشوند و فاصله نقاط انتهایی تکه های پیوسته باهم تقسیم بر معیار درشت نویسی به عنوان معیار دیگر نزدیکی کلمات استفاده میشود2و7.
نوروز زاده و همکاران (1386) 7 علاوه بر میزان نزدیکی خطوط و نزدیکی کلمات میزان در هم نویسی کلمات را محاسبه نموده است . برای این کار ابتدا تصویر متن به 15 نوار سطری و 40 نوار ستونی تقسیم میشود این تقسیم بندی را با توجه به بررسی نمونه های موجود انتخاب نموده است سپس تعداد پیکسل کمتر از 5 برابر عرض قلم دور ریخته میشوند چگالی هر یک از یک از خانههای باقیمانده با تقسیم تعداد نقاط سیاه بر کل نقاط آن خانه محاسبه میشود میانه تصاویر بدست آمده به عرض قلم به عنوان معیاری از فشردگی کلمات در نظر گرفته میشود4.
فرزین یغمایی و همکاران (1392) 4 جهت محاسبه فاصله بین کلمات از الگوریتم توسعه مستعطیل مشخصه استفاده نموده و محل جدا سازی به روی تصویر را انجام شده و سپس فاصله هر دو بخش متوالی محاسبه شده و نهایتا با جمع کردن فاصله های موجود بین هر دو کلمه متوالی (جمع جبری ) مقدار نهایی را محاسبه نموده است .
درشتی خط
برای محاسبه مقیاس درشتی خط میتوان حروف و کشش کلمات را اندازه گیری کرد. برای محاسبه اندازه یک حرف در یک دست خط مجبور به شناسایی تک تک حروف و شناسایی خطهای افقی و عمودی مختلف در حروفی مانند ( گ ، آ، ل و ... ) هستیم . برای تشخیص درشتی دست خط اندازه کلمات نسبت به طول کل هر خط را به عنوان معیار درشتی معرفی میشود 4 .
نوروز زاده و همکاران (1386) 7 برای تشخیص میزان درشت نویسی کلمات ابتدا بخش های پیوسته بر چسب می خورد و مساحت هر بخش محاسبه می شود سپس بخش های با مساحت کمتر از 20 برابر مربع عرض قلم حذف میشوند. میانگین مساحت های باقیمانده تقسیم بر عرض قلم به عنوان یک معیار با عنوان Area در نظر گرفته میشود . برای هر بخش پیوسته ، پوسته محدب رسم میکنیم و نسبت نقاط سیاه داخل پوسته به مساحت پوسته محدب بیانگر درشتی آن بخش خواهد بود4 .
بهرامی شریف وکبیر(1384) 2 برای محاسبه میزان درشت نویسی کلمات ابتدا در تصویر دست نوشته تکه های پیوسته تعیین میشوند و مراکز ثقل آنا مشخص می شوند سپس تصویر حاصله به 14 نوار افقی مساوی تقسیم می شود در هر نوار کمترین فاصله بین نقاط حساب میشود میانه فاصله های بدست آمده در همه نوارها به عنوان معیار درشت نویسی در تصمیم گیری گرافولوژی استفاده می شود2 .
شکل حاشیه
ابتدا برای بالا بردن سرعت پردازش درجه تفکیک تصویر به اندازه 10 بار کم می شود . سپس افکنش افقی انجام می شود و در هر ردیف اگر تعداد پیکسل ها کمتر از 200 باشد ، حذف میشود که با این کار تعداد خطوط پیدا می شوند. بعد از پیدا شدن تعداد خط ها ماکزیمم تعداد پیکسلها در هر خط را پیدا کرده سپس از روی نمودار بدست آنده حاصل از افکنش افقی ، با توجه به داشتن محل خطوط از راست به چپ شروع به گشتن می کند تا نقطه ابتدایی پیدا شود با جمع کردن ماکزیمم تعداد پیکسل آن خط ، نقطه انتهای پیدا میشود و به همین ترتیب ادامه داده تا پایین و ابتدا و انتهای هر خط را بدست میآید . حاشیه بالا ، فاصله ی بالای برگه تا اولین خط است . برای بدست آوردن حاشیه راست ، میانگین نقاط راست را بدست آورده، برای بدست آوردن شیب راست ، میانگین زاویه ی هر دو خط را در راست حساب کرده و به همین ترتیب میانگین زاویه های هر دو خط را در سمت چپ متن حساب میشود 2و7.
فرزین یغمایی و همکاران(1391) 4 با توجه به اینکه شروع خط فارسی از سمت راست است و نحوه چینش حروف از سمت راست مهم می باشد در بحث شکل حاشیه تنها به نحوه چینش حروف از سمت راست بسنده کرده و برای بدست آوردن فاصله چینش از سمت راست دست خط با یافتن کمترین فاصله خطوط اصلی نوشتار از سمت راست تصویر ، اندازه چینش از سمت راست را محاسبه نموده است4 .
زاویه کشید گی حروف به بالا و پایین
برای بدست آوردن زاویه ی کشیدگی حروف به بالا و پایین ابتداد باید در هر ردیف تصویر پاره خط های افقی با طول بزرگتر از 5/1 برابر عرض قلم حذف شوند پس صفحه به 40 نوار ستونی تقسیم می شود تعداد نوارهای مورد نیاز با بررسی نمونه های مختلف دست نوشته فارسی طوری انتخاب می شود که در حد امکان حروف با کشیدگی به بالا و پایین از هم جدا شوند . سپس برای هر نوار افکنش افقی محاسبه می شود . با توجه به مقادیر صفر در افکنش افقی ، هر نوار ستونی به تعدادی بخش سطری تقسیم می شود بخش هایی با ارتفاع کمتر از 5 برابر عرض قلم حذف می شوند در بخش باقیمانده هر بخش به دو تکه بالایی و پایینی تقسیم می شود. زاویه اتصال مرکز ثقل پایینی به بالایی بیانگر زاویه کشیدگی عمودی این قسمت است . فراوان ترین زوایای بدست آمده هر متن به عنوان زاویه کشیدگی حروف متن اعلام میشود7 .
ک) لرزش
برای بدست آوردن پارامتر ارزش ، در ابتدا تصویر را بر چسب زده میشود و هر تکه پیوسته را باید از یک نقطه شروع کرده و دور آن تکه بر چسب دور زد تا به جای اول برسیم . برای این کار از کد فرمین استفاده میشود . به این صورت که سمت راست ترین نقطه در برچسب را پیدا کرده سپس کانتور برچسپ با پیمایش در خلاف جهت عقربه های ساعت استخراج شده و با استفاده از کدهای فرمین با معیار همسایگی 8 نشان داده میشود . برای اولین نقطه کانتور کد فرمین 3 در نظر گرفته میشود4 .
ویژگیها و نحوه استخراج آنها در این تحقیق به شرح زیر میباشد:
الف) تعداد خطوط اصلی نوشتار
ابتدا از سمت راست، سطر به سطر به دنبال پیکسلهای مشکی می گردیم. به اولین پیکسل مشکی که رسیدیم، آدرس آن را در برداری ذخیره مینماییم. چنانچه چند مقدار متوالی غیر صفر داشته باشیم آن را به عنوان یک خط در نظر میگیریم. سپس همین کار را از سمت چپ انجام میدهیم. تعداد خط از میانگین تعداد خطوط محاسبه شده راست و چپ بدست میآید.
حاشیه متن
هنگام محاسبه تعداد خط، برداری تعریف کردیم که در آن شماره ستون پیکسل آغازین هر خط در آن ذخیره شده بود. میانگین مقداری آن بردار به عنوان ویژگی حاشیه در نظر گرفته میشود. از آنجایی که در گرافولوژی علاوه بر میزان حاشیه، از تفاوت بین حاشیه چپ و حاشیه راست نیز برداشتهایی در مورد خلق و خوی افراد میتوان داشت، حاشیه چپ و راست جداگانه محاسبه و هر کدام بعنوان یک ویژگی جداگانه و میانگین حاشیه چپ و راست نیز به عنوان یک ویژگی دیگر مورد استفاده قرار گرفت.
درشتی خط
در جستجوی سطر به سطر بعد از یافتن اولین پیکسل مشکی، چنانچه تعداد پیکسلهای متوالی مشکی از یک رنجی (یک صدم تعداد کل سطرها) بیشتر بود، آن خط را درشت در نظر گرفته و مجموع تعداد خطوط درشت به عنوان معیار درشتی خط در نظر میگیریم.
شیب خط
مختصات نقطه وسط هر خط از سمت راست و نقطه وسط هر خط از سمت چپ را پیدا کرده و زاویه خط را از محاسبه آرکتانژانت تفاضل عرض نقاط تقسیم بر طول نقاط بدست میآوریم و میانگین زاویه کلیه خطوط را به عنوان ویژگی شیب خط در نظر میگیریم.
4-2-1 بررسی نمونههایی از دستنوشتهها و خروجی الگوریتم استخراج ویژگی
در این بخش، خروجی الگوریتم استخراج ویژگی برای نمونههایی از دستخط و علت خطای الگوریتم در این نمونهها بررسی میشود. صحت خروجی الگوریتم بر اساس دادههای آموزشی تعریف شده در جدول (4-3-4-2) میباشد.
شکل (4-1) دستنوشتهای با 4 خط متن، جهت پایین رونده، حاشیه زیاد و نسبتاً درشت میباشد. در جدول (4-1) میبینیم اعداد حاشیه متن و زاویه متن بسیار مناسب میباشند. خروجی الگوریتم تعداد خط را با یک عدد اختلاف به دست آورده که قابل اغماض میباشد و دلیلش ترسیم پیوسته سه نقطه در کلمه پشت در سطر چهارم میباشد. عدد مربوط به درشتی کلمات در این نمونه دستوشته دچار خطا میباشد که دلیل آن با توجه به الگوریتم درشتی کلمات ناقص بودن متن دستنوشته میباشد.
شکل (4-2) نوشته ای با 12 خط متن، کمی متن زاویهدار، درشتی کلمات معمولی و با حاشیهای کم میباشد. در جدول (4-1) میبینیم اعداد مربوط به تعداد سطر،حاشیه متن، درشتی کلمات و زاویه متن بسیار مناسب میباشند.
شکل (4-3) نوشته ای با 16 خط متن، درشت با حاشیهای کم میباشد. در جدول (4-1) میبینیم اعداد مربوط به حاشیه متن، درشتی کلمات و زاویه متن بسیار مناسب میباشند. تنها خطای الگوریتم در تعداد خط میباشد که علت آن با توجه به الگوریتم تعداد خط، نقاط پیوسته حرف ش در ابتدای سطر 16 و نقاط پیوسته حرف ت در انتهای خط 7 و نوشتن حروف الف و ی کلمهی "خانهای" در سطرهای بالای کلمه "خانه" در سطر 9 میباشد.
شکل (4-4) نوشته ای با 12 خط متن، ریز با حاشیهای کم میباشد. در جدول (4-1) میبینیم اعداد مربوط به تعداد سطر،حاشیه متن، درشتی کلمات و زاویه متن بسیار مناسب میباشند.
جدول (4-1) خروجی الگوریتم استخراج ویژگی برای نمونهای از دستنوشتهها
شماره خطتعداد سطرحاشیه متندرشتی کلماتزاویه متن4-1512018/234-2126168/94-32064976/04-4126838/3
شکل(4-1) نمونهای از دستخط با جهت پایین و حاشیه زیاد
شکل(4-2) نمونهای از دستخط با جهت پایین و حاشیه کم
شکل(4-3) نمونهای از دستخط درشت و حاشیه کم
شکل(4-4) نمونهای از دستخط ریز و حاشیه کم
4-3 گروه بندی ویژگی ها
امروزه دستهبندی به عنوان مهمترین مسئلهی یادگیری با ناظر در بسیاری از حوزه ها و بخصوص تحلیل دادههای آماری و بازیابی اطلاعات مورد توجه بسیاری قرار گرفته است.
یادگیری تحت نظارت، یک روش عمومی در یادگیری ماشین است. یک مجموعه از مثالهای یادگیری وجود دارد بازای هر ورودی، مقدار خروجی و یا تابع مربوطه نیز مشخص است. هدف سیستم یادگیر بدست آوردن فرضیهای است که تابع و یا رابطه بین ورودی و یا خروجی را حدس بزند به این روش یادگیری با نظارت گفته میشود. به این معنی که یک شخص ناظری وجود دارد که برچسبگذاری برای تمایز دسته های مختلف را بر روی اسناد اعمال میکند.
4-3-1 مروری بر ابزارهای ماشین
در مجموعه مقالات بررسی شده جهت کلاس بندی از ابزارهای یادگیری ماشین مختلفی استفاده شده که به طور مختصر به آنها اشاره میشود.
شبکه عصبی :
فراوانی استفاده از شبکه عصبی نسبت به سایر کلاسی فایرها بیشتر می باشد در اغلب تحقیقات از شبکه عصبی سه لایه یک لایه پنهان یا میانی با آموزش ساختار پس انتشار خطا استفاده شده است.
شبکه های عصبی پس انتشار خطا معمولا دارای زمان آموزش بالا هستند ولی در صورت کافی بودن مثال های آموزشی پایداری قابل قبولی در مقابل نویز از خود نشان می دهند در شبکه های عصبی مورد استفاده در گرافولوژی ورودی های شبکه عصبی همان ویژگی هایی از دست خط هستند که استخراج شدند مانند تعداد خطوط اصلی ، طول خط ، زاویه خطوط ، درشتی خط و... و خروجی های شبکه عصبی پارامترهای روان شناختی میباشند4 . شبکه عصبی بعد از چند دور آموزش ، وزن های مناسب را ایجاد میکند پس آز آموزش شبکه عصبی ، وزن های شبکه عصبی به صورت ماتریس به دست میآید. ماتریس های وزن به صورت دو ماتریس برای وزن های بین لایه میانی با لایه ورودی و لایه میانی با لایه خروجی حاصل میشود . در شبکه های عصبی چنانچه تعداد نرون لایه میانی کم باشد سرعت یادگیری شبکه در فاز آموزش بالا میرود. مسأله دیگر این است که نباید بیش از اندازه به شبکه عصبی آموزش داد زیرا با آموزش زیاد از حد شبکه روی داده های آموزشی فیت میشود (overfitiny) و روی داده های واقعی خوب جواب نخواهد داد .
سییتم استنتاج فازی
روش دیگر جهت تصمیم گیری در مورد ویژگی های استخراج شده سیستم استنتاج فازی میباشد. در این روش ویژگی های هر دست خط استخراج شده و به سیستم فازی داده می شوند. تا پس از استنتاج در قوانین فازی خروجی مناسب را تولید کند که بیانگر ویژگی های شخصیتی نویسنده دستخط است 7.
به عنوان مثال در مقاله8، 5 ورودی شامل : ارزش ها ، شیب راست ، شیب چپ و خط پایه و میزان کنترل احساسات در مجموعه فازی در نظر گرفته شده ، درجه هر ورودی مشخص میکند که به کدام مجموعه فازی تعلق دارد تابع عضویت که تعیین کننده تعلق هر کدام از ورودی هاست بین 0 تا100 درصد تعیین میشود . در سیستم فازی مقاله مورد نظر روش ممدانی مورد استفاده قرار گرفته شده است .با توجه به مشخصات سیستم فازی طراحی شده 33 قانون برای تعیین سطح احساسات افراد تعریف شده است ورودی ها فازی شده و سپس به عنوان مقدم قوانین فازی مورد استفاده قرار میگیرند. اگر یک قانون فازی دارای چندین مقدم باشد از عملکردand برای ارزیابی مقدم و به دست آوردن یک عدد مشخص استفاده میشود. بعداز دریافت دست خط افراد و محاسبه شیب خط ورودی مورد نیاز سیستم فازی تولید میشود سپس با استفاده از قوانین فازی و تابع عضویت خروجی سیستم فازی بدست میآید خروجی را برای محاسبه در صد حقیقی میزان کنترل سطح احساسات افراد مورد آزمایش استفاده میشود8 .
ماشین بردار پشتیبان (SVM)
ماشین بردار پشتیبان یک طبقه بند بسیار کارا است که با استفاده از ایده حداکثر حاشیه به طبقه بندی داده ها می پردازد ایده حداکثر حاشیه به این معنی است که در فضای ویژگی ها به دنبال خط، صفحه یا ابر صفحه ای هستیم که فاصله نزدیکترین نمونه های هر کلاس از آن حداکثر باشد. در حالتی که نمونه های کلاسها را نتوان توسط یک ابر صفحه از هم جدا کرد آنها را به بعد بالاتری نگاشت میکنیم و طبقه بندی در فضایی با بعد بالاتر انجام میشود به منظور نگاشت نمونهها به بعد بالاتر عموما از کرنلهای غیرخطی استفاده میشود.
از معروفترین کرنلها میتوان به کرنل گاوسی و کرنل چند جمله ای اشاره نمود19.
4-3-2 بحث
در میان دسته بندهای متفاوت شبکه عصبی با توانایی دسته بندی غیر خطی با اتصالات میانی متعدد ممکن میان آنها قدرت تخمین دقیق مرزهای تصمیم پیچیده را دارد لذا از فراوانی بیشتر نسبت به سایر روشها برخوردار می باشد معمولا شبکه های پرسپترون چند لایه با الگوریتم آموزشی پس انتشار خطا بیشتر مورد استفاده قرار می گیرد.
مزیت اصلی استفاده از شبکه عصبی حساس نبودن آن به نویز است اما طبقه بندی منابع خطا در این دسته از روشها تقریبا غیر ممکن است مشکل دیگر شبکه های عصبی نیاز به حجم زیاد داده های آموزشی است. عملکرد شبکه های عصبی وابسته به انتخاب صحیح معیارهای مناسب میباشد . به نظر میرسد ترکیب دو روش فازی و شبکه عصبی مناسب باشد.
رویکرد فازی به عنوان یک ابزار قدرتمند در برخورد با عدم قطعیت توان خود را در کاربردهای مختلف نشان داده است.
ضعف درخت تصمیم حساس بودن آن به نویز می باشد به عبارتی کوچکترین خطا ساختار درخت را عوض میکند از کلاسه بندهایی که اشاره نشد مدل های مخفی مارکوف ، دسته بندهای ژنتیک نزدیک ترین همسایه می باشند.
4-3-3 درخت تصمیم
با توجه به اینکه در این پایان نامه از درخت تصمیم بعنوان دسته بند استفاده شده است، در این بخش به طور مفصل به آن خواهیم پرداخت.
یادگیري درخت تصمیم گیري یکی از پرکاربردترین و کارآمدترین متد هاي یادگیري استقرایی است. این متد در یادگیري توابع گسسته مقدار با داده هاي خطا دار به کار می رود.
استقرا ایجاد قوانین کلی از مجموعه مثالهاست. مثالها در قالب جداولی نمایش داده می شود که به آنها جداول تصمیم گیری گفته میشود . از طریق مثالها دانش استخراج میشود و در قالب درختی به نام درخت تصمیم گیری بازنمایی خواهند شد.
هر گره داخلی در درخت ، ویژگیای از نمونه را آزمایش میکند و هر شاخه ای که از آن گره خارج میشود متناظر یک مقدار ممکن برای آن ویژگی می باشد. همچنین هر گره برگ، بیانگر یک دسته بندی است. هر نمونه با شروع از گره ریشه درخت و آزمایش ویژگی مشخص شده توسط این گره و حرکت در شاخه متناظر با مقدار ویژگی داده شده در نمونه ، دسته بندی میشود. این فرآیند برای هر زیر درختی که گره جدید ،ریشه آن می باشد تکرار می شود. درخت تصمیم نمونه ها را به نحوی دسته بندی میکند که از ریشه به سمت پایین رشد میکنند و در نهایت به گره های برگ میرسد .
4-3-3-1 الگوریتم ID3
اکثر الگوریتم هایی که براي یادگیري درختی ایجاد شده نسخه هاي مختلف یک الگوریتم اساسی هستند که از جستجویی حریصانه و بالا به پایین براي جستجوي فضاي درخت هاي تصمیم گیري ممکن استفاده میکند . این روش الگوریتم ID3 نام دارد. ID3 از بهرهي اطلاعات براي انتخاب ویژگی در هر مرحله از رشد درخت استفاده میکند20.
براي تعریف دقیق بهرهي اطلاعات از تعریف معیار دیگري به نام آنتروپی ، که در تئوري اطلاعات کاربرد بسیار دارد، شروع میکنیم. این معیار یکدستی و عدم یکدستی یک دستهي دلخواه از نمونهها را مشخص می کند. داشتن دستهي S از نمونههاي مثبت و منفی مفهوم هدف، آنتروپی دسته S متناسب با این دسته بندي منطقی به صورت زیر تعریف می شود:
Entropy(s)= - p ⊕logp ⊕ - p ⊖logp ⊖
در این رابطه p⊕نسبت تعداد نمونههاي مثبت به تعداد کل نمونه ها و p ⊖نیز نسبت تعداد نمونههاي منفی به تعداد کل نمونه هاست. با داشتن آنتروپی به عنوان معیاري براي میزان یکدستی مجموعهاي از نمونههاي آموزشی، حال میتوانیم معیاري براي تأثیرگذاري یک ویژگی در دستهبندي نمونههاي آموزشی ارائه دهیم. همان طور که گفته شد این معیار بهرهي اطلاعات نامیده میشود. بهرهي اطلاعات میزان کاهش انتظاري آنتروپی از دسته بندي بر اساس ویژگی خاص است . به عبارت دقیقتر ، بهرهي اطلاعات ویژگی A برروی مجموعهی S، Gain(S,A) را بر حسب مجموعهي نمونههاي موجود به شکل زیر تعریف می کنیم:
Gain(S,A)=Entropy(S) - ∑(│Sv│∕│S│) Entropy(Sv)
Sv زیر تعداد نمونه هایی ازS هستند که برای ویژگی A مقدار V را دارند. جمله اول در رابطه فوق فقط خود آنتروپی مجموعهی S و جملهی دوم میانگین آنتروپی بعد از تقسیم S با ویژگیA است. Gain(S,A) میزان اطلاعاتی است که در مورد مقدار تابع هدف با داشتن مقدار ویژگی A بدست میآوریم. بهرهي اطلاعات دقیقاً معیاري است که در ID3 براي انتخاب بهترین ویژگی در هر مرحله از رشد درخت استفاده میشود.این الگوریتم درخت هاي کوتاه تر را بر درخت هاي بلند تر ترجیح می دهد.
ممکن است مواقعی که داده ها خطا دارند یا تعدادشان به اندازه ي کافی نیست که تابع هدف را کامل تعریف کنند مشکل ساز باشد. به هر حال در چنین مواقعی، این الگوریتم درخت هایی را خروجی می دهد که مشکل overfitدر نمونه هاي آموزشی دارند.روش هاي بسیاري براي حل مسئلهي overfit در یادگیري درختی موجود است. این روش ها به دو دستهي کلی تقسیم می شوند:
الف) روش هایی که جلوي رشد درخت را قبل از رسیدن به نقطه اي که تمامی نمونه ها را درست دسته بندي کند می گیرند، در این روش معلوم نیست که چه زمان باید جلوي رشد درخت گرفته شود
ب) روش هایی که اجازه می دهند تا درخت به اندازهي دلخواه رشد کند سپس درخت را هرس می کنند. این روش در کاربرد موفقیت بیشتري را از خود نشان دادهاند20.
4-3-4 شبیه سازی الگوریتم پیشنهادی
برای اجرای الگوریتم درخت تصمیم، ویژگیهای افراد و نوع شخصیت آنها را به شرح جدول (4-2) گروهبندی میکنیم:
جدول (4-2) گروه بندی شخصیت افراد
کلاسشخصیت1افسرده ، برون گرا ، فعال و متحرک2افسرده، درون گرا ، فعال و متحرک3افسرده، برون گرا ، ضعیف وکمرو4افسرده، درون گرا، ضعیف وکمرو5احساساتش را میتواند کنترل کند، برون گرا ، فعال و متحرک6احساساتش را میتواند کنترل کند، درون گرا ، فعال و متحرک7احساساتش را میتواند کنترل کند، برون گرا ، ضعیفوکمرو8احساساتش را میتواند کنترل کند، درون گرا، ضعیفوکمرو9افسرده، برون گرا، نرمال از لحاظ جنب و جوش10افسرده، درون گرا، نرمال از لحاظ جنب و جوش11افسرده، نرمال از جنبه درون گرایی و برون گرایی، فعال و متحرک12افسرده، نرمال از جنبه درون گرایی و برون گرایی، ضعیف و کم رو13احساساتش را میتواند کنترل کند ، برون گرا، نرمال از لحاظ جنب و جوش14احساساتش را میتواند کنترل کند ، درون گرا، نرمال از لحاظ جنب و جوش15احساساتش را میتواند کنترل کند ، نرمال از جنبه درون گرایی و برون گرایی، فعال و متحرک16احساساتش را میتواند کنترل کند ، نرمال از جنبه درون گرایی و برون گرایی، ضعیف و کم رو17احساساتش را میتواند کنترل کند ، نرمال از جنبه درون گرایی و برون گرایی، نرمال از لحاظ جنب و جوش18افسرده، نرمال از جنبه درون گرایی و برون گرایی، نرمال از لحاظ جنب و جوش
با توجه به اینکه دادههای پراکندگی متفاوتی داشتند در برخی از کلاسهای شخصیتی فوق نمونه دستخط کافی برای آموزش درخت تصمیم نداشتیم. لذا جدول(4-2) به شکل جدول (4-3) خلاصه گردید.
جدول (4-3) گروه بندی شخصیت افراد مورد استفاده در شبیه سازی
کلاسشخصیت1احساساتش را میتواند کنترل کند، برون گرا ، فعال و متحرک2احساساتش را میتواند کنترل کند، برون گرا ، ضعیفوکمرو3افسرده، برون گرا، نرمال از لحاظ جنب و جوش4افسرده، درون گرا، نرمال از لحاظ جنب و جوش5احساساتش را میتواند کنترل کند ، برون گرا، نرمال از لحاظ جنب و جوش6احساساتش را میتواند کنترل کند ، درون گرا، نرمال از لحاظ جنب و جوش7احساساتش را میتواند کنترل کند ، نرمال از جنبه درون گرایی و برون گرایی، نرمال از لحاظ جنب و جوش
دادههای آموزشی براساس جدول (4-4) به درخت آموزش داده میشود.
جدول (4-4) دادههای آموزشی
کلاسکجی متنحاشیه هادرشتی کلمات110 تا 60تا 72از 537 به بالا210 تا 60از 87 به بالااز 537 به بالا310 تا 60تا 72تا 319410 تا 60از 87 به بالاتا 31950 تا 9تا 72از 537 به بالا60 تا 9از 87 به بالااز 537 به بالا70 تا 9تا 72تا 31980 تا 9از 87 به بالاتا 319910 تا 60تا 72320 تا 5361010 تا 60از 87 به بالا320 تا 5361110 تا 6073 تا 89از 537 به بالا1210 تا 6073 تا 89تا 319130 تا 9تا 72320 تا 536140 تا 9از 87 به بالا320 تا 536150 تا 973 تا 89از 537 به بالا160 تا 973 تا 89تا 319
در این تحقیق جهت ساخت درخت تصمیم از تابع classregtree استفاده نمودیم. پس از آموزش الگوریتم، هر بردار دلخواه بر اساس این درخت کلاسبندی میگردد. شرح تابع classregtree در پیوست آمده است.
4-5 نتایج
بر اساس دستنوشته های جمع آوری شده، ویژگیهایی که بر اساس الگوریتم پیشنهادی استخراج شدهاند و پرسشنامه شخصیتی MMPI ، چندین آزمایش انجام شد که در این بخش به شرح آنها میپردازیم.
4-5-1 تشخیص فرد خبره
از مقایسه نتایج ویژگیهای استخراج شده از الگوریتم پیشنهادی و تشخیص فرد خبره بر روی 143 نمونه دستنوشته، به جدول شماره (4-5) رسیدیم.
جدول شماره (4-5) بررسی نتایج استخراج ویژگی
معیار استفاده شده در گرافولوژیتشخیص درست در نمونه دستنوشتههاکجی متن75%تعداد خط80%حاشیه88.2%درشتی خط79%
4-5-2 تشخیص انسانی
در بررسی دیگری، از بیست نفر از افرادی که نسبت به شخصیت آنها شناخت داشتیم خواستیم که متن مورد نظر ما را روی یک کاغذ بیخط بنویسند. سپس خروجی درخت تصمیم را با برداشتی که از شخصیت آنها داشتیم مقایسه نمودیم و نتیجه حاصل را به اشخاص اعلام نمودیم. نظر اشخاص مورد آزمایش و برداشت شخصی خود از شخصیت آنان، دقت 75% برای الگوریتم پیاده سازی شدهی ما را تایید مینماید.
4-5-3 راستیآزمایی با پرسشنامه شخصیتی MMPI
در بررسی نهایی، نتایج حاصل از پیاده سازی استخراج ویژگی و درخت تصمیم را با نتایج حاصل از پرسشنامه شخصیتی MMPI مقایسه نمودیم و این مقایسه دقت 60% را برای پیاده سازی ما تایید مینماید.
دلیل کاهش دقت هنگام مقایسه با پرسشنامه شخصیتی MMPI ، درست پاسخ ندادن سهوی یا عمدی افراد به سوالات پرسشنامه و عدم تطبیق کامل مقیاسهای پرسشنامه و کلاسبندیهای شخصیتی این تحقیق میباشد. علت دیگر کاهش دقت، ماهیت پرسشنامه شخصیتی MMPI میباشد. پرسشنامه مذکور بیشتر اختلال شخصیت را تشخیص میدهد به عنوان مثال ممکن است کسی که دستخط پایین رونده دارد، حالات افسردگی مانند غمگینی، بیحوصلگی و اهمالکاری داشته باشد ولی دچار اختلال افسردگی نباشد. لذا در نمودار T حاصل از نتیجه پرسشنامه شخصیتی MMPI ، مقیاس D که نشاندهنده افسردگی میباشد برافراشتگی نداشته باشد.
4-6 مقایسه با دیگر روشها
اخیراً، گرافولوژی دستنوشتههای انگلیسی به کمک کامپیوتر و روشهای بینایی ماشین انجام شدهاست. در این روشها، دست نوشتهها بر اساس ویژگیهایی از قبیل سرعت، نظم، خط سیر و غیره دستهبندی میشوند. از آنجا که گرافولوژی بر مبنای ویژگیهای دستنوشته است، زبان دستنوشته در استخراج ویژگیها مؤثر است. بنابراین، برای هر زبان از جمله زبان فارسی استخراج ویژگیهای مناسب دیداری برای گرافولوژی با استفاده از کامپیوتر امری ضروری است. در زمینه گرافولوژی دستنوشته فارسی کارهای اندکی انجام شده است8 . که به بررسی . مقایسه این کارها با این تحقیق میپردازیم.
در برخی تحقیقاتی که در زمینه گرافولوژی صورت گرفته است، تنها به استخراج ویژگی از دستنوشته و نهایتا مقایسه ویژگیهای استخراج شده با نظر افراد خبره اکتفا نمودند ولی هیچگونه دسته بندی با استفاده از ابزارهای یادگیری ماشین انجام نشده است 2و8. البته این تحقیقات در خصوص استخراج ویژگی بسیار ارزشمند بودهاند، خصوصاً مقاله2 که پایه و اساس اغلب تحقیقهای گرافولوژی در دستنوشتههای فارسی میباشد.
در تحقیقهای 4،6،7و19 از ابزارهای یادگیری ماشین برای دسته بندی و تشخیص خصوصیات روانشناختی افراد استفاده نمودند. در تحقیق 19 تنها تاثیر حالت روحی عجله بروی دستخط با استفاده از شبکه عصبی بررسی شده است و در تحقیق7 تنها شیب خط برای تشخیص هیجانات و احساسات افراد با کمک سیستم استنتاج فازی بررسی شده است. در تحقیق 6 تشخیص خصوصیات افراد با کمک سیستم استنتاج فازی صورت گرفته است. در هیچ کدام از تحقیق های صورت گرفته فوق کاری در راستای راستی آزمایی صورت نگرفته است. در تحقیق 4 پیش بینی خصوصیات روانشناختی افراد از روی دستخط با کمک شبکه عصبی صورت گرفته است و از پرسشنامه شخصیتیMMPI جهت مدل کردن سیستم استفاده نموده است. ما در این تحقیق برای اولین بار از درخت تصمیم به منظور دستهبندی ویژگیهای استخراج شده از دستخط استفاده نمودیم و از میان کارهای انجام شده مذکور، این تحقیق تنها تحقیقی است که از یک پرسشنامه شخصیتی به منظور راستیآزمایی الگوریتم خود استفاده نمودهاست.
فهرست منابع