کاربرد داده‌کاوی با استفاده از الگوریتم‌های یادگیری ماشین برای بررسی تاثیر ویژگی‌های خودرو در پیش‌بینی ریسک خسارت مالی در رشته بیمه شخص ثالث

نوع مقاله : مقاله علمی - پژوهشی

نویسندگان

1 استادیار دانشکده علوم ریاضی و رایانه دانشگاه علامه طباطبایی (نویسنده مسئول)

2 استادیار پژوهشکده بیمه و مسئول میز تخصصی طراحی الگوریتم و یادگیری ماشین

3 پژوهشگر پژوهشکده بیمه و مسئول میز تخصصی بیمه‌های اتومبیل

10.22056/jir.2020.228093.2724

چکیده

هدف: طبقه‌بندی ریسک بیمه‌گذاران بر مبنای ویژگی‌های قابل مشاهده می‌تواند به شرکت‌های بیمه جهت کاهش زیان، شناخت دقیق‌تر مشتریان و جلوگیری از وقوع انتخاب نامساعد در بازار بیمه کمک شایانی کند. هدف این مقاله، بررسی خسارت‌های مالی ایجاد شده در بیمه شخص ثالث و پیش‌بینی ریسک بیمه‌گذاران در احتمال وقوع حادثه می‌باشد.
روش‌شناسی: با استفاده از الگوریتم‌های درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و شبکه عصبی؛ به کشف الگوهای پنهان داده‌ها، در راستای طبقه‌بندی بیمه‌گذاران بیمه شخص ثالث پرداخته شده است. همچنین توزیع نامتعادل داده‌ها در دو گروه خسارت‌دیده و خسارت‌ندیده سبب یک چالش مهم در کاربرد روش‌های یادگیری ماشین و داده‌کاوی است که در این مقاله مورد توجه قرار گرفته است.
یافته‌ها: مجموعه داده متعلق به یکی از شرکت‌های بیمه و حاوی بیش از چهارصد هزار نمونه ثبت شده در پنج سال و شامل چهار متغیر مستقل نوع خودرو، گروه خودرو، نوع پلاک و سن خودرو و یک متغیر وابسته و دو ارزشی خسارت مالی است. با توجه به نتایج بدست آمده بهترین کارکرد و دقت پیش‌بینی (با دقت F1=) مربوط به مدل درخت تصمیم می‌باشد.
نتیجه‌گیری: میزان تاثیرگذاری متغیرها در وقوع خسارت به ترتیب اولویت عبارتنداز: نوع خودرو، نوع پلاک، سن خودرو و گروه خودرو. نتایج ارزیابی نشان می‌دهد برای پیش‌بینی دقیق‌تر خسارت و مشتریان پر ریسک به داده‌های بیشتری مرتبط با ویژگی‌های راننده نیاز می‌باشد.
 
طبقه‌بندی موضوعی:G22, G17, F47

کلیدواژه‌ها


عنوان مقاله [English]

Application of Data Mining through Machine Learning Algorithms to Study Effect of Car Features in Predicting Financial Claim of Motor Third Party Liability Insurance

نویسندگان [English]

  • Mohammadreza Asghari Oskoei 1
  • Farbod Khanizadeh 2
  • Azadeh Bahador 3
1 Computer Science Dept. Allameh Tabataba'i University
2 Insurance Research Center
3 Insurance Research Center
چکیده [English]

Objective: Risk classification of insurance customers, based on the observable characteristics, can significantly help insurers mitigate losses, classify their customers and prevent adverse selection. This paper aims to study losses occurred in motor Third Party Liability (TPL) insurance and predict customers’ risk of loss.
Methodology: With the help of four supervised algorithms namely; decision tree, SVM, naïve Bayes and neural network hidden pattern of data is discovered to classify customers of TPL insurance. Furthermore, the imbalanced dataset was the main challenge for implementing machine learning and data mining techniques which will be discussed throughout the article.
Findings: The dataset contains more than 400,000 observations for five years from an Iranian insurance company. It also has five variables of which four are independent: car type, car group, plate type, car age; and one binary dependent variable: financial loss. Comparing the model performances, decision tree is the most efficient (F1=0.72±1).
Conclusions: The model provides prioritization of independent features as follows: car type, plate type, car age, car group. Findings also suggest that to obtain more accurate prediction on claims and high-risk customers, more features concerning drivers’ traits are required.
 
JEL-Classification: G22, G17, F47

کلیدواژه‌ها [English]

  • Insurance Customer Classification
  • decision tree
  • Support Vector Machine
  • Naïve Bayes
  • Neural Networks