کاربرد داده‌کاوی با استفاده از الگوریتم‌های یادگیری ماشین برای بررسی تاثیر ویژگی‌های خودرو در پیش‌بینی ریسک خسارت مالی در رشته بیمه شخص ثالث

نوع مقاله : مقاله علمی - پژوهشی

نویسندگان

1 استادیار دانشکده علوم ریاضی و رایانه دانشگاه علامه طباطبایی (نویسنده مسئول)

2 استادیار پژوهشکده بیمه و مسئول میز تخصصی طراحی الگوریتم و یادگیری ماشین

3 پژوهشگر پژوهشکده بیمه و مسئول میز تخصصی بیمه‌های اتومبیل

10.22056/jir.2020.228093.2724

چکیده

هدف: طبقه‌بندی ریسک بیمه‌گذاران بر مبنای ویژگی‌های قابل مشاهده می‌تواند به شرکت‌های بیمه جهت کاهش زیان، شناخت دقیق‌تر مشتریان و جلوگیری از وقوع انتخاب نامساعد در بازار بیمه کمک شایانی کند. هدف این مقاله، بررسی خسارت‌های مالی ایجاد شده در بیمه شخص ثالث و پیش‌بینی ریسک بیمه‌گذاران در احتمال وقوع حادثه می‌باشد.
روش‌شناسی: با استفاده از الگوریتم‌های درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و شبکه عصبی؛ به کشف الگوهای پنهان داده‌ها، در راستای طبقه‌بندی بیمه‌گذاران بیمه شخص ثالث پرداخته شده است. همچنین توزیع نامتعادل داده‌ها در دو گروه خسارت‌دیده و خسارت‌ندیده سبب یک چالش مهم در کاربرد روش‌های یادگیری ماشین و داده‌کاوی است که در این مقاله مورد توجه قرار گرفته است.
یافته‌ها: مجموعه داده متعلق به یکی از شرکت‌های بیمه و حاوی بیش از چهارصد هزار نمونه ثبت شده در پنج سال و شامل چهار متغیر مستقل نوع خودرو، گروه خودرو، نوع پلاک و سن خودرو و یک متغیر وابسته و دو ارزشی خسارت مالی است. با توجه به نتایج بدست آمده بهترین کارکرد و دقت پیش‌بینی (با دقت F1=) مربوط به مدل درخت تصمیم می‌باشد.
نتیجه‌گیری: میزان تاثیرگذاری متغیرها در وقوع خسارت به ترتیب اولویت عبارتنداز: نوع خودرو، نوع پلاک، سن خودرو و گروه خودرو. نتایج ارزیابی نشان می‌دهد برای پیش‌بینی دقیق‌تر خسارت و مشتریان پر ریسک به داده‌های بیشتری مرتبط با ویژگی‌های راننده نیاز می‌باشد.
 
طبقه‌بندی موضوعی:G22, G17, F47

کلیدواژه‌ها


عنوان مقاله [English]

Application of Data Mining through Machine Learning Algorithms to Study Effect of Car Features in Predicting Financial Claim of Motor Third Party Liability Insurance

نویسندگان [English]

  • Mohammadreza Asghari Oskoei 1
  • Farbod Khanizadeh 2
  • Azadeh Bahador 3
1 Computer Science Dept. Allameh Tabataba'i University
2 Insurance Research Center
3 Insurance Research Center
چکیده [English]

Objective: Risk classification of insurance customers, based on the observable characteristics, can significantly help insurers mitigate losses, classify their customers and prevent adverse selection. This paper aims to study losses occurred in motor Third Party Liability (TPL) insurance and predict customers’ risk of loss.
Methodology: With the help of four supervised algorithms namely; decision tree, SVM, naïve Bayes and neural network hidden pattern of data is discovered to classify customers of TPL insurance. Furthermore, the imbalanced dataset was the main challenge for implementing machine learning and data mining techniques which will be discussed throughout the article.
Findings: The dataset contains more than 400,000 observations for five years from an Iranian insurance company. It also has five variables of which four are independent: car type, car group, plate type, car age; and one binary dependent variable: financial loss. Comparing the model performances, decision tree is the most efficient (F1=0.72±1).
Conclusions: The model provides prioritization of independent features as follows: car type, plate type, car age, car group. Findings also suggest that to obtain more accurate prediction on claims and high-risk customers, more features concerning drivers’ traits are required.
 
JEL-Classification: G22, G17, F47

کلیدواژه‌ها [English]

  • Insurance Customer Classification
  • decision tree
  • Support Vector Machine
  • Naïve Bayes
  • Neural Networks
  1. اصغری‌اسکوئی، محمدرضا، (1394)، کاربرد روش پنجره لغزان برای انتخاب ساختار شبکه عصبی با تاخیر زمانی در پیش‌بینی سری‌های زمانی مالی، فصلنامه پژوهشنامه اقتصادی، سال پانزدهم، شماره 57، ص 75-108.
  2. اصغری‌اسکوئی، محمدرضا و قاسم‌زاده، محمد، (1395)، کاربرد قواعد کشفی و الگوریتم ژنتیک در ساخت مدل ARMA برای پیش‌بینی سری‌زمانی، ژورنال مدیریت فناوری اطلاعات، دانشگاه تهران، دوره 8، شماره 1، ص 1-26 .
  3. ایزدپرست، محمود، (1390)، دسته‌بندی مشتریان بیمه با استفاده از داده‌کاوی، تازه‌های جهان بیمه، شماره 161.
  4. بهادر، آزاده، استادرمضان، آذین و خانی‌زاده، فربد، (1396)، بررسی امکان صدور بیمه‌نامه شخص ثالث بر اساس ویژگی‌های راننده (تبصره 1 ماده 18 قانون جدید بیمه شخص ثالث) و ارائه آیین‌نامه پیشنهادی، پژوهشکده بیمه.
  5. ترکستانی، محمد صالح؛ ده‌پناه، آرمان؛ تقوی‌فرد، محمدتقی و شفیعی، شهرام، (1395)، ارائه چارچوبی برای اصلاح نرخ حق بیمه در رشته بدنه اتومبیل با استفاده از مدل شبکه‌های عصبی (مطالعه موردی: شرکت بیمه آسیا)، مدیریت فناوری اطلاعات، دوره 8، شماره 4.
  6. حاجی‌حیدری، نسترن؛ خالهء، سامرند و فراهی، احمد، (1390)، طبقه‌بندی میزان ریسک بیمه‌گذاران بیمه بدنه خودرو با استفاده از الگوریتم‌های داده کاوی (مورد مطالعه: یک شرکت بیمه)، پژوهشنامه بیمه، سال بیست‌وششم، شماره 4.
  7. حنفی‌زاده، پیام و رستخیز پایدار، ندا، (1390)، مدلی جهت دسته‌بندی ریسکی گروه‌های مشتریان بیمه بدنه اتومبیل بر اساس ریسک با استفاده از تکنیک داده‌کاوی (مورد مطالعه: بیمه بدنه اتومبیل در یک شرکت بیمه‌ای)، پژوهشنامه بیمه، سال بیست و ششم، شماره 2.
  8. فتح‌نژاد، فرامرز و ایزدپرست، محمود، (1390)، ارائه چهارچوب برای پیش‌بینی سطح خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده‌کاوی، تازه‌های جهان بیمه، شماره 156.
  9. کریم‌زادگان مقدم، داود و بهروان، مجید، (1394)، ارائه راهکاری برای تعرفه‌گذاری پویا در صنعت بیمه با استفاده از تکنیک داده‌کاوی (مورد مطالعه: بیمه شخص ثالث، پژوهشنامه بیمه، شماره 4.
    1. Baecke, P., & Bocca, L., (2017). The value of vehicle telematics data in insurance risk selection processes. Decision Support Systems, 98, 69.
    2. David, M., (2015). Auto insurance premium calculation using generalized linear models. Procedia Economics and Finance, 20(15), pp.147-156.
    3. Frempong, N.K., Nicholas, N. and Boateng, M.A., (2017). Decision tree as a predictive modeling tool for auto insurance claims. Int. J. Statist. Appl., 7(2), pp.117-120.
    4. Kašćelan, V., Kašćelan, L. and Novović Burić, M., (2016). A nonparametric data mining approach for risk prediction in car insurance. Economic research-Ekonomska istraživanja, 29(1), pp.545-558.
    5. Thakur, S.S. and Sing, J.K., (2013). Mining Customer's Data for Vehicle Insurance Prediction System using k-Means Clustering-An Application. International journal of computer Applications in Engineering sciences, 3(4), p.148.
    6. Wuyu, S. and Cerna, P., (2019). Risk Assessment Predictive Modelling in Insurance Industry Using Data Mining. Software Engineering, 6(4), p.121.
    7. Yunos, Z.M., Ali, A., Shamsyuddin, S.M. and Ismail, N., (2016). Predictive Modelling for Motor Insurance Claims Using Artificial Neural Networks. Int. J. Advance Soft Compu. Appl, 8(3).