مدل سازی پیش بینی (predictive modeling) چیست؟
مدلسازی پیشبینیکننده یک فرآیند ریاضی است که برای پیشبینی رویدادها یا نتایج آینده با تحلیل الگوها در مجموعه دادههای ورودی استفاده میشود. این یک جزء حیاتی از تجزیه و تحلیل پیش بینی است، نوعی از تجزیه و تحلیل داده ها که از داده های فعلی و تاریخی برای پیش بینی فعالیت، رفتار و روندها استفاده می کند.
نمونههایی از مدلسازی پیشبینیکننده شامل تخمین کیفیت سرنخ فروش، احتمال ارسال هرزنامه یا احتمال اینکه کسی روی پیوند کلیک کند یا محصولی را بخرد، میشود. این قابلیتها اغلب در برنامههای تجاری مختلف گنجانده میشوند، بنابراین ارزش درک مکانیزم مدلسازی پیشبینی برای عیبیابی و بهبود عملکرد را دارد.
اگرچه مدلسازی پیشبینی بر تمرکز بر پیشبینی آینده دلالت دارد، اما میتواند نتایج را نیز پیشبینی کند (به عنوان مثال، احتمال تقلب یک معامله). در این مورد، واقعه قبلاً اتفاق افتاده است (تقلب انجام شده). هدف در اینجا این است که پیشبینی کنیم که آیا تحلیلهای آینده متوجه میشود که معامله تقلبی است یا خیر. مدلسازی پیشبینیکننده همچنین میتواند نیازمندیهای آینده را پیشبینی کند یا تجزیه و تحلیل what-if را تسهیل کند.
Donncha Carroll یکی از شرکای رشد درآمد شرکت Axiom Consulting Partners توضیح داد: «مدلسازی پیشبینیکننده شکلی از دادهکاوی است که دادههای تاریخی را با هدف شناسایی روندها یا الگوها و سپس استفاده از این بینشها برای پیشبینی نتایج آینده، تجزیه و تحلیل میکند. اساساً این سؤال را مطرح میکند که «آیا قبلاً این را دیدهام» و به دنبال آن، «معمولاً پس از این الگو چه میآید».
انواع برتر مدل های پیش بینی
راههای زیادی برای طبقهبندی مدلهای پیشبینی وجود دارد و در عمل ممکن است چندین مدل برای بهترین نتایج ترکیب شوند. برجسته ترین تمایز بین مدل های بدون نظارت در مقابل مدل های تحت نظارت است.
- مدلهای بدون نظارت از آمار سنتی برای طبقهبندی مستقیم دادهها با استفاده از تکنیکهایی مانند رگرسیون لجستیک، تجزیه و تحلیل سریهای زمانی و درختهای تصمیم استفاده میکنند.
- مدلهای تحت نظارت از تکنیکهای جدیدتر یادگیری ماشین مانند شبکههای عصبی برای شناسایی الگوهای مدفون در دادههایی که قبلاً برچسبگذاری شدهاند، استفاده میکنند.
بزرگترین تفاوت بین این رویکردها این است که در مدلهای نظارت شده باید دقت بیشتری برای برچسبگذاری صحیح مجموعه دادهها از قبل انجام شود.
Scott Buchholz، مدیر ارشد فناوری دولتی و خدمات عمومی و مدیر تحقیقات فناوری نوظهور در Deloitte Consulting، گفت: «کاربرد انواع مختلف مدلها بیشتر مربوط به دامنه خاص است تا خاص صنعت.
در موارد خاص، به عنوان مثال، تحلیل رگرسیون آماری استاندارد ممکن است بهترین قدرت پیش بینی را ارائه دهد. در موارد دیگر، مدل های پیچیده تر رویکرد درستی هستند. به عنوان مثال، در یک بیمارستان، تکنیکهای آماری کلاسیک ممکن است برای شناسایی محدودیتهای کلیدی برای زمانبندی کافی باشد، اما شبکههای عصبی، نوعی یادگیری عمیق، ممکن است برای بهینهسازی تخصیص بیمار به پزشکان مورد نیاز باشند.
هنگامی که دانشمندان داده این داده های نمونه را جمع آوری کردند، باید مدل مناسب را انتخاب کنند. رگرسیون خطی یکی از ساده ترین انواع مدل های پیش بینی است. مدلهای خطی دو متغیر را میگیرند که همبسته هستند – یکی مستقل و دیگری وابسته – و یکی را روی محور x و دیگری را روی محور y ترسیم میکنند. مدل بهترین خط برازش را برای نقاط داده حاصل اعمال می کند. دانشمندان داده می توانند از این برای پیش بینی رخدادهای آینده متغیر وابسته استفاده کنند.
برخی از محبوب ترین روش ها شامل موارد زیر است:
- درختان تصمیم الگوریتمهای درخت تصمیم، دادهها (کاوششده، منبع باز، داخلی) را میگیرند و آنها را در شاخهها ترسیم میکنند تا نتایج احتمالی تصمیمهای مختلف را نمایش دهند. درختهای تصمیم متغیرهای پاسخ را طبقهبندی میکنند و متغیرهای پاسخ را بر اساس تصمیمهای گذشته پیشبینی میکنند، میتوانند با مجموعه دادههای ناقص استفاده شوند و برای دانشمندان داده مبتدی به راحتی قابل توضیح و در دسترس هستند.
- تحلیل سری های زمانی این یک تکنیک برای پیشبینی رویدادها از طریق یک توالی زمانی است. شما می توانید رویدادهای آینده را با تجزیه و تحلیل روندهای گذشته و برون یابی از آنجا پیش بینی کنید.
- رگرسیون لجستیک این روش یک روش تحلیل آماری است که به تهیه داده ها کمک می کند. همانطور که داده های بیشتری وارد می شود، توانایی الگوریتم برای مرتب سازی و طبقه بندی آن بهبود می یابد و بنابراین می توان پیش بینی هایی انجام داد.
- شبکه های عصبی. این تکنیک حجم زیادی از داده های برچسب گذاری شده را در جستجوی همبستگی بین متغیرها در داده ها بررسی می کند. شبکه های عصبی اساس بسیاری از نمونه های امروزی هوش مصنوعی (AI) از جمله تشخیص تصویر، دستیاران هوشمند و تولید زبان طبیعی را تشکیل می دهند.
پیچیده ترین حوزه مدل سازی پیش بینی، شبکه عصبی است. این نوع از مدل یادگیری ماشینی به طور مستقل حجم زیادی از داده های برچسب گذاری شده را در جستجوی همبستگی بین متغیرها در داده ها بررسی می کند. حتی میتواند همبستگیهای ظریفی را که تنها پس از بررسی میلیونها نقطه داده ظاهر میشوند، شناسایی کند. سپس الگوریتم میتواند درباره فایلهای داده بدون برچسب استنتاج کند که از نظر نوع شبیه به مجموعه دادهای است که روی آن آموزش داده شده است.
الگوریتم های رایج برای مدل سازی پیش بینی
- جنگل تصادفی این الگوریتم درختهای تصمیم نامرتبط را ترکیب میکند و از طبقهبندی و رگرسیون برای سازماندهی و برچسبگذاری مقادیر زیادی از دادهها استفاده میکند.
- مدل افزایش یافته گرادیان. این الگوریتم مشابه Random Forest از چندین درخت تصمیم استفاده می کند، اما در این روش هر درخت عیوب قبلی را تصحیح می کند و تصویر دقیق تری می سازد.
- K-Means. این الگوریتم نقاط داده را به روشی مشابه مدل های خوشه بندی گروه بندی می کند و در ابداع پیشنهادات خرده فروشی شخصی سازی شده محبوب است. با جستجوی شباهتها در میان گروههای بزرگ مشتریان، پیشنهادات شخصیسازی شده را ایجاد میکند.
- نبی – پیامبر. این الگوریتم یک روش پیشبینی است، به ویژه در هنگام سر و کار داشتن با برنامهریزی ظرفیت. این الگوریتم با داده های سری زمانی سروکار دارد و نسبتاً انعطاف پذیر است.
کاربردهای مدل سازی پیش بینی چیست؟
مدلسازی پیشبینی اغلب با هواشناسی و پیشبینی آبوهوا همراه است، اما مدلهای پیشبینی کاربردهای زیادی در تجارت دارند. تکنیکهای تحلیل پیشبینیکننده امروزی میتوانند الگوهایی را در دادهها برای شناسایی ریسکها و فرصتهای آتی برای یک سازمان کشف کنند.
بوکهلز گفت: «تقریباً هر جایی که یک انسان باهوش مرتباً در یک محیط غنی از دادههای تاریخی پیشبینی میکند، استفاده خوبی برای تحلیلهای پیشبینیکننده است». از این گذشته، مدل هیچ منیتی ندارد و خسته نمیشود.»
یکی از رایج ترین کاربردهای مدل سازی پیش بینی در تبلیغات و بازاریابی آنلاین است. مدلسازان از دادههای تاریخی وبگردها استفاده میکنند تا مشخص کنند کاربران ممکن است به چه نوع محصولاتی علاقهمند باشند و احتمالاً روی چه چیزی کلیک کنند.
فیلترهای هرزنامه بیزی از مدلسازی پیشبینیکننده برای شناسایی احتمال اسپم بودن یک پیام استفاده میکنند.
در تشخیص تقلب، مدلسازی پیشبینیکننده برای شناسایی موارد پرت در مجموعه دادههایی که به فعالیتهای متقلبانه اشاره میکنند، استفاده میشود. در مدیریت ارتباط با مشتری، مدلسازی پیشبینیکننده برای هدف قرار دادن پیامها به مشتریانی که احتمال خرید دارند، استفاده میشود.
کارول گفت که مدل سازی پیش بینی به طور گسترده ای در تعمیر و نگهداری پیش بینی استفاده می شود، که تبدیل به صنعت بزرگی شده است که میلیاردها دلار درآمد ایجاد می کند. یکی از نمونه های قابل توجه تر را می توان در صنعت هواپیمایی یافت که در آن مهندسان از دستگاه های IoT برای نظارت از راه دور عملکرد اجزای هواپیما مانند پمپ های سوخت یا موتورهای جت استفاده می کنند.
این ابزارها استقرار پیشگیرانه منابع تعمیر و نگهداری را برای افزایش استفاده از تجهیزات و محدود کردن خرابی های غیرمنتظره امکان پذیر می کند. کارول گفت: «این اقدامات میتوانند به طور معناداری کارایی عملیاتی را در دنیایی که به موقع اجرا میشود و در آن غافلگیری میتواند بسیار گران باشد، بهبود بخشد.
سایر زمینه هایی که در آن مدل های پیش بینی استفاده می شود شامل موارد زیر است:
- برنامه ریزی ظرفیت
- مدیریت تغییر
- بازیابی فاجعه
- مهندسی
- مدیریت امنیت فیزیکی و دیجیتالی
- برنامه ریزی شهری
چگونه یک مدل پیش بینی بسازیم
ساختن یک مدل پیشبینیکننده با شناسایی دادههای تاریخی شروع میشود که نشاندهنده نتیجهای است که میخواهید پیشبینی کنید.
کارول گفت: «این مدل میتواند نتایج را از دادههای تاریخی استنباط کند، اما نمیتواند آنچه را که قبلاً ندیده است، پیشبینی کند. بنابراین، حجم و وسعت اطلاعات مورد استفاده برای آموزش مدل برای اطمینان از پیشبینی دقیق آینده بسیار مهم است.
گام بعدی شناسایی راه هایی برای پاکسازی، تبدیل و ترکیب داده های خام است که منجر به پیش بینی های بهتر می شود.
مهارت نه تنها در یافتن مجموعه مناسب از دادههای خام، بلکه تبدیل آن به ویژگیهای دادهای که برای یک مدل معین مناسبترین هستند، مورد نیاز است. برای مثال، محاسبات میانگینهای هفتگی در جعبه زمانی ممکن است مفیدتر باشد و منجر به الگوریتمهای بهتری نسبت به سطوح بلادرنگ شود.
همچنین حذف داده هایی که تصادفی هستند یا به یک مدل مرتبط نیستند، مهم است. در بهترین حالت، داده های اضافی باعث کاهش سرعت مدل می شود و در بدترین حالت، منجر به مدل های کمتر دقیق می شود.
این هم هنر است و هم علم. هنر در پرورش یک احساس درونی برای معنای چیزها و شهود کردن علل زیربنایی نهفته است. علم در استفاده روشمند از الگوریتم ها برای دستیابی به نتایج قابل اعتماد و سپس ارزیابی این الگوریتم ها در طول زمان نهفته است. فقط به این دلیل که فیلتر هرزنامه در روز اول کار می کند به این معنی نیست که بازاریابان پیام های خود را تنظیم نمی کنند و این باعث می شود فیلتر کارایی کمتری داشته باشد.
تجزیه و تحلیل بخشهای معرف اطلاعات موجود – نمونهبرداری – میتواند به سرعت بخشیدن به زمان توسعه در مدلها کمک کند و آنها را قادر میسازد تا سریعتر به کار گرفته شوند.
مزایای مدل سازی پیش بینی کننده
فیل کوپر، معاون گروه محصولات در Clari، یک استارت آپ نرم افزار RevOps، گفت که برخی از مزایای برتر مدل سازی پیش بینی در تجارت عبارتند از:
- اولویت بندی منابع مدل سازی پیش بینی برای شناسایی تبدیل سرنخ فروش و ارسال بهترین سرنخ ها به تیم های فروش داخلی استفاده می شود. پیش بینی کنید که آیا یک پرونده خدمات مشتری تشدید خواهد شد و تریاژ و مسیریابی مناسب آن. و پیش بینی کنید که آیا یک مشتری صورتحساب خود را به موقع پرداخت می کند و گردش کار حساب های دریافتنی را بهینه می کند.
- بهبود حاشیه سود. مدلسازی پیشبینیکننده برای پیشبینی موجودی، ایجاد استراتژیهای قیمتگذاری، پیشبینی تعداد مشتریان و پیکربندی طرحبندی فروشگاه برای به حداکثر رساندن فروش استفاده میشود.
- بهینه سازی کمپین های بازاریابی مدلسازی پیشبینیکننده برای کشف بینشهای جدید مشتری و پیشبینی رفتارها بر اساس ورودیها استفاده میشود و به سازمانها اجازه میدهد تا استراتژیهای بازاریابی را تنظیم کنند، مشتریان ارزشمند را حفظ کنند و از فرصتهای فروش متقابل استفاده کنند.
- کاهش ریسک. تجزیه و تحلیل پیشبینیکننده میتواند فعالیتهای غیرعادی مانند تراکنشهای جعلی، جاسوسی شرکتی یا حملات سایبری را شناسایی کند تا زمان واکنش و پیامدهای منفی را کاهش دهد.
تکنیکهای مورد استفاده در مدلسازی پیشبینیکننده احتمالاتی هستند در مقابل قطعی. این بدان معناست که مدلها احتمالات یک نتیجه را تولید میکنند و برخی عدم قطعیت را شامل میشوند.
کوپر گفت: «این یک تفاوت اساسی و ذاتی بین مدلسازی دادههای حقایق تاریخی در مقابل پیشبینی رویدادهای آینده (بر اساس دادههای تاریخی) است و پیامدهایی برای نحوه انتقال این اطلاعات به کاربران دارد. درک این تفاوت یک ضرورت حیاتی برای شفافیت و توضیح در نحوه ایجاد یک پیشبینی یا توصیه است.
چالش های مدل سازی پیش بینی
در اینجا به برخی از چالش های مربوط به مدل سازی پیش بینی می پردازیم.
آماده سازی داده ها یکی از چالشهای اغلب نادیده گرفته شده در مدلسازی پیشبینی، به دست آوردن مقدار صحیح داده و مرتبسازی دادههای مناسب برای استفاده در هنگام توسعه الگوریتمها است. بر اساس برخی تخمین ها، دانشمندان داده حدود 80 درصد از زمان خود را صرف این مرحله می کنند. اگر این داده ها به درستی مدیریت و پاکسازی نشوند، جمع آوری داده ها مهم است، اما از نظر سودمندی محدود است.
پس از مرتبسازی دادهها، سازمانها باید مراقب باشند تا از برازش بیش از حد جلوگیری کنند. آزمایش بیش از حد بر روی دادههای آموزشی میتواند منجر به مدلی شود که بسیار دقیق به نظر میرسد، اما نکات کلیدی مجموعه دادهها را به جای آموختن نحوه تعمیم به خاطر سپرده است.
موانع فنی و فرهنگی در حالی که مدلسازی پیشبینی اغلب به عنوان یک مسئله ریاضی در نظر گرفته میشود، کاربران باید برای موانع فنی و سازمانی که ممکن است مانع از دریافت دادههای مورد نیازشان شود، برنامهریزی کنند. اغلب، سیستم هایی که داده های مفید را ذخیره می کنند، مستقیماً به انبارهای داده متمرکز متصل نیستند. همچنین، برخی از مشاغل ممکن است احساس کنند که داده هایی که مدیریت می کنند دارایی آنها است و ممکن است آنها را آزادانه با تیم های علم داده به اشتراک نگذارند.
انتخاب مورد تجاری مناسب. یکی دیگر از موانع بالقوه برای ابتکارات مدلسازی پیشبینیکننده این است که مطمئن شویم پروژهها به چالشهای تجاری مهم رسیدگی میکنند. گاهی اوقات، دانشمندان داده همبستگی هایی را کشف می کنند که در آن زمان جالب به نظر می رسند و الگوریتم هایی را برای بررسی بیشتر این همبستگی می سازند. با این حال، فقط به این دلیل که آنها چیزی را پیدا می کنند که از نظر آماری قابل توجه است، به این معنی نیست که بینشی را ارائه می دهد که کسب و کار می تواند از آن استفاده کند. طرحهای مدلسازی پیشبینیکننده باید پایه محکمی از ارتباط تجاری داشته باشند.
جانبداری. کارول گفت: «یکی از مشکلات مبرمتری که همه درباره آن صحبت میکنند، اما تعداد کمی به طور مؤثر به آن پرداختهاند، چالش تعصب است. سوگیری به طور طبیعی از طریق داده های تاریخی به سیستم وارد می شود زیرا نتایج گذشته منعکس کننده سوگیری موجود است.
نیت نیکولز، مدیر برجسته در Narrative Science، ارائهدهنده ابزارهای تولید زبان طبیعی، از نقشی که روشهای جدید یادگیری ماشینی قابل توضیح مانند LIME یا SHAP میتوانند در رفع نگرانیها در مورد سوگیری و ارتقای اعتماد ایفا کنند، هیجانزده است.
نیکولز گفت: «افراد زمانی به مدلها اعتماد بیشتری میکنند که درک درستی از آنچه مدلها انجام میدهند داشته باشند، و اعتماد برای قابلیتهای تحلیلی پیشبینیکننده مهم است. او گفت که توانایی ارائه توضیحات برای پیشبینیها، یک تمایز مثبت بزرگ در زمینه شلوغ محصولات تحلیلی پیشبینیکننده است.
مدل سازی پیش بینی در مقابل تجزیه و تحلیل پیش بینی
مدلسازی پیشبینیکننده تنها یک جنبه در چرخه فرآیند تحلیل پیشبینیکننده بزرگتر است. این شامل جمعآوری، تبدیل، تمیز کردن و مدلسازی دادهها با استفاده از متغیرهای مستقل، و سپس تکرار اگر مدل کاملاً با مشکلی که باید پرداخته نمیشود، باشد، میشود.
تری سیج، مدیر ارشد فناوری در 1010data، یک مشاور تحلیلی، میگوید: زمانی که دادهها جمعآوری، تبدیل و پاکسازی شدند، مدلسازی پیشبینیکننده روی دادهها انجام میشود.
جمع آوری داده ها، تبدیل و پاکسازی فرآیندهایی هستند که برای انواع دیگر توسعه تحلیلی استفاده می شوند.
سیج توضیح داد: “تفاوت با تجزیه و تحلیل پیش بینی در گنجاندن و کنار گذاشتن متغیرها در طول فرآیند مدل سازی تکراری است.”
این در صنایع مختلف و موارد استفاده متفاوت خواهد بود، زیرا دادههای متنوعی استفاده میشود و متغیرهای مختلفی در طول تکرار مدلسازی کشف میشوند.
برای مثال، در مراقبتهای بهداشتی، مدلهای پیشبینیکننده ممکن است حجم عظیمی از دادههای مربوط به یک بیمار را دریافت کنند و پاسخ بیمار به درمانها و پیش آگهی خاص را پیشبینی کنند. داده ها ممکن است شامل تاریخچه پزشکی خاص بیمار، محیط، عوامل خطر اجتماعی، ژنتیک باشد — که همه اینها از فردی به فرد دیگر متفاوت است. استفاده از مدلسازی پیشبینیکننده در مراقبتهای بهداشتی نشاندهنده تغییر از درمان بیماران بر اساس میانگینها به درمان بیماران بهعنوان فردی است.
به طور مشابه، با تجزیه و تحلیل بازاریابی، مدلهای پیشبینی ممکن است از مجموعه دادههای مبتنی بر حقوق، عادات خرج کردن و جمعیتشناسی مصرفکننده استفاده کنند. دادهها و مدلسازیهای مختلف برای بانکداری و بیمه برای کمک به تعیین رتبهبندی اعتباری و شناسایی فعالیتهای متقلبانه استفاده خواهد شد.
ابزارهای مدل سازی پیش بینی
قبل از استقرار یک ابزار مدل پیشبینی، برای سازمان شما بسیار مهم است که سؤالات خود را بپرسد و موارد زیر را مرتب کند: مشخص کنید چه کسی نرمافزار را اجرا میکند، کاربرد این ابزارها چگونه خواهد بود، تجزیه و تحلیل پیشبینیکننده شما با چه ابزار دیگری در تعامل است. و همچنین بودجه.
ابزارهای مختلف الزامات سواد داده ای متفاوتی دارند، در موارد استفاده مختلف موثر هستند، بهترین استفاده را با نرم افزارهای مشابه دارند و می توانند گران باشند. هنگامی که سازمان شما در مورد این مسائل وضوح دارد، مقایسه ابزارها آسان تر می شود.
- Sisense. یک نرم افزار هوش تجاری با هدف شرکت های مختلف که طیف وسیعی از ویژگی های تجزیه و تحلیل تجاری را ارائه می دهد. این به حداقل پیش زمینه IT نیاز دارد.
- توپ کریستالی اوراکل. یک برنامه کاربردی مبتنی بر صفحه گسترده با تمرکز بر مهندسان، برنامه ریزان استراتژیک و دانشمندان در سراسر صنایع که می تواند برای مدل سازی پیش بینی، پیش بینی و همچنین شبیه سازی و بهینه سازی استفاده شود.
- IBM SPSS Predictive Analytics Enterprise. یک پلت فرم هوش تجاری که از یکپارچه سازی منبع باز پشتیبانی می کند و دارای تجزیه و تحلیل توصیفی و پیش بینی و همچنین آماده سازی داده ها است.
- SAS Advanced Analytics. برنامه ای که الگوریتم هایی را ارائه می دهد که احتمال نتایج آینده را شناسایی می کند و می تواند برای داده کاوی، پیش بینی و اقتصاد سنجی استفاده شود.
آینده مدل سازی پیش بینی
سه روند کلیدی وجود دارد که آینده مدلسازی داده را هدایت میکند.
- اول، قابلیتهای مدلسازی دادهها در برنامههای تجاری بیشتر و ابزارهای علم داده شهروندی ایجاد میشوند. این قابلیتها میتوانند حفاظها و الگوهای مناسبی را در اختیار کاربران تجاری قرار دهند تا بتوانند با مدلسازی پیشبینیکننده کار کنند.
- دوم، ابزارها و چارچوبهای مدلسازی پیشبینیکننده با کد پایین، پاکسازی سریع دادهها، ایجاد مدلها و بررسی نتایج را برای کارشناسان علوم داده آسانتر میکنند.
- سوم، ابزارهای بهتری برای خودکارسازی بسیاری از کارهای مهندسی داده مورد نیاز برای تولید مدلهای پیشبینی در راه هستند. کارول پیشبینی میکند که این امر به سازمانهای بیشتری اجازه میدهد تا از ساختن مدلهای ساده به استفاده از آنها به روشهایی که ارزش بالقوهشان را ارائه میکند، تغییر مسیر دهند.