تجزیه و تحلیل داده ها (DA)
تجزیه و تحلیل داده ها (DA) فرآیند بررسی مجموعه داده ها به منظور یافتن روندها و نتیجه گیری در مورد اطلاعات موجود در آنها است. تجزیه و تحلیل داده ها به طور فزاینده ای با کمک سیستم ها و نرم افزارهای تخصصی انجام می شود. فنآوریها و تکنیکهای تجزیه و تحلیل دادهها به طور گسترده در صنایع تجاری استفاده میشوند تا سازمانها را قادر میسازد تا تصمیمات تجاری آگاهانهتری بگیرند. دانشمندان و محققان همچنین از ابزارهای تحلیلی برای تأیید یا رد مدلها، نظریهها و فرضیههای علمی استفاده میکنند.
به عنوان یک اصطلاح، تجزیه و تحلیل داده ها عمدتاً به مجموعه ای از برنامه ها، از هوش تجاری پایه (BI)، گزارش گیری و پردازش تحلیلی آنلاین (OLAP) تا اشکال مختلف تجزیه و تحلیل پیشرفته اشاره دارد. از این نظر، ماهیت آن شبیه به تجزیه و تحلیل کسب و کار است، اصطلاح چتر دیگری برای رویکردهای تجزیه و تحلیل داده ها. تفاوت این است که دومی برای استفاده های تجاری متمرکز است، در حالی که تجزیه و تحلیل داده ها تمرکز گسترده تری دارد.
با این حال، دیدگاه گسترده این اصطلاح جهانی نیست: در برخی موارد، افراد از تجزیه و تحلیل داده ها به طور خاص به معنای تجزیه و تحلیل پیشرفته استفاده می کنند و BI را به عنوان یک مقوله جداگانه در نظر می گیرند.
ابتکارات تجزیه و تحلیل داده ها می تواند به کسب و کارها در افزایش درآمد، بهبود کارایی عملیاتی، بهینه سازی کمپین های بازاریابی و تقویت تلاش های خدمات مشتری کمک کند. تجزیه و تحلیل همچنین سازمان ها را قادر می سازد تا به سرعت به روندهای بازارهای نوظهور پاسخ دهند و برتری رقابتی نسبت به رقبای تجاری کسب کنند. با این حال، هدف نهایی تجزیه و تحلیل داده ها، افزایش عملکرد کسب و کار است. بسته به کاربرد خاص، داده هایی که تجزیه و تحلیل می شود می تواند شامل سوابق تاریخی یا اطلاعات جدیدی باشد که برای تجزیه و تحلیل بلادرنگ پردازش شده است. علاوه بر این، میتواند از ترکیبی از سیستمهای داخلی و منابع داده خارجی باشد.
انواع برنامه های کاربردی تجزیه و تحلیل داده ها
در سطح بالا، روش های تجزیه و تحلیل داده ها شامل تجزیه و تحلیل داده های اکتشافی (EDA) و تجزیه و تحلیل داده های تاییدی (CDA) است. هدف EDA یافتن الگوها و روابط در دادهها است، در حالی که CDA از تکنیکهای آماری برای تعیین درست یا نادرست بودن فرضیههای یک مجموعه داده استفاده میکند. EDA اغلب با کارآگاهی مقایسه می شود، در حالی که CDA شبیه کار یک قاضی یا هیئت منصفه در طول محاکمه دادگاه است – تمایزی که برای اولین بار توسط آماردان جان دبلیو توکی در کتاب تجزیه و تحلیل داده های اکتشافی در سال 1977 انجام شد.
تجزیه و تحلیل داده ها را می توان به تجزیه و تحلیل داده های کمی و تجزیه و تحلیل داده های کیفی نیز تقسیم کرد. اولی شامل تجزیه و تحلیل داده های عددی با متغیرهای کمی است. این متغیرها را می توان به صورت آماری مقایسه یا اندازه گیری کرد. رویکرد کیفی بیشتر تفسیری است – بر درک محتوای دادههای غیر عددی مانند متن، تصاویر، صدا و ویدئو، و همچنین عبارات، مضامین و دیدگاههای رایج تمرکز دارد.
در سطح برنامه، BI و گزارشدهی به مدیران کسبوکار و کارکنان شرکتها اطلاعات عملی در مورد شاخصهای عملکرد کلیدی، عملیات تجاری، مشتریان و موارد دیگر ارائه میدهند. در گذشته، پرس و جوها و گزارش های داده معمولاً توسط توسعه دهندگان BI که در IT کار می کردند برای کاربران نهایی ایجاد می شد. اکنون، سازمانهای بیشتری از ابزارهای سلفسرویس BI استفاده میکنند که به مدیران اجرایی، تحلیلگران کسبوکار و کارکنان عملیاتی اجازه میدهد پرسوجوهای موردی خود را اجرا کنند و خودشان گزارش بسازند.
انواع پیشرفته تجزیه و تحلیل داده ها شامل داده کاوی است که شامل مرتب سازی از طریق مجموعه داده های بزرگ برای شناسایی روندها، الگوها و روابط است. دیگری تجزیه و تحلیل پیش بینی است که به دنبال پیش بینی رفتار مشتری، خرابی تجهیزات و دیگر سناریوها و رویدادهای تجاری آینده است. یادگیری ماشینی همچنین میتواند برای تجزیه و تحلیل دادهها، با اجرای الگوریتمهای خودکار برای عبور سریعتر از مجموعه دادهها نسبت به دانشمندان داده از طریق مدلسازی تحلیلی مرسوم، استفاده شود.
تجزیه و تحلیل داده های بزرگ از داده کاوی، تجزیه و تحلیل پیش بینی و ابزارهای یادگیری ماشینی برای مجموعه داده ها استفاده می کند که می تواند ترکیبی از داده های ساختاریافته، بدون ساختار و نیمه ساختار یافته باشد. متن کاوی ابزاری برای تجزیه و تحلیل اسناد، ایمیل ها و سایر محتوای مبتنی بر متن فراهم می کند.
ابتکارات تجزیه و تحلیل داده از طیف گسترده ای از کاربردهای تجاری پشتیبانی می کند. به عنوان مثال، بانک ها و شرکت های کارت اعتباری الگوهای برداشت و هزینه را برای جلوگیری از کلاهبرداری و سرقت هویت تجزیه و تحلیل می کنند.
شرکت های تجارت الکترونیک و ارائه دهندگان خدمات بازاریابی از تجزیه و تحلیل جریان کلیک برای شناسایی بازدیدکنندگان وب سایتی که احتمالاً یک محصول یا خدمات خاص را خریداری می کنند – بر اساس الگوهای ناوبری و مشاهده صفحه استفاده می کنند. سازمان های مراقبت های بهداشتی داده های بیماران را برای ارزیابی اثربخشی درمان های سرطان و سایر بیماری ها استخراج می کنند.
اپراتورهای شبکه تلفن همراه داده های مشتری را برای پیش بینی ریزش بررسی می کنند. که آنها را قادر می سازد تا اقداماتی را برای جلوگیری از فرار مشتریان به فروشندگان رقیب انجام دهند. برای تقویت تلاشهای مدیریت ارتباط با مشتری، شرکتها در تجزیه و تحلیل CRM شرکت میکنند تا مشتریان را برای کمپینهای بازاریابی تقسیمبندی کنند و کارکنان مرکز تماس را با اطلاعات بهروز درباره تماسگیرندگان تجهیز کنند.
درون فرآیند تجزیه و تحلیل داده ها
برنامه های کاربردی تجزیه و تحلیل داده ها شامل چیزی بیش از تجزیه و تحلیل داده ها نیست، به ویژه در پروژه های تجزیه و تحلیل پیشرفته. بسیاری از کارهای مورد نیاز در ابتدا انجام می شود، در جمع آوری، یکپارچه سازی و آماده سازی داده ها و سپس توسعه، آزمایش و بازنگری مدل های تحلیلی برای اطمینان از تولید نتایج دقیق. علاوه بر دانشمندان داده و سایر تحلیلگران داده، تیم های تحلیلی اغلب شامل مهندسان داده می شوند که خطوط لوله داده را ایجاد می کنند و به آماده سازی مجموعه داده ها برای تجزیه و تحلیل کمک می کنند.
فرآیند تجزیه و تحلیل با جمع آوری داده ها شروع می شود. دانشمندان داده اطلاعات مورد نیاز خود را برای یک برنامه تحلیلی خاص شناسایی میکنند و سپس به تنهایی یا با مهندسان داده و کارکنان فناوری اطلاعات کار میکنند تا آنها را برای استفاده جمعآوری کنند. ممکن است لازم باشد دادههای سیستمهای منبع مختلف از طریق روتینهای یکپارچهسازی دادهها ترکیب شوند، به یک قالب مشترک تبدیل شوند و در یک سیستم تحلیلی بارگذاری شوند، مانند یک خوشه Hadoop، پایگاه داده NoSQL یا انبار داده.
در موارد دیگر، فرآیند جمعآوری ممکن است شامل بیرون کشیدن یک زیرمجموعه مرتبط از جریان دادهای باشد که مثلاً به Hadoop سرازیر میشود. سپس داده ها به یک پارتیشن جداگانه در سیستم منتقل می شوند تا بتوان آن ها را بدون تأثیر بر مجموعه داده های کلی تجزیه و تحلیل کرد.
هنگامی که داده های مورد نیاز در محل قرار گرفتند، گام بعدی یافتن و رفع مشکلات کیفیت داده است که می تواند بر دقت برنامه های تحلیلی تأثیر بگذارد. این شامل اجرای وظایف پروفایل داده و پاکسازی داده ها برای اطمینان از سازگاری اطلاعات در مجموعه داده و حذف خطاها و ورودی های تکراری است. کار آماده سازی داده های اضافی برای دستکاری و سازماندهی داده ها برای استفاده از تجزیه و تحلیل برنامه ریزی شده انجام می شود. سپس سیاست های حاکمیت داده اعمال می شود تا اطمینان حاصل شود که داده ها از استانداردهای شرکت پیروی می کنند و به درستی استفاده می شوند.
از اینجا، یک دانشمند داده با استفاده از ابزارهای مدلسازی پیشبینیکننده یا سایر نرمافزارهای تحلیلی و زبانهای برنامهنویسی مانند Python، Scala، R و SQL، یک مدل تحلیلی میسازد. به طور معمول، مدل در ابتدا در برابر یک مجموعه داده جزئی اجرا می شود تا دقت آن را آزمایش کند. سپس در صورت نیاز بازبینی و آزمایش می شود. این فرآیند به عنوان “آموزش” مدل شناخته می شود تا زمانی که مطابق با هدف عمل کند. در نهایت، مدل در حالت تولید در برابر مجموعه داده کامل اجرا میشود، کاری که میتوان یک بار برای رفع نیازهای اطلاعاتی خاص یا بهطور مداوم با بهروزرسانی دادهها انجام داد.
در برخی موارد، برنامه های تجزیه و تحلیل را می توان طوری تنظیم کرد که به طور خودکار اقدامات تجاری را راه اندازی کند. به عنوان مثال، معاملات سهام توسط یک شرکت خدمات مالی است. در غیر این صورت، آخرین مرحله در فرآیند تجزیه و تحلیل داده ها، انتقال نتایج حاصل از مدل های تحلیلی به مدیران تجاری و سایر کاربران نهایی است.
نمودارها و سایر اینفوگرافیک ها را می توان به گونه ای طراحی کرد که درک یافته ها را آسان تر کند. تجسم دادهها اغلب در برنامههای داشبورد BI گنجانده میشوند که دادهها را روی یک صفحه نمایش میدهند و میتوانند در زمان واقعی با در دسترس قرار گرفتن اطلاعات جدید، بهروزرسانی شوند.
تجزیه و تحلیل داده در مقابل علم داده
با رشد اتوماسیون، دانشمندان داده بیشتر بر نیازهای تجاری، نظارت استراتژیک و یادگیری عمیق تمرکز خواهند کرد. تحلیلگران داده که در زمینه هوش تجاری کار می کنند، بیشتر بر ایجاد مدل و سایر کارهای معمول تمرکز خواهند کرد. به طور کلی، دانشمندان داده تلاش ها را بر تولید بینش های گسترده متمرکز می کنند، در حالی که تحلیلگران داده بر پاسخ به سؤالات خاص تمرکز می کنند. از نظر مهارتهای فنی، دانشمندان داده آینده باید بیشتر روی فرآیند عملیات یادگیری ماشین که MLOps نیز نامیده میشود، تمرکز کنند.