کلان داده (Big Data) چیست؟
کلان داده ترکیبی از دادههای ساختاریافته، نیمه ساختاریافته و بدون ساختار است که توسط سازمانها جمعآوری میشوند و میتوانند برای اطلاعات استخراج شوند و در پروژههای یادگیری ماشین، مدلسازی پیشبینیکننده و دیگر برنامههای تحلیلی پیشرفته مورد استفاده قرار گیرند.
سیستمهایی که دادههای بزرگ را پردازش و ذخیره میکنند، به جزء مشترک معماریهای مدیریت داده در سازمانها تبدیل شدهاند، همراه با ابزارهایی که از کاربردهای تجزیه و تحلیل دادههای بزرگ پشتیبانی میکنند. داده های بزرگ اغلب با سه V مشخص می شوند:
- حجم زیاد داده در بسیاری از محیط ها؛
- طیف گسترده ای از انواع داده ها که اغلب در سیستم های داده های بزرگ ذخیره می شوند. و
- سرعتی که در آن بسیاری از داده ها تولید، جمع آوری و پردازش می شوند.
این ویژگی ها اولین بار در سال 2001 توسط داگ لین، تحلیلگر شرکت مشاوره Meta Group Inc. گارتنر پس از تصاحب Meta Group در سال 2005، آنها را بیشتر محبوب کرد. اخیراً چندین V دیگر به توصیف های مختلف داده های بزرگ از جمله صحت، ارزش و تنوع اضافه شده است.
اگرچه داده های بزرگ با حجم خاصی از داده برابری نمی کند، استقرار کلان داده اغلب شامل ترابایت، پتابایت و حتی اگزابایت داده ایجاد و جمع آوری شده در طول زمان است.
چرا کلان داده مهم است؟
شرکتها از دادههای بزرگ در سیستمهای خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپینهای بازاریابی شخصی و سایر اقداماتی که در نهایت میتوانند درآمد و سود را افزایش دهند، استفاده میکنند. کسبوکارهایی که از آن استفاده میکنند به طور مؤثر دارای مزیت رقابتی بالقوه نسبت به آنهایی هستند که این کار را نمیکنند، زیرا میتوانند سریعتر و آگاهانهتر تصمیمگیری کنند.
به عنوان مثال، داده های بزرگ بینش های ارزشمندی را در مورد مشتریان ارائه می دهد که شرکت ها می توانند از آنها برای اصلاح بازاریابی، تبلیغات و تبلیغات خود به منظور افزایش تعامل مشتری و نرخ تبدیل استفاده کنند. داده های تاریخی و بلادرنگ را می توان برای ارزیابی ترجیحات در حال تحول مصرف کنندگان یا خریداران شرکتی تجزیه و تحلیل کرد و به کسب و کارها این امکان را می دهد تا به خواسته ها و نیازهای مشتری پاسخ دهند.
داده های بزرگ همچنین توسط محققان پزشکی برای شناسایی علائم بیماری و عوامل خطر و توسط پزشکان برای کمک به تشخیص بیماری ها و شرایط پزشکی در بیماران استفاده می شود. علاوه بر این، ترکیبی از دادههای سوابق الکترونیکی سلامت، سایتهای رسانههای اجتماعی، وب و سایر منابع به سازمانهای مراقبتهای بهداشتی و سازمانهای دولتی اطلاعات بهروز درباره تهدیدات یا شیوع بیماریهای عفونی میدهد.
در اینجا چند نمونه دیگر از نحوه استفاده از داده های بزرگ توسط سازمان ها آورده شده است:
- در صنعت انرژی، کلان داده به شرکتهای نفت و گاز کمک میکند تا مکانهای حفاری احتمالی را شناسایی کرده و عملیات خط لوله را نظارت کنند. به همین ترتیب، شرکت های برق از آن برای ردیابی شبکه های برق استفاده می کنند.
- شرکت های خدمات مالی از سیستم های کلان داده برای مدیریت ریسک و تجزیه و تحلیل بلادرنگ داده های بازار استفاده می کنند.
- تولیدکنندگان و شرکت های حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیرهای تحویل به داده های بزرگ متکی هستند.
- سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از جرم و ابتکارات شهر هوشمند است.
نمونه هایی از داده های بزرگ چیست؟
دادههای بزرگ از منابع بیشماری به دست میآیند – برخی از نمونهها عبارتند از: سیستمهای پردازش تراکنش، پایگاههای داده مشتریان، اسناد، ایمیلها، سوابق پزشکی، گزارشهای جریان کلیک اینترنتی، برنامههای تلفن همراه و شبکههای اجتماعی. همچنین شامل دادههای تولید شده توسط ماشین، مانند فایلهای گزارش شبکه و سرور و دادههای حسگرهای ماشینهای تولیدی، تجهیزات صنعتی و دستگاههای اینترنت اشیا است.
علاوه بر دادههای سیستمهای داخلی، محیطهای کلان داده اغلب دادههای خارجی در مورد مصرفکنندگان، بازارهای مالی، شرایط آب و هوایی و ترافیک، اطلاعات جغرافیایی، تحقیقات علمی و موارد دیگر را در خود جای میدهند. تصاویر، ویدئوها و فایلهای صوتی نیز فرمهایی از دادههای بزرگ هستند و بسیاری از برنامههای کاربردی دادههای بزرگ شامل جریان دادههایی هستند که بهطور مستمر پردازش و جمعآوری میشوند.
شکستن V از داده های بزرگ
حجم رایج ترین مشخصه داده های بزرگ است. لازم نیست یک محیط کلان داده حاوی مقدار زیادی داده باشد، اما بیشتر آنها به دلیل ماهیت داده هایی که در آنها جمع آوری و ذخیره می شود، این کار را انجام می دهند. کلیکاستریمها، گزارشهای سیستم و سیستمهای پردازش جریانی از جمله منابعی هستند که معمولاً حجم عظیمی از دادهها را به صورت مداوم تولید میکنند.
کلان داده همچنین طیف گسترده ای از انواع داده ها را شامل می شود، از جمله موارد زیر:
- داده های ساخت یافته، مانند معاملات و سوابق مالی؛
- داده های بدون ساختار، مانند متن، اسناد و فایل های چند رسانه ای. و
- داده های نیمه ساختاری، مانند گزارش های وب سرور و جریان داده ها از حسگرها.
ممکن است لازم باشد انواع داده های مختلف با هم در سیستم های کلان داده ذخیره و مدیریت شوند. علاوه بر این، برنامه های کاربردی داده های بزرگ اغلب شامل مجموعه های داده متعددی هستند که ممکن است از قبل یکپارچه نشوند. برای مثال، یک پروژه تجزیه و تحلیل کلان داده ممکن است سعی کند فروش یک محصول را با همبستگی دادههای مربوط به فروش گذشته، بازده، بررسی آنلاین و تماسهای خدمات مشتری پیشبینی کند.
سرعت به سرعتی اشاره دارد که داده ها با آن تولید می شوند و باید پردازش و تجزیه و تحلیل شوند. در بسیاری از موارد، مجموعهای از دادههای بزرگ بهجای بهروزرسانیهای روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای داده سنتی انجام میشود، بهصورت واقعی یا تقریباً واقعی بهروزرسانی میشوند. مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل داده های بزرگ به یادگیری ماشین و هوش مصنوعی (AI) گسترش می یابد، جایی که فرآیندهای تحلیلی به طور خودکار الگوهایی را در داده ها پیدا می کنند و از آنها برای ایجاد بینش استفاده می کنند.
ویژگی های بیشتر داده های بزرگ
با نگاهی فراتر از سه V اصلی، در اینجا جزئیاتی در مورد برخی از موارد دیگر وجود دارد که اکنون اغلب با داده های بزرگ مرتبط هستند:
- صحت به میزان دقت مجموعه داده ها و میزان قابل اعتماد بودن آنها اشاره دارد. دادههای خام جمعآوریشده از منابع مختلف میتواند باعث مشکلات کیفیت دادهها شود که تشخیص دقیق آنها ممکن است دشوار باشد. اگر آنها از طریق فرآیندهای پاکسازی داده ها رفع نشوند، داده های بد منجر به خطاهای تجزیه و تحلیل می شود که می تواند ارزش طرح های تجزیه و تحلیل تجاری را تضعیف کند. تیم های مدیریت داده و تجزیه و تحلیل نیز باید اطمینان حاصل کنند که داده های دقیق کافی برای تولید نتایج معتبر در دسترس دارند.
- برخی از دانشمندان و مشاوران داده نیز به لیست ویژگیهای کلان داده ارزش میدهند. همه دادههای جمعآوریشده دارای ارزش یا مزایای تجاری واقعی نیستند. در نتیجه، سازمانها باید تأیید کنند که دادهها قبل از استفاده در پروژههای تجزیه و تحلیل دادههای بزرگ به مسائل مربوط به کسبوکار مربوط میشوند.
- تغییرپذیری همچنین اغلب برای مجموعههایی از کلان دادهها اعمال میشود، که ممکن است معانی متعددی داشته باشند یا در منابع داده جداگانه قالببندی شوند – عواملی که مدیریت و تجزیه و تحلیل کلان داده را پیچیدهتر میکنند.
برخی از افراد V های بیشتری را به داده های بزرگ نسبت می دهند. لیست های مختلفی با بین هفت تا 10 ایجاد شده است.
داده های بزرگ چگونه ذخیره و پردازش می شوند؟
داده های بزرگ اغلب در یک دریاچه داده ذخیره می شوند. در حالی که انبارهای داده معمولاً بر روی پایگاههای داده رابطهای ساخته میشوند و فقط حاوی دادههای ساختاریافته هستند، دریاچههای داده میتوانند انواع مختلف داده را پشتیبانی کنند و معمولاً مبتنی بر خوشههای Hadoop، سرویسهای ذخیرهسازی اشیاء ابری، پایگاههای داده NoSQL یا دیگر پلتفرمهای کلان داده هستند.
بسیاری از محیط های کلان داده چندین سیستم را در یک معماری توزیع شده ترکیب می کنند. به عنوان مثال، یک دریاچه داده مرکزی ممکن است با پلتفرم های دیگر، از جمله پایگاه داده های رابطه ای یا یک انبار داده، ادغام شود. دادهها در سیستمهای کلان داده ممکن است به صورت خام باقی بمانند و سپس در صورت نیاز برای استفادههای تحلیلی خاص فیلتر و سازماندهی شوند. در موارد دیگر، با استفاده از ابزارهای داده کاوی و نرم افزار آماده سازی داده، پیش پردازش شده است، بنابراین برای برنامه هایی که به طور منظم اجرا می شوند، آماده است.
پردازش کلان داده، نیازهای سنگینی را بر روی زیرساخت محاسباتی اساسی ایجاد می کند. قدرت محاسباتی مورد نیاز اغلب توسط سیستمهای خوشهای ارائه میشود که با استفاده از فناوریهایی مانند Hadoop و موتور پردازش Spark، بارهای کاری پردازشی را در بین صدها یا هزاران سرور کالا توزیع میکنند.
بدست آوردن چنین ظرفیت پردازشی به روشی مقرون به صرفه یک چالش است. در نتیجه، ابر مکان محبوبی برای سیستم های داده بزرگ است. سازمانها میتوانند سیستمهای مبتنی بر ابر خود را مستقر کنند یا از پیشنهادات مدیریت شده دادههای بزرگ بهعنوان یک سرویس از ارائهدهندگان ابری استفاده کنند. کاربران ابری می توانند تعداد سرورهای مورد نیاز را به اندازه کافی برای تکمیل پروژه های تجزیه و تحلیل داده های بزرگ افزایش دهند. کسبوکار فقط هزینه ذخیرهسازی و زمان محاسبهای را که استفاده میکند پرداخت میکند، و نمونههای ابری میتوانند تا زمانی که دوباره مورد نیاز نباشند خاموش شوند.
تجزیه و تحلیل داده های بزرگ چگونه کار می کند
برای به دست آوردن نتایج معتبر و مرتبط از برنامه های کاربردی تجزیه و تحلیل داده های بزرگ، دانشمندان داده و سایر تحلیلگران داده باید درک دقیقی از داده های موجود و درک آنچه در آن به دنبال آن هستند داشته باشند. این باعث میشود آمادهسازی دادهها، که شامل پروفایلسازی، پاکسازی، اعتبارسنجی و تبدیل مجموعه دادهها میشود، اولین گام مهم در فرآیند تجزیه و تحلیل باشد.
پس از جمعآوری دادهها و آمادهسازی برای تجزیه و تحلیل، رشتههای مختلف علوم داده و تجزیه و تحلیل پیشرفته را میتوان برای اجرای برنامههای کاربردی مختلف، با استفاده از ابزارهایی که ویژگیها و قابلیتهای تجزیه و تحلیل دادههای بزرگ را ارائه میدهند، به کار برد. این رشته ها شامل یادگیری ماشینی و شاخه های یادگیری عمیق آن، مدل سازی پیش بینی، داده کاوی، تجزیه و تحلیل آماری، تجزیه و تحلیل جریان، متن کاوی و موارد دیگر است.
با استفاده از داده های مشتری به عنوان مثال، شاخه های مختلف تجزیه و تحلیل که می توان با مجموعه ای از داده های بزرگ انجام داد، شامل موارد زیر است:
- تحلیل تطبیقی. این معیارهای رفتار مشتری و تعامل با مشتری در زمان واقعی را بررسی می کند تا محصولات، خدمات و نام تجاری یک شرکت را با محصولات رقبا مقایسه کند.
- گوش دادن به رسانه های اجتماعی این تجزیه و تحلیل می کند که مردم در رسانه های اجتماعی در مورد یک تجارت یا محصول می گویند، که می تواند به شناسایی مشکلات بالقوه و مخاطبان هدف برای کمپین های بازاریابی کمک کند.
- تجزیه و تحلیل بازاریابی. این اطلاعاتی را فراهم می کند که می تواند برای بهبود کمپین های بازاریابی و پیشنهادات تبلیغاتی برای محصولات، خدمات و طرح های تجاری مورد استفاده قرار گیرد.
- تحلیل احساسات تمام دادههایی که در مورد مشتریان جمعآوری میشود را میتوان تجزیه و تحلیل کرد تا نشان دهد که آنها چه احساسی نسبت به یک شرکت یا برند، سطح رضایت مشتری، مشکلات احتمالی و نحوه بهبود خدمات مشتری دارند.
فناوری های مدیریت داده های بزرگ
Hadoop، یک چارچوب پردازشی منبع باز که در سال 2006 منتشر شد، در ابتدا در مرکز اکثر معماری های کلان داده قرار داشت. توسعه اسپارک و سایر موتورهای پردازشی MapReduce، موتوری که در هادوپ تعبیه شده بود را بیشتر به سمتی سوق داد. نتیجه، اکوسیستمی از فناوریهای کلان داده است که میتواند برای کاربردهای مختلف استفاده شود، اما اغلب با هم مستقر میشوند.
پلتفرم های کلان داده و خدمات مدیریت شده ارائه شده توسط فروشندگان فناوری اطلاعات، بسیاری از این فناوری ها را در یک بسته واحد، عمدتاً برای استفاده در فضای ابری، ترکیب می کنند. در حال حاضر، شامل این پیشنهادات است که به ترتیب حروف الفبا فهرست شده اند:
- Amazon EMR (Elastic MapReduce سابق)
- پلتفرم داده کلودرا
- Google Cloud Dataproc
- HPE Ezmeral Data Fabric (سابق MapR Data Platform)
- Microsoft Azure HDInsight
برای سازمانهایی که میخواهند خودشان سیستمهای کلان داده را، چه در محل یا در فضای ابری، مستقر کنند، فناوریهایی که علاوه بر Hadoop و Spark در دسترس آنها هستند، شامل دستهبندی ابزارهای زیر میشوند:
- مخازن ذخیره سازی، مانند Hadoop Distributed File System (HDFS) و سرویس های ذخیره سازی اشیاء ابری که شامل سرویس ذخیره سازی ساده آمازون (S3)، Google Cloud Storage و Azure Blob Storage می شود.
- چارچوبهای مدیریت خوشه، مانند Kubernetes، Mesos و YARN، مدیر منابع داخلی و زمانبندی کار Hadoop، که مخفف Yet Another Resource Negotiator است، اما معمولاً با مخفف آن شناخته میشود.
- موتورهای پردازش جریان، مانند Flink، Hudi، Kafka، Samza، Storm و ماژولهای Spark Streaming و Structured Streaming که در Spark تعبیه شدهاند.
- پایگاه های داده NoSQL که شامل Cassandra، Couchbase، CouchDB، HBase، MarkLogic Data Hub، MongoDB، Neo4j، Redis و فن آوری های مختلف دیگر می شود.
- پلتفرمهای دریاچه داده و انبار داده، از جمله Amazon Redshift، Delta Lake، Google BigQuery، Kylin و Snowflake. و
- موتورهای جستجوی SQL، مانند Drill، Hive، Impala، Presto و Trino.
چالش های کلان داده
در ارتباط با مسائل ظرفیت پردازش، طراحی یک معماری کلان داده یک چالش رایج برای کاربران است. سیستمهای کلان داده باید متناسب با نیازهای خاص سازمان باشند، یک تعهد DIY که به تیمهای IT و مدیریت داده نیاز دارد تا مجموعهای از فناوریها و ابزارهای سفارشیسازی شده را کنار هم بگذارند. استقرار و مدیریت سیستمهای کلان داده نیز نیازمند مهارتهای جدیدی در مقایسه با مهارتهایی است که مدیران پایگاه داده و توسعهدهندگان روی نرمافزار رابطهای متمرکز هستند.
هر دوی این مشکلات را می توان با استفاده از یک سرویس ابری مدیریت شده کاهش داد، اما مدیران فناوری اطلاعات باید مراقب استفاده از ابر باشند تا مطمئن شوند که هزینه ها از کنترل خارج نمی شود. همچنین، انتقال مجموعههای داده در محل و پردازش بارهای کاری به ابر اغلب یک فرآیند پیچیده است.
از دیگر چالشهای مدیریت سیستمهای کلان داده میتوان به دسترسی به دادهها برای دانشمندان و تحلیلگران داده، بهویژه در محیطهای توزیعشده که شامل ترکیبی از پلتفرمها و فروشگاههای داده مختلف است، اشاره کرد. برای کمک به تحلیلگران برای یافتن دادههای مرتبط، تیمهای مدیریت داده و تجزیه و تحلیل به طور فزایندهای در حال ساخت کاتالوگهای دادهای هستند که مدیریت ابرداده و توابع سلسله داده را در خود جای داده است. فرآیند ادغام مجموعههای کلان داده نیز اغلب پیچیده است، بهویژه زمانی که تنوع و سرعت دادهها از عوامل هستند.
کلیدهای یک استراتژی کلان داده موثر
در یک سازمان، توسعه یک استراتژی کلان داده مستلزم درک اهداف کسب و کار و داده هایی است که در حال حاضر برای استفاده در دسترس هستند، به علاوه ارزیابی نیاز به داده های اضافی برای کمک به دستیابی به اهداف. اقدامات بعدی که باید انجام دهید شامل موارد زیر است:
- اولویت بندی موارد و کاربردهای برنامه ریزی شده؛
- شناسایی سیستم ها و ابزارهای جدید مورد نیاز؛
- ایجاد نقشه راه استقرار؛ و
- ارزیابی مهارت های داخلی برای دیدن اینکه آیا بازآموزی یا استخدام مورد نیاز است یا خیر.
برای اطمینان از پاک بودن، سازگاری و استفاده صحیح مجموعههای کلان داده، برنامه مدیریت داده و فرآیندهای مدیریت کیفیت داده مرتبط نیز باید در اولویت قرار گیرند. سایر بهترین شیوه ها برای مدیریت و تجزیه و تحلیل کلان داده ها شامل تمرکز بر نیازهای کسب و کار برای اطلاعات در مورد فناوری های موجود و استفاده از تجسم داده ها برای کمک به کشف و تجزیه و تحلیل داده ها است.
شیوه ها و مقررات جمع آوری داده های بزرگ
با افزایش جمع آوری و استفاده از داده های بزرگ، امکان سوء استفاده از داده ها نیز افزایش می یابد. اعتراض عمومی در مورد نقض دادهها و سایر نقضهای حریم خصوصی شخصی، اتحادیه اروپا را بر آن داشت تا مقررات عمومی حفاظت از دادهها (GDPR) را تصویب کند، قانون حفظ حریم خصوصی دادهها که در ماه مه 2018 اجرایی شد. GDPR انواع دادههایی را که سازمانها میتوانند جمعآوری کنند محدود میکند و باید انتخاب کند. – با رضایت افراد یا رعایت سایر دلایل مشخص شده برای جمع آوری داده های شخصی. همچنین شامل یک ماده حق فراموشی می شود که به ساکنان اتحادیه اروپا اجازه می دهد از شرکت ها بخواهند داده های خود را حذف کنند.
در حالی که قوانین فدرال مشابهی در ایالات متحده وجود ندارد، قانون حفظ حریم خصوصی مصرف کنندگان کالیفرنیا (CCPA) قصد دارد به ساکنان کالیفرنیا کنترل بیشتری بر جمع آوری و استفاده از اطلاعات شخصی خود توسط شرکت هایی که در این ایالت تجارت می کنند، بدهد. CCPA در سال 2018 به قانون تبدیل شد و از 1 ژانویه 2020 اجرایی شد.
برای اطمینان از رعایت چنین قوانینی، کسب و کارها باید فرآیند جمع آوری کلان داده ها را به دقت مدیریت کنند. باید کنترل هایی برای شناسایی داده های تنظیم شده و جلوگیری از دسترسی کارکنان غیرمجاز به آن اعمال شود.
جنبه انسانی مدیریت و تجزیه و تحلیل داده های بزرگ
در نهایت، ارزش تجاری و مزایای طرحهای کلان داده به کارگرانی بستگی دارد که وظیفه مدیریت و تجزیه و تحلیل دادهها را بر عهده دارند. برخی از ابزارهای کلان داده، کاربران فنی کمتری را قادر میسازند تا برنامههای تحلیلی پیشبینیکننده را اجرا کنند یا به کسبوکارها کمک کنند تا زیرساخت مناسبی برای پروژههای کلان داده مستقر کنند، در حالی که نیاز به سختافزار و دانش نرمافزاری توزیعشده را به حداقل میرسانند.
دادههای بزرگ را میتوان با دادههای کوچک مقایسه کرد، اصطلاحی که گاهی برای توصیف مجموعههای دادهای استفاده میشود که میتواند به راحتی برای سلف سرویس BI و تجزیه و تحلیل استفاده شود. بدیهی است که معمولاً نقل قول میشود: «دادههای بزرگ برای ماشینها است، دادههای کوچک برای افراد».