کلان داده (Big Data) چیست؟

کلان داده ترکیبی از داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار است که توسط سازمان‌ها جمع‌آوری می‌شوند و می‌توانند برای اطلاعات استخراج شوند و در پروژه‌های یادگیری ماشین، مدل‌سازی پیش‌بینی‌کننده و دیگر برنامه‌های تحلیلی پیشرفته مورد استفاده قرار گیرند.

کلان داده (Big Data)

سیستم‌هایی که داده‌های بزرگ را پردازش و ذخیره می‌کنند، به جزء مشترک معماری‌های مدیریت داده در سازمان‌ها تبدیل شده‌اند، همراه با ابزارهایی که از کاربردهای تجزیه و تحلیل داده‌های بزرگ پشتیبانی می‌کنند. داده های بزرگ اغلب با سه V مشخص می شوند:

  • حجم زیاد داده در بسیاری از محیط ها؛
  • طیف گسترده ای از انواع داده ها که اغلب در سیستم های داده های بزرگ ذخیره می شوند. و
  • سرعتی که در آن بسیاری از داده ها تولید، جمع آوری و پردازش می شوند.

این ویژگی ها اولین بار در سال 2001 توسط داگ لین، تحلیلگر شرکت مشاوره Meta Group Inc. گارتنر پس از تصاحب Meta Group در سال 2005، آنها را بیشتر محبوب کرد. اخیراً چندین V دیگر به توصیف های مختلف داده های بزرگ از جمله صحت، ارزش و تنوع اضافه شده است.

اگرچه داده های بزرگ با حجم خاصی از داده برابری نمی کند، استقرار کلان داده اغلب شامل ترابایت، پتابایت و حتی اگزابایت داده ایجاد و جمع آوری شده در طول زمان است.

چرا کلان داده مهم است؟

شرکت‌ها از داده‌های بزرگ در سیستم‌های خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپین‌های بازاریابی شخصی و سایر اقداماتی که در نهایت می‌توانند درآمد و سود را افزایش دهند، استفاده می‌کنند. کسب‌وکارهایی که از آن استفاده می‌کنند به طور مؤثر دارای مزیت رقابتی بالقوه نسبت به آن‌هایی هستند که این کار را نمی‌کنند، زیرا می‌توانند سریع‌تر و آگاهانه‌تر تصمیم‌گیری کنند.

به عنوان مثال، داده های بزرگ بینش های ارزشمندی را در مورد مشتریان ارائه می دهد که شرکت ها می توانند از آنها برای اصلاح بازاریابی، تبلیغات و تبلیغات خود به منظور افزایش تعامل مشتری و نرخ تبدیل استفاده کنند. داده های تاریخی و بلادرنگ را می توان برای ارزیابی ترجیحات در حال تحول مصرف کنندگان یا خریداران شرکتی تجزیه و تحلیل کرد و به کسب و کارها این امکان را می دهد تا به خواسته ها و نیازهای مشتری پاسخ دهند.

داده های بزرگ همچنین توسط محققان پزشکی برای شناسایی علائم بیماری و عوامل خطر و توسط پزشکان برای کمک به تشخیص بیماری ها و شرایط پزشکی در بیماران استفاده می شود. علاوه بر این، ترکیبی از داده‌های سوابق الکترونیکی سلامت، سایت‌های رسانه‌های اجتماعی، وب و سایر منابع به سازمان‌های مراقبت‌های بهداشتی و سازمان‌های دولتی اطلاعات به‌روز درباره تهدیدات یا شیوع بیماری‌های عفونی می‌دهد.

در اینجا چند نمونه دیگر از نحوه استفاده از داده های بزرگ توسط سازمان ها آورده شده است:

  • در صنعت انرژی، کلان داده به شرکت‌های نفت و گاز کمک می‌کند تا مکان‌های حفاری احتمالی را شناسایی کرده و عملیات خط لوله را نظارت کنند. به همین ترتیب، شرکت های برق از آن برای ردیابی شبکه های برق استفاده می کنند.
  • شرکت های خدمات مالی از سیستم های کلان داده برای مدیریت ریسک و تجزیه و تحلیل بلادرنگ داده های بازار استفاده می کنند.
  • تولیدکنندگان و شرکت های حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیرهای تحویل به داده های بزرگ متکی هستند.
  • سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از جرم و ابتکارات شهر هوشمند است.

نمونه هایی از داده های بزرگ چیست؟

داده‌های بزرگ از منابع بی‌شماری به دست می‌آیند – برخی از نمونه‌ها عبارتند از: سیستم‌های پردازش تراکنش، پایگاه‌های داده مشتریان، اسناد، ایمیل‌ها، سوابق پزشکی، گزارش‌های جریان کلیک اینترنتی، برنامه‌های تلفن همراه و شبکه‌های اجتماعی. همچنین شامل داده‌های تولید شده توسط ماشین، مانند فایل‌های گزارش شبکه و سرور و داده‌های حسگرهای ماشین‌های تولیدی، تجهیزات صنعتی و دستگاه‌های اینترنت اشیا است.

علاوه بر داده‌های سیستم‌های داخلی، محیط‌های کلان داده اغلب داده‌های خارجی در مورد مصرف‌کنندگان، بازارهای مالی، شرایط آب و هوایی و ترافیک، اطلاعات جغرافیایی، تحقیقات علمی و موارد دیگر را در خود جای می‌دهند. تصاویر، ویدئوها و فایل‌های صوتی نیز فرم‌هایی از داده‌های بزرگ هستند و بسیاری از برنامه‌های کاربردی داده‌های بزرگ شامل جریان داده‌هایی هستند که به‌طور مستمر پردازش و جمع‌آوری می‌شوند.

شکستن V از داده های بزرگ

حجم رایج ترین مشخصه داده های بزرگ است. لازم نیست یک محیط کلان داده حاوی مقدار زیادی داده باشد، اما بیشتر آنها به دلیل ماهیت داده هایی که در آنها جمع آوری و ذخیره می شود، این کار را انجام می دهند. کلیک‌استریم‌ها، گزارش‌های سیستم و سیستم‌های پردازش جریانی از جمله منابعی هستند که معمولاً حجم عظیمی از داده‌ها را به صورت مداوم تولید می‌کنند.

کلان داده همچنین طیف گسترده ای از انواع داده ها را شامل می شود، از جمله موارد زیر:

  • داده های ساخت یافته، مانند معاملات و سوابق مالی؛
  • داده های بدون ساختار، مانند متن، اسناد و فایل های چند رسانه ای. و
  • داده های نیمه ساختاری، مانند گزارش های وب سرور و جریان داده ها از حسگرها.

ممکن است لازم باشد انواع داده های مختلف با هم در سیستم های کلان داده ذخیره و مدیریت شوند. علاوه بر این، برنامه های کاربردی داده های بزرگ اغلب شامل مجموعه های داده متعددی هستند که ممکن است از قبل یکپارچه نشوند. برای مثال، یک پروژه تجزیه و تحلیل کلان داده ممکن است سعی کند فروش یک محصول را با همبستگی داده‌های مربوط به فروش گذشته، بازده، بررسی آنلاین و تماس‌های خدمات مشتری پیش‌بینی کند.

سرعت به سرعتی اشاره دارد که داده ها با آن تولید می شوند و باید پردازش و تجزیه و تحلیل شوند. در بسیاری از موارد، مجموعه‌ای از داده‌های بزرگ به‌جای به‌روزرسانی‌های روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای داده سنتی انجام می‌شود، به‌صورت واقعی یا تقریباً واقعی به‌روزرسانی می‌شوند. مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل داده های بزرگ به یادگیری ماشین و هوش مصنوعی (AI) گسترش می یابد، جایی که فرآیندهای تحلیلی به طور خودکار الگوهایی را در داده ها پیدا می کنند و از آنها برای ایجاد بینش استفاده می کنند.

ویژگی های بیشتر داده های بزرگ

با نگاهی فراتر از سه V اصلی، در اینجا جزئیاتی در مورد برخی از موارد دیگر وجود دارد که اکنون اغلب با داده های بزرگ مرتبط هستند:

  • صحت به میزان دقت مجموعه داده ها و میزان قابل اعتماد بودن آنها اشاره دارد. داده‌های خام جمع‌آوری‌شده از منابع مختلف می‌تواند باعث مشکلات کیفیت داده‌ها شود که تشخیص دقیق آن‌ها ممکن است دشوار باشد. اگر آنها از طریق فرآیندهای پاکسازی داده ها رفع نشوند، داده های بد منجر به خطاهای تجزیه و تحلیل می شود که می تواند ارزش طرح های تجزیه و تحلیل تجاری را تضعیف کند. تیم های مدیریت داده و تجزیه و تحلیل نیز باید اطمینان حاصل کنند که داده های دقیق کافی برای تولید نتایج معتبر در دسترس دارند.
  • برخی از دانشمندان و مشاوران داده نیز به لیست ویژگی‌های کلان داده ارزش می‌دهند. همه داده‌های جمع‌آوری‌شده دارای ارزش یا مزایای تجاری واقعی نیستند. در نتیجه، سازمان‌ها باید تأیید کنند که داده‌ها قبل از استفاده در پروژه‌های تجزیه و تحلیل داده‌های بزرگ به مسائل مربوط به کسب‌وکار مربوط می‌شوند.
  • تغییرپذیری همچنین اغلب برای مجموعه‌هایی از کلان داده‌ها اعمال می‌شود، که ممکن است معانی متعددی داشته باشند یا در منابع داده جداگانه قالب‌بندی شوند – عواملی که مدیریت و تجزیه و تحلیل کلان داده را پیچیده‌تر می‌کنند.

برخی از افراد V های بیشتری را به داده های بزرگ نسبت می دهند. لیست های مختلفی با بین هفت تا 10 ایجاد شده است.

داده های بزرگ چگونه ذخیره و پردازش می شوند؟

داده های بزرگ اغلب در یک دریاچه داده ذخیره می شوند. در حالی که انبارهای داده معمولاً بر روی پایگاه‌های داده رابطه‌ای ساخته می‌شوند و فقط حاوی داده‌های ساختاریافته هستند، دریاچه‌های داده می‌توانند انواع مختلف داده را پشتیبانی کنند و معمولاً مبتنی بر خوشه‌های Hadoop، سرویس‌های ذخیره‌سازی اشیاء ابری، پایگاه‌های داده NoSQL یا دیگر پلتفرم‌های کلان داده هستند.

بسیاری از محیط های کلان داده چندین سیستم را در یک معماری توزیع شده ترکیب می کنند. به عنوان مثال، یک دریاچه داده مرکزی ممکن است با پلتفرم های دیگر، از جمله پایگاه داده های رابطه ای یا یک انبار داده، ادغام شود. داده‌ها در سیستم‌های کلان داده ممکن است به صورت خام باقی بمانند و سپس در صورت نیاز برای استفاده‌های تحلیلی خاص فیلتر و سازماندهی شوند. در موارد دیگر، با استفاده از ابزارهای داده کاوی و نرم افزار آماده سازی داده، پیش پردازش شده است، بنابراین برای برنامه هایی که به طور منظم اجرا می شوند، آماده است.

پردازش کلان داده، نیازهای سنگینی را بر روی زیرساخت محاسباتی اساسی ایجاد می کند. قدرت محاسباتی مورد نیاز اغلب توسط سیستم‌های خوشه‌ای ارائه می‌شود که با استفاده از فناوری‌هایی مانند Hadoop و موتور پردازش Spark، بارهای کاری پردازشی را در بین صدها یا هزاران سرور کالا توزیع می‌کنند.

بدست آوردن چنین ظرفیت پردازشی به روشی مقرون به صرفه یک چالش است. در نتیجه، ابر مکان محبوبی برای سیستم های داده بزرگ است. سازمان‌ها می‌توانند سیستم‌های مبتنی بر ابر خود را مستقر کنند یا از پیشنهادات مدیریت شده داده‌های بزرگ به‌عنوان یک سرویس از ارائه‌دهندگان ابری استفاده کنند. کاربران ابری می توانند تعداد سرورهای مورد نیاز را به اندازه کافی برای تکمیل پروژه های تجزیه و تحلیل داده های بزرگ افزایش دهند. کسب‌وکار فقط هزینه ذخیره‌سازی و زمان محاسبه‌ای را که استفاده می‌کند پرداخت می‌کند، و نمونه‌های ابری می‌توانند تا زمانی که دوباره مورد نیاز نباشند خاموش شوند.

تجزیه و تحلیل داده های بزرگ چگونه کار می کند

برای به دست آوردن نتایج معتبر و مرتبط از برنامه های کاربردی تجزیه و تحلیل داده های بزرگ، دانشمندان داده و سایر تحلیلگران داده باید درک دقیقی از داده های موجود و درک آنچه در آن به دنبال آن هستند داشته باشند. این باعث می‌شود آماده‌سازی داده‌ها، که شامل پروفایل‌سازی، پاکسازی، اعتبارسنجی و تبدیل مجموعه داده‌ها می‌شود، اولین گام مهم در فرآیند تجزیه و تحلیل باشد.

پس از جمع‌آوری داده‌ها و آماده‌سازی برای تجزیه و تحلیل، رشته‌های مختلف علوم داده و تجزیه و تحلیل پیشرفته را می‌توان برای اجرای برنامه‌های کاربردی مختلف، با استفاده از ابزارهایی که ویژگی‌ها و قابلیت‌های تجزیه و تحلیل داده‌های بزرگ را ارائه می‌دهند، به کار برد. این رشته ها شامل یادگیری ماشینی و شاخه های یادگیری عمیق آن، مدل سازی پیش بینی، داده کاوی، تجزیه و تحلیل آماری، تجزیه و تحلیل جریان، متن کاوی و موارد دیگر است.

با استفاده از داده های مشتری به عنوان مثال، شاخه های مختلف تجزیه و تحلیل که می توان با مجموعه ای از داده های بزرگ انجام داد، شامل موارد زیر است:

  • تحلیل تطبیقی. این معیارهای رفتار مشتری و تعامل با مشتری در زمان واقعی را بررسی می کند تا محصولات، خدمات و نام تجاری یک شرکت را با محصولات رقبا مقایسه کند.
  • گوش دادن به رسانه های اجتماعی این تجزیه و تحلیل می کند که مردم در رسانه های اجتماعی در مورد یک تجارت یا محصول می گویند، که می تواند به شناسایی مشکلات بالقوه و مخاطبان هدف برای کمپین های بازاریابی کمک کند.
  • تجزیه و تحلیل بازاریابی. این اطلاعاتی را فراهم می کند که می تواند برای بهبود کمپین های بازاریابی و پیشنهادات تبلیغاتی برای محصولات، خدمات و طرح های تجاری مورد استفاده قرار گیرد.
  • تحلیل احساسات تمام داده‌هایی که در مورد مشتریان جمع‌آوری می‌شود را می‌توان تجزیه و تحلیل کرد تا نشان دهد که آنها چه احساسی نسبت به یک شرکت یا برند، سطح رضایت مشتری، مشکلات احتمالی و نحوه بهبود خدمات مشتری دارند.

فناوری های مدیریت داده های بزرگ

Hadoop، یک چارچوب پردازشی منبع باز که در سال 2006 منتشر شد، در ابتدا در مرکز اکثر معماری های کلان داده قرار داشت. توسعه اسپارک و سایر موتورهای پردازشی MapReduce، موتوری که در هادوپ تعبیه شده بود را بیشتر به سمتی سوق داد. نتیجه، اکوسیستمی از فناوری‌های کلان داده است که می‌تواند برای کاربردهای مختلف استفاده شود، اما اغلب با هم مستقر می‌شوند.

پلتفرم های کلان داده و خدمات مدیریت شده ارائه شده توسط فروشندگان فناوری اطلاعات، بسیاری از این فناوری ها را در یک بسته واحد، عمدتاً برای استفاده در فضای ابری، ترکیب می کنند. در حال حاضر، شامل این پیشنهادات است که به ترتیب حروف الفبا فهرست شده اند:

  • Amazon EMR (Elastic MapReduce سابق)
  • پلتفرم داده کلودرا
  • Google Cloud Dataproc
  • HPE Ezmeral Data Fabric (سابق MapR Data Platform)
  • Microsoft Azure HDInsight

برای سازمان‌هایی که می‌خواهند خودشان سیستم‌های کلان داده را، چه در محل یا در فضای ابری، مستقر کنند، فناوری‌هایی که علاوه بر Hadoop و Spark در دسترس آنها هستند، شامل دسته‌بندی ابزارهای زیر می‌شوند:

  • مخازن ذخیره سازی، مانند Hadoop Distributed File System (HDFS) و سرویس های ذخیره سازی اشیاء ابری که شامل سرویس ذخیره سازی ساده آمازون (S3)، Google Cloud Storage و Azure Blob Storage می شود.
  • چارچوب‌های مدیریت خوشه، مانند Kubernetes، Mesos و YARN، مدیر منابع داخلی و زمان‌بندی کار Hadoop، که مخفف Yet Another Resource Negotiator است، اما معمولاً با مخفف آن شناخته می‌شود.
  • موتورهای پردازش جریان، مانند Flink، Hudi، Kafka، Samza، Storm و ماژول‌های Spark Streaming و Structured Streaming که در Spark تعبیه شده‌اند.
  • پایگاه های داده NoSQL که شامل Cassandra، Couchbase، CouchDB، HBase، MarkLogic Data Hub، MongoDB، Neo4j، Redis و فن آوری های مختلف دیگر می شود.
  • پلتفرم‌های دریاچه داده و انبار داده، از جمله Amazon Redshift، Delta Lake، Google BigQuery، Kylin و Snowflake. و
  • موتورهای جستجوی SQL، مانند Drill، Hive، Impala، Presto و Trino.

چالش های کلان داده

در ارتباط با مسائل ظرفیت پردازش، طراحی یک معماری کلان داده یک چالش رایج برای کاربران است. سیستم‌های کلان داده باید متناسب با نیازهای خاص سازمان باشند، یک تعهد DIY که به تیم‌های IT و مدیریت داده نیاز دارد تا مجموعه‌ای از فناوری‌ها و ابزارهای سفارشی‌سازی شده را کنار هم بگذارند. استقرار و مدیریت سیستم‌های کلان داده نیز نیازمند مهارت‌های جدیدی در مقایسه با مهارت‌هایی است که مدیران پایگاه داده و توسعه‌دهندگان روی نرم‌افزار رابطه‌ای متمرکز هستند.

هر دوی این مشکلات را می توان با استفاده از یک سرویس ابری مدیریت شده کاهش داد، اما مدیران فناوری اطلاعات باید مراقب استفاده از ابر باشند تا مطمئن شوند که هزینه ها از کنترل خارج نمی شود. همچنین، انتقال مجموعه‌های داده در محل و پردازش بارهای کاری به ابر اغلب یک فرآیند پیچیده است.

از دیگر چالش‌های مدیریت سیستم‌های کلان داده می‌توان به دسترسی به داده‌ها برای دانشمندان و تحلیل‌گران داده، به‌ویژه در محیط‌های توزیع‌شده که شامل ترکیبی از پلتفرم‌ها و فروشگاه‌های داده مختلف است، اشاره کرد. برای کمک به تحلیلگران برای یافتن داده‌های مرتبط، تیم‌های مدیریت داده و تجزیه و تحلیل به طور فزاینده‌ای در حال ساخت کاتالوگ‌های داده‌ای هستند که مدیریت ابرداده و توابع سلسله داده را در خود جای داده است. فرآیند ادغام مجموعه‌های کلان داده نیز اغلب پیچیده است، به‌ویژه زمانی که تنوع و سرعت داده‌ها از عوامل هستند.

کلیدهای یک استراتژی کلان داده موثر

در یک سازمان، توسعه یک استراتژی کلان داده مستلزم درک اهداف کسب و کار و داده هایی است که در حال حاضر برای استفاده در دسترس هستند، به علاوه ارزیابی نیاز به داده های اضافی برای کمک به دستیابی به اهداف. اقدامات بعدی که باید انجام دهید شامل موارد زیر است:

  • اولویت بندی موارد و کاربردهای برنامه ریزی شده؛
  • شناسایی سیستم ها و ابزارهای جدید مورد نیاز؛
  • ایجاد نقشه راه استقرار؛ و
  • ارزیابی مهارت های داخلی برای دیدن اینکه آیا بازآموزی یا استخدام مورد نیاز است یا خیر.

برای اطمینان از پاک بودن، سازگاری و استفاده صحیح مجموعه‌های کلان داده، برنامه مدیریت داده و فرآیندهای مدیریت کیفیت داده مرتبط نیز باید در اولویت قرار گیرند. سایر بهترین شیوه ها برای مدیریت و تجزیه و تحلیل کلان داده ها شامل تمرکز بر نیازهای کسب و کار برای اطلاعات در مورد فناوری های موجود و استفاده از تجسم داده ها برای کمک به کشف و تجزیه و تحلیل داده ها است.

شیوه ها و مقررات جمع آوری داده های بزرگ

با افزایش جمع آوری و استفاده از داده های بزرگ، امکان سوء استفاده از داده ها نیز افزایش می یابد. اعتراض عمومی در مورد نقض داده‌ها و سایر نقض‌های حریم خصوصی شخصی، اتحادیه اروپا را بر آن داشت تا مقررات عمومی حفاظت از داده‌ها (GDPR) را تصویب کند، قانون حفظ حریم خصوصی داده‌ها که در ماه مه 2018 اجرایی شد. GDPR انواع داده‌هایی را که سازمان‌ها می‌توانند جمع‌آوری کنند محدود می‌کند و باید انتخاب کند. – با رضایت افراد یا رعایت سایر دلایل مشخص شده برای جمع آوری داده های شخصی. همچنین شامل یک ماده حق فراموشی می شود که به ساکنان اتحادیه اروپا اجازه می دهد از شرکت ها بخواهند داده های خود را حذف کنند.

در حالی که قوانین فدرال مشابهی در ایالات متحده وجود ندارد، قانون حفظ حریم خصوصی مصرف کنندگان کالیفرنیا (CCPA) قصد دارد به ساکنان کالیفرنیا کنترل بیشتری بر جمع آوری و استفاده از اطلاعات شخصی خود توسط شرکت هایی که در این ایالت تجارت می کنند، بدهد. CCPA در سال 2018 به قانون تبدیل شد و از 1 ژانویه 2020 اجرایی شد.

برای اطمینان از رعایت چنین قوانینی، کسب و کارها باید فرآیند جمع آوری کلان داده ها را به دقت مدیریت کنند. باید کنترل هایی برای شناسایی داده های تنظیم شده و جلوگیری از دسترسی کارکنان غیرمجاز به آن اعمال شود.

جنبه انسانی مدیریت و تجزیه و تحلیل داده های بزرگ

در نهایت، ارزش تجاری و مزایای طرح‌های کلان داده به کارگرانی بستگی دارد که وظیفه مدیریت و تجزیه و تحلیل داده‌ها را بر عهده دارند. برخی از ابزارهای کلان داده، کاربران فنی کمتری را قادر می‌سازند تا برنامه‌های تحلیلی پیش‌بینی‌کننده را اجرا کنند یا به کسب‌وکارها کمک کنند تا زیرساخت مناسبی برای پروژه‌های کلان داده مستقر کنند، در حالی که نیاز به سخت‌افزار و دانش نرم‌افزاری توزیع‌شده را به حداقل می‌رسانند.

داده‌های بزرگ را می‌توان با داده‌های کوچک مقایسه کرد، اصطلاحی که گاهی برای توصیف مجموعه‌های داده‌ای استفاده می‌شود که می‌تواند به راحتی برای سلف سرویس BI و تجزیه و تحلیل استفاده شود. بدیهی است که معمولاً نقل قول می‌شود: «داده‌های بزرگ برای ماشین‌ها است، داده‌های کوچک برای افراد».

برای امتیاز به این نوشته کلیک کنید!
[کل: 0 میانگین: 0]

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا