کیفیت داده (Data Quality)
کیفیت داده معیاری است برای وضعیت داده ها بر اساس عواملی مانند دقت، کامل بودن، سازگاری، قابلیت اطمینان و به روز بودن آنها. اندازهگیری سطوح کیفیت دادهها میتواند به سازمانها کمک کند تا خطاهای دادهای را که باید برطرف شوند شناسایی کرده و ارزیابی کنند که آیا دادهها در سیستمهای فناوری اطلاعات آنها برای خدمت به هدف مورد نظرشان مناسب هستند یا خیر.
تاکید بر کیفیت داده ها در سیستم های سازمانی افزایش یافته است زیرا پردازش داده ها به طور پیچیده تر با عملیات تجاری مرتبط شده است و سازمان ها به طور فزاینده ای از تجزیه و تحلیل داده ها برای کمک به تصمیم گیری های تجاری استفاده می کنند. مدیریت کیفیت داده جزء اصلی فرآیند کلی مدیریت داده است و تلاشهای بهبود کیفیت داده اغلب به برنامههای حاکمیت دادهها مرتبط است که هدف آن اطمینان از قالببندی و استفاده مداوم دادهها در سراسر سازمان است.
چرا کیفیت داده مهم است
داده های بد می تواند عواقب تجاری قابل توجهی برای شرکت ها داشته باشد. دادههای با کیفیت پایین اغلب بهعنوان منبع ناسازگاری عملیاتی، تحلیلهای نادرست و استراتژیهای کسبوکار بد تصور میشوند. نمونههایی از آسیبهای اقتصادی مشکلات کیفیت دادهها شامل هزینههای اضافی زمانی که محصولات به آدرسهای مشتری اشتباه ارسال میشوند، فرصتهای فروش از دست رفته به دلیل سوابق اشتباه یا ناقص مشتری، و جریمههای گزارشدهی نادرست انطباق مالی یا مقرراتی است.
شرکت مشاوره گارتنر در سال 2021 اعلام کرد که کیفیت بد داده ها به طور متوسط 12.9 میلیون دلار در سال برای سازمان ها هزینه دارد. رقم دیگری که هنوز هم اغلب ذکر می شود، محاسبه ای است که توسط IBM انجام شده است که نشان می دهد هزینه سالانه مسائل مربوط به کیفیت داده ها در ایالات متحده در سال 2016 به 3.1 تریلیون دلار رسیده است. و در مقاله ای که او برای بررسی مدیریت اسلون MIT در سال 2017 نوشت، مشاور کیفیت داده ها، توماس ردمن، تخمین زد.
تصحیح خطاهای داده ها و مقابله با مشکلات تجاری ناشی از داده های بد به طور متوسط 15 تا 25 درصد از درآمد سالانه شرکت ها را به همراه دارد.
علاوه بر این، عدم اعتماد به دادهها از سوی مدیران شرکتها و مدیران تجاری معمولاً در میان موانع اصلی استفاده از هوش تجاری (BI) و ابزارهای تحلیلی برای بهبود تصمیمگیری در سازمانها ذکر میشود. همه اینها یک استراتژی مدیریت Data Quality موثر را ضروری می کند.
کیفیت داده خوب چیست؟
دقت داده ها یکی از ویژگی های کلیدی داده های با کیفیت است. برای جلوگیری از مشکلات پردازش تراکنش در سیستمهای عملیاتی و نتایج معیوب در برنامههای تحلیلی، دادههای مورد استفاده باید صحیح باشند. دادههای نادرست باید شناسایی، مستند و اصلاح شوند تا اطمینان حاصل شود که مدیران تجاری، تحلیلگران داده و سایر کاربران نهایی با اطلاعات خوب کار میکنند.
سایر جنبهها یا ابعادی که از عناصر مهم کیفیت دادههای خوب هستند عبارتند از:
- کامل بودن، با مجموعه دادههایی که شامل تمام عناصر دادهای هستند که باید.
- سازگاری، جایی که هیچ تضادی بین مقادیر داده های یکسان در سیستم ها یا مجموعه داده های مختلف وجود ندارد.
- منحصر به فرد بودن، نشان دهنده عدم وجود رکوردهای تکراری داده در پایگاه های داده و انبارهای داده است.
- به موقع بودن یا ارز، به این معنی که داده ها برای به روز نگه داشتن آن به روز شده اند و در صورت نیاز برای استفاده در دسترس هستند.
- اعتبار، تأیید اینکه داده ها حاوی مقادیری هستند که باید و به درستی ساختار یافته اند. و
- انطباق با فرمت های داده استاندارد ایجاد شده توسط یک سازمان.
رعایت همه این عوامل به تولید مجموعه داده هایی که قابل اعتماد و قابل اعتماد هستند کمک می کند. فهرست بلندبالایی از ابعاد اضافی کیفیت داده نیز می تواند اعمال شود – برخی از نمونه ها عبارتند از مناسب بودن، اعتبار، ارتباط، قابلیت اطمینان و قابلیت استفاده.
نحوه تعیین کیفیت داده ها
به عنوان اولین گام برای تعیین سطح کیفیت دادهها، سازمانها معمولاً داراییهای داده خود را فهرستبندی میکنند و مطالعات پایه را برای اندازهگیری دقت نسبی، منحصربهفرد بودن و اعتبار مجموعه دادهها انجام میدهند. سپس رتبهبندیهای پایه تعیینشده را میتوان با دادههای موجود در سیستمها به طور مداوم مقایسه کرد تا به شناسایی مسائل جدید کیفیت داده کمک کند.
گام متداول دیگر ایجاد مجموعه ای از قوانین کیفیت داده بر اساس الزامات تجاری برای داده های عملیاتی و تحلیلی است. چنین قوانینی سطوح کیفی مورد نیاز را در مجموعه دادهها مشخص میکند و جزئیاتی را که عناصر دادههای مختلف باید شامل شوند را مشخص میکند تا بتوان آنها را از نظر دقت، سازگاری و سایر ویژگیهای کیفیت داده بررسی کرد.
پس از وضع قوانین، یک تیم مدیریت داده معمولاً ارزیابی کیفیت داده ها را برای اندازه گیری کیفیت مجموعه داده ها و مستندسازی خطاهای داده و سایر مشکلات انجام می دهد – رویه ای که می تواند در فواصل زمانی منظم تکرار شود تا بالاترین سطح Data Quality را حفظ کند.
روش شناسی های مختلفی برای چنین ارزیابی هایی ایجاد شده است. به عنوان مثال، مدیران داده در شرکت تابعه خدمات بهداشتی درمانی اپتوم گروه UnitedHealth، چارچوب ارزیابی Data Quality (DQAF) را در سال 2009 ایجاد کردند تا روشی را برای ارزیابی کیفیت داده های آن رسمی کنند. DQAF دستورالعمل هایی را برای اندازه گیری کیفیت داده ها بر اساس چهار بعد ارائه می دهد: کامل بودن، به موقع بودن، اعتبار و سازگاری. Optum جزئیات مربوط به چارچوب را به عنوان یک مدل احتمالی برای سایر سازمان ها منتشر کرده است.
صندوق بینالمللی پول (IMF) که بر سیستم پولی جهانی نظارت میکند و به کشورهای دارای مشکل اقتصادی وام میدهد، یک روش ارزیابی با همان نام Optum را نیز مشخص کرده است. چارچوب آن بر دقت، قابلیت اطمینان، سازگاری و سایر ویژگیهای کیفیت داده در دادههای آماری که کشورهای عضو باید به صندوق بینالمللی پول ارسال کنند، تمرکز دارد. علاوه بر این، دفتر هماهنگ کننده ملی فناوری اطلاعات بهداشتی دولت ایالات متحده چارچوب کیفی دادهها را برای دادههای جمعیت شناختی بیمار جمعآوریشده توسط سازمانهای مراقبتهای بهداشتی به تفصیل ارائه کرده است.
ابزارها و تکنیک های مدیریت کیفیت داده ها
پروژه های کیفیت داده معمولاً چندین مرحله دیگر را نیز شامل می شوند. به عنوان مثال، چرخه مدیریت Data Quality که توسط مشاور مدیریت داده دیوید لوشین مشخص شده است، با شناسایی و اندازه گیری تأثیر داده های بد بر عملیات تجاری شروع می شود. در مرحله بعد، قوانین کیفیت داده تعریف میشوند، اهداف عملکرد برای بهبود معیارهای کیفیت دادههای مرتبط تنظیم میشوند و فرآیندهای بهبود کیفیت دادههای خاص طراحی و اجرا میشوند.
این فرآیندها شامل پاکسازی دادهها، یا پاکسازی دادهها، برای رفع خطاهای داده، بهعلاوه کار برای بهبود مجموعه دادهها با افزودن مقادیر گمشده، اطلاعات بهروزتر یا سوابق اضافی است. سپس نتایج بر اساس اهداف عملکردی پایش و اندازهگیری میشوند، و هرگونه نقص باقیمانده در کیفیت داده نقطه شروعی برای دور بعدی بهبودهای برنامهریزیشده است. چنین چرخه ای برای اطمینان از ادامه تلاش ها برای بهبود کیفیت کلی داده ها پس از تکمیل پروژه های فردی در نظر گرفته شده است.
برای کمک به سادهسازی چنین تلاشهایی، ابزارهای نرمافزاری با کیفیت دادهها میتوانند سوابق را مطابقت دهند، موارد تکراری را حذف کنند، دادههای جدید را تأیید کنند، سیاستهای اصلاح را ایجاد کنند و دادههای شخصی را در مجموعههای داده شناسایی کنند. آنها همچنین پروفایل داده را برای جمع آوری اطلاعات در مورد مجموعه داده ها و شناسایی مقادیر پرت احتمالی انجام می دهند. توابع کیفیت دادههای افزوده مجموعهای از قابلیتهای نوظهور هستند که فروشندگان نرمافزار در ابزارهای خود برای خودکارسازی وظایف و رویهها، عمدتاً از طریق استفاده از هوش مصنوعی (AI) و یادگیری ماشینی، ایجاد میکنند.
کنسولهای مدیریتی برای طرحهای کیفی دادهها از ایجاد قوانین مدیریت داده، کشف روابط دادهها و تبدیل خودکار دادهها پشتیبانی میکنند که ممکن است بخشی از تلاشهای نگهداری Data Quality باشد. ابزارهای فعالسازی همکاری و گردش کار نیز رایجتر شدهاند و دیدگاههای مشترکی از مخازن دادههای شرکتی را برای مدیران کیفیت داده و مباشران داده ارائه میدهند که وظیفه نظارت بر مجموعههای داده خاص را بر عهده دارند.
ابزارهای کیفیت داده و فرآیندهای بهبود اغلب در برنامه های حاکمیت داده گنجانده می شوند، که معمولاً از معیارهای کیفیت داده برای کمک به نشان دادن ارزش تجاری خود برای شرکت ها استفاده می کنند. آنها همچنین اجزای کلیدی ابتکارات مدیریت داده اصلی (MDM) هستند که ثبت مرکزی دادههای اصلی را روی مشتریان، محصولات و زنجیرههای تامین، در میان سایر حوزههای داده ایجاد میکنند.
مزایای کیفیت داده خوب
از نقطه نظر مالی، حفظ سطح کیفی دادههای بالا سازمانها را قادر میسازد تا هزینه شناسایی و تعمیر دادههای بد در سیستمهای خود را کاهش دهند. شرکتها همچنین میتوانند از خطاهای عملیاتی و خرابی فرآیندهای تجاری که میتواند هزینههای عملیاتی را افزایش داده و درآمد را کاهش دهد، اجتناب کنند.
علاوه بر این، کیفیت خوب داده ها، دقت برنامه های تحلیلی را افزایش می دهد، که می تواند منجر به تصمیم گیری بهتر تجاری شود که فروش را افزایش می دهد، فرآیندهای داخلی را بهبود می بخشد و به سازمان ها برتری رقابتی نسبت به رقبا می دهد. دادههای با کیفیت بالا میتوانند به گسترش استفاده از داشبوردهای BI و ابزارهای تجزیه و تحلیل نیز کمک کنند – اگر دادههای تجزیه و تحلیل قابل اعتماد تلقی شوند، کاربران تجاری بهاحتمالزیاد به جای تصمیمگیری بر اساس احساسات واقعی یا صفحات گسترده خودشان، به آن تکیه میکنند.
مدیریت مؤثر کیفیت دادهها همچنین تیمهای مدیریت داده را آزاد میکند تا روی کارهای سازندهتر از پاکسازی مجموعههای داده تمرکز کنند. به عنوان مثال، آنها می توانند زمان بیشتری را برای کمک به کاربران تجاری و تحلیلگران داده صرف کنند تا از داده های موجود در سیستم ها استفاده کنند و بهترین شیوه های کیفیت داده را در عملیات تجاری ارتقا دهند تا خطاهای داده را به حداقل برسانند.
چالش های نوظهور کیفیت داده ها
برای سالها، بار تلاشهای کیفیت دادهها بر روی دادههای ساختاریافته ذخیرهشده در پایگاههای داده رابطهای متمرکز بود، زیرا آنها فناوری غالب برای مدیریت دادهها بودند. اما ماهیت مشکلات Data Quality با برجستهتر شدن سیستمهای کلان داده و محاسبات ابری گسترش یافت. مدیران دادهها به طور فزایندهای باید روی کیفیت دادههای غیرساختیافته و نیمهساختارمند مانند متن، رکوردهای جریان کلیک اینترنتی، دادههای حسگر و شبکه، گزارشهای سیستم و برنامهها تمرکز کنند. علاوه بر این، کیفیت داده ها در حال حاضر اغلب نیاز به مدیریت در ترکیبی از سیستم های داخلی و ابری دارد.
استفاده روزافزون از ابزارهای هوش مصنوعی و برنامه های کاربردی یادگیری ماشین در سازمان ها، فرآیند کیفیت داده ها را پیچیده تر می کند، همانطور که استفاده از پلتفرم های جریان داده در زمان واقعی که حجم زیادی از داده ها را به طور مداوم به سیستم های شرکت منتقل می کند، پیچیده تر می شود. خطوط لوله داده پیچیده ایجاد شده برای پشتیبانی از علم داده و کار تجزیه و تحلیل پیشرفته نیز به چالشها میافزاید.
تقاضاهای کیفیت داده نیز به دلیل اجرای قوانین جدید حفظ حریم خصوصی و حفاظت از داده ها، به ویژه مقررات عمومی حفاظت از داده های اتحادیه اروپا (GDPR) و قانون حفظ حریم خصوصی مصرف کنندگان کالیفرنیا (CCPA) در حال گسترش است. هر دو معیار به افراد حق دسترسی به دادههای شخصی را میدهند که شرکتها در مورد آنها جمعآوری میکنند، به این معنی که سازمانها باید بتوانند تمام سوابق یک فرد را در سیستمهای خود بدون از دست دادن به دلیل دادههای نادرست یا متناقض پیدا کنند.
رفع مشکلات کیفیت داده ها
مدیران کیفیت داده ها، تحلیلگران و مهندسان در درجه اول مسئول رفع خطاهای داده ها و سایر مشکلات کیفیت داده در سازمان ها هستند. آنها به طور جمعی وظیفه یافتن و پاکسازی داده های بد در پایگاه های داده و سایر مخازن داده ها را دارند، اغلب با کمک و پشتیبانی سایر متخصصان مدیریت داده، به ویژه مباشران داده و مدیران برنامه های مدیریت داده.
با این حال، مشارکت دادن کاربران تجاری، دانشمندان داده و سایر تحلیلگران در فرآیند کیفیت داده ها برای کمک به کاهش تعداد مشکلات Data Quality ایجاد شده در سیستم ها، یک روش معمول است. مشارکت تجاری را می توان تا حدی از طریق برنامه های حاکمیت داده و تعامل با مباشران داده، که اغلب از واحدهای تجاری می آیند، به دست آورد. علاوه بر این، بسیاری از شرکتها برنامههای آموزشی را در مورد بهترین شیوههای کیفیت داده برای کاربران نهایی اجرا میکنند. یک شعار رایج در بین مدیران داده این است که همه افراد در یک سازمان مسئول کیفیت داده هستند.
کیفیت داده در مقابل یکپارچگی داده ها
کیفیت داده ها و یکپارچگی داده ها گاهی اوقات به جای هم نامیده می شوند. به طور متناوب، برخی افراد یکپارچگی داده ها را به عنوان جنبه ای از دقت داده یا بعد جداگانه ای از کیفیت داده ها در نظر می گیرند. با این حال، به طور کلی تر، یکپارچگی داده ها به عنوان یک مفهوم گسترده تری دیده می شود که Data Quality، حاکمیت داده و مکانیسم های حفاظت از داده را برای رسیدگی به دقت، ثبات و امنیت داده به عنوان یک کل ترکیب می کند.
در آن دیدگاه گسترده تر، یکپارچگی داده ها بر یکپارچگی از دیدگاه منطقی و فیزیکی تمرکز دارد. یکپارچگی منطقی شامل معیارهای کیفیت داده ها و ویژگی های پایگاه داده مانند یکپارچگی ارجاعی است که تضمین می کند که عناصر داده مرتبط در جداول پایگاه داده های مختلف معتبر هستند. یکپارچگی فیزیکی شامل کنترلهای دسترسی و سایر اقدامات امنیتی است که برای جلوگیری از تغییر یا خراب شدن دادهها توسط کاربران غیرمجاز، و همچنین محافظتهای پشتیبان و بازیابی فاجعه طراحی شدهاند.