سوگیری یادگیری ماشین (سوگیری هوش مصنوعی)

سوگیری یادگیری ماشین که گاهی اوقات سوگیری الگوریتم یا تعصب هوش مصنوعی نیز نامیده می‌شود، پدیده‌ای است که زمانی اتفاق می‌افتد که یک الگوریتم نتایجی را تولید می‌کند که به‌دلیل فرض‌های اشتباه در فرآیند یادگیری ماشین به‌طور سیستمی تعصب دارند.

یادگیری ماشینی، زیرمجموعه‌ای از هوش مصنوعی (AI)، به کیفیت، عینیت و اندازه داده‌های آموزشی مورد استفاده برای آموزش آن بستگی دارد. داده‌های معیوب، ضعیف یا ناقص منجر به پیش‌بینی‌های نادرست می‌شود که منعکس‌کننده توصیه‌های «آشغال در داخل، زباله‌ها بیرون» است که در علوم رایانه برای انتقال این مفهوم به کار می‌رود که کیفیت خروجی با کیفیت ورودی تعیین می‌شود.

سوگیری یادگیری ماشینی عموماً از مشکلاتی ناشی می‌شود که توسط افرادی که سیستم‌های یادگیری ماشین را طراحی و/یا آموزش می‌دهند، معرفی می‌شوند. این افراد می توانند الگوریتم هایی ایجاد کنند که سوگیری های شناختی ناخواسته یا پیش داوری های واقعی را منعکس کند. یا افراد می توانند سوگیری هایی را معرفی کنند زیرا از مجموعه داده های ناقص، معیوب یا پیش داوری برای آموزش و/یا اعتبارسنجی سیستم های یادگیری ماشین استفاده می کنند.

انواع سوگیری شناختی که می توانند به طور ناخواسته بر الگوریتم ها تأثیر بگذارند عبارتند از کلیشه سازی، اثر باند واگن، آغازگر، ادراک انتخابی و سوگیری تأیید.

اگرچه این سوگیری ها اغلب غیرعمدی هستند، اما پیامدهای حضور آنها در سیستم های یادگیری ماشینی می تواند قابل توجه باشد. بسته به نحوه استفاده از سیستم‌های یادگیری ماشینی، چنین سوگیری‌هایی می‌تواند منجر به کاهش تجربه خدمات مشتری، کاهش فروش و درآمد، اقدامات ناعادلانه یا احتمالاً غیرقانونی و شرایط بالقوه خطرناک شود.

برای جلوگیری از چنین سناریوهایی، سازمان‌ها باید داده‌های مورد استفاده برای آموزش مدل‌های یادگیری ماشین را به دلیل عدم جامعیت و سوگیری شناختی بررسی کنند. داده‌ها باید نماینده نژادها، جنسیت‌ها، پیشینه‌ها و فرهنگ‌های مختلف باشد که ممکن است تحت تأثیر نامطلوب قرار گیرند. دانشمندان داده‌ای که الگوریتم‌ها را توسعه می‌دهند باید نمونه‌های داده را به‌گونه‌ای شکل دهند که تعصب الگوریتمی و سایر انواع سوگیری یادگیری ماشین را به حداقل برساند و تصمیم‌گیرندگان باید زمانی که مناسب یا نامناسب است، استفاده از فناوری یادگیری ماشین را ارزیابی کنند.

انواع سوگیری یادگیری ماشینی

راه‌های مختلفی وجود دارد که می‌توان سوگیری را به سیستم یادگیری ماشین وارد کرد. سناریوهای رایج یا انواع سوگیری شامل موارد زیر است:

تعصب الگوریتم این زمانی اتفاق می‌افتد که در الگوریتمی که محاسباتی را انجام می‌دهد که محاسبات یادگیری ماشین را نیرو می‌دهد، مشکلی وجود داشته باشد.
تعصب نمونه این زمانی اتفاق می افتد که در داده های مورد استفاده برای آموزش مدل یادگیری ماشین مشکلی وجود داشته باشد. در این نوع سوگیری، داده های مورد استفاده یا به اندازه کافی بزرگ نیستند یا به اندازه کافی نماینده برای آموزش سیستم هستند. به عنوان مثال، استفاده از داده های آموزشی که فقط معلمان زن را نشان می دهد، سیستم را آموزش می دهد تا به این نتیجه برسد که همه معلمان زن هستند.
تعصب پیش داوری در این مورد، داده‌های مورد استفاده برای آموزش سیستم، تعصبات موجود، کلیشه‌ها و/یا مفروضات اجتماعی معیوب را منعکس می‌کند و از این طریق همان سوگیری‌های دنیای واقعی را در خود یادگیری ماشینی معرفی می‌کند. برای مثال، استفاده از داده‌های مربوط به متخصصان پزشکی که فقط شامل پرستاران زن و پزشکان مرد می‌شود، در نتیجه یک کلیشه جنسیتی در دنیای واقعی را در مورد کارکنان مراقبت‌های بهداشتی در سیستم کامپیوتری تداوم می‌بخشد.
سوگیری اندازه گیری همانطور که از نام آن پیداست، این سوگیری به دلیل مشکلات اساسی در صحت داده ها و نحوه اندازه گیری یا ارزیابی آن ها ایجاد می شود. استفاده از تصاویر کارگران شاد برای آموزش سیستمی برای ارزیابی محیط کار می تواند مغرضانه باشد اگر کارگران در تصاویر بدانند که برای شادی سنجیده می شوند. سیستمی که برای ارزیابی دقیق وزن آموزش داده می‌شود، اگر وزن‌های موجود در داده‌های تمرینی به طور مداوم جمع شوند، مغرضانه خواهد بود.
سوگیری حذف این زمانی اتفاق می‌افتد که یک نقطه داده مهم از داده‌های مورد استفاده کنار گذاشته شود – چیزی که اگر مدل‌سازان نقطه داده را به عنوان پیامد تشخیص ندهند، ممکن است اتفاق بیفتد.

تعصب در مقابل واریانس

دانشمندان داده و سایر افرادی که در ساخت، آموزش و استفاده از مدل‌های یادگیری ماشین دخیل هستند، باید نه تنها سوگیری، بلکه واریانس را نیز در هنگام ایجاد سیستم‌هایی که می‌توانند نتایج دقیقی ارائه دهند، در نظر بگیرند.

مانند سوگیری، واریانس خطایی است که زمانی ایجاد می‌شود که یادگیری ماشین بر اساس داده‌های آموزشی مفروضات اشتباهی را تولید کند. برخلاف سوگیری، واریانس واکنشی است به نوسانات واقعی و مشروع در مجموعه داده‌ها. با این حال، این نوسانات یا نویزها نباید روی مدل مورد نظر تأثیر بگذارند، با این حال سیستم از آن نویز برای مدل سازی استفاده می کند. به عبارت دیگر، واریانس یک حساسیت مشکل ساز به نوسانات کوچک در مجموعه تمرینی است که مانند سوگیری، می تواند نتایج نادرستی ایجاد کند.

اگرچه سوگیری و واریانس متفاوت هستند، اما از این نظر به هم مرتبط هستند که سطح واریانس می تواند به کاهش سوگیری کمک کند. اگر جامعه داده تنوع کافی در آن داشته باشد، سوگیری ها باید توسط واریانس حذف شوند.

به این ترتیب، هدف در یادگیری ماشینی ایجاد یک موازنه یا تعادل بین این دو به منظور توسعه سیستمی است که حداقل مقدار خطا را ایجاد کند.

چگونه از تعصب جلوگیری کنیم

آگاهی و حکمرانی خوب می تواند به جلوگیری از سوگیری یادگیری ماشین کمک کند. سازمانی که پتانسیل سوگیری را تشخیص می‌دهد، می‌تواند بهترین شیوه‌ها را برای مبارزه با آن اجرا و اجرا کند که شامل مراحل زیر است:

داده‌های آموزشی را انتخاب کنید که به طور مناسب معرف و به اندازه کافی بزرگ باشد تا با انواع متداول سوگیری یادگیری ماشین، مانند سوگیری نمونه و تعصب پیش داوری مقابله کند.
تست و اعتبارسنجی کنید تا مطمئن شوید نتایج سیستم‌های یادگیری ماشینی سوگیری ناشی از الگوریتم‌ها یا مجموعه داده‌ها را منعکس نمی‌کنند.
سیستم‌های یادگیری ماشین را در حین انجام وظایف خود رصد کنید تا اطمینان حاصل کنید که سوگیری‌ها در طول زمان وارد نمی‌شوند، زیرا سیستم‌ها در حین کار به یادگیری ادامه می‌دهند.
برای بررسی و بازرسی مدل‌ها از منابع اضافی، مانند ابزار What-if Google یا جعبه ابزار منبع باز AI Fairness 360 IBM استفاده کنید.

تاریخچه سوگیری یادگیری ماشین

سوگیری یادگیری ماشین برای چندین دهه یک خطر شناخته شده بوده است، اما همچنان یک مشکل پیچیده است که مقابله با آن دشوار بوده است.

در واقع، سوگیری یادگیری ماشین قبلاً در موارد دنیای واقعی دخیل بوده است، با برخی از سوگیری ها عواقب قابل توجه و حتی تغییر دهنده زندگی.

COMPAS یکی از این نمونه هاست. COMPAS که مختصر عبارت Correctional Offender Management Profiles for Alternative Sanctions است، از یادگیری ماشینی برای پیش بینی احتمال تکرار جرم در میان متهمان جنایی استفاده می کند. چندین ایالت این نرم افزار را در اوایل قرن بیست و یکم عرضه کردند، قبل از اینکه تعصب آن علیه رنگین پوستان افشا شود و متعاقباً در مقالات خبری منتشر شود.

آمازون، یک نیروگاه استخدامی که سیاست‌های استخدام آن سیاست‌های استخدامی را در شرکت‌های دیگر شکل می‌دهد، در سال 2018، الگوریتم استخدام خود را پس از اینکه متوجه شد الگوهای کلمات را شناسایی می‌کند، به جای مجموعه‌های مهارتی مرتبط، ناخواسته جریمه می‌کند و رزومه‌های حاوی کلمات خاص، از جمله زنان را جریمه می‌کند، کنار گذاشت. با تخفیف رزومه زنان، کاندیداهای مرد را بر کاندیداهای زن ترجیح داد.

در همین حال، در همان سال، محققان دانشگاهی یافته‌هایی را اعلام کردند که سیستم‌های هوش مصنوعی تشخیص چهره تجاری حاوی سوگیری‌های جنسیتی و نوع پوست هستند.

سوگیری یادگیری ماشین (سوگیری هوش مصنوعی)

انواع سوگیری یادگیری ماشینی

تعصب در مقابل واریانس

چگونه از تعصب جلوگیری کنیم

تاریخچه سوگیری یادگیری ماشین

درباره نویسنده

محمد طاهری

دیدگاه‌ خود را بنویسید لغو پاسخ

سوگیری یادگیری ماشین (سوگیری هوش مصنوعی)

انواع سوگیری یادگیری ماشینی

تعصب در مقابل واریانس

چگونه از تعصب جلوگیری کنیم

تاریخچه سوگیری یادگیری ماشین

اشتراک گذاری محتوا

درباره نویسنده

محمد طاهری

دیدگاه‌ خود را بنویسید لغو پاسخ