سوگیری یادگیری ماشین (سوگیری هوش مصنوعی)
سوگیری یادگیری ماشین که گاهی اوقات سوگیری الگوریتم یا تعصب هوش مصنوعی نیز نامیده میشود، پدیدهای است که زمانی اتفاق میافتد که یک الگوریتم نتایجی را تولید میکند که بهدلیل فرضهای اشتباه در فرآیند یادگیری ماشین بهطور سیستمی تعصب دارند.
یادگیری ماشینی، زیرمجموعهای از هوش مصنوعی (AI)، به کیفیت، عینیت و اندازه دادههای آموزشی مورد استفاده برای آموزش آن بستگی دارد. دادههای معیوب، ضعیف یا ناقص منجر به پیشبینیهای نادرست میشود که منعکسکننده توصیههای «آشغال در داخل، زبالهها بیرون» است که در علوم رایانه برای انتقال این مفهوم به کار میرود که کیفیت خروجی با کیفیت ورودی تعیین میشود.
سوگیری یادگیری ماشینی عموماً از مشکلاتی ناشی میشود که توسط افرادی که سیستمهای یادگیری ماشین را طراحی و/یا آموزش میدهند، معرفی میشوند. این افراد می توانند الگوریتم هایی ایجاد کنند که سوگیری های شناختی ناخواسته یا پیش داوری های واقعی را منعکس کند. یا افراد می توانند سوگیری هایی را معرفی کنند زیرا از مجموعه داده های ناقص، معیوب یا پیش داوری برای آموزش و/یا اعتبارسنجی سیستم های یادگیری ماشین استفاده می کنند.
انواع سوگیری شناختی که می توانند به طور ناخواسته بر الگوریتم ها تأثیر بگذارند عبارتند از کلیشه سازی، اثر باند واگن، آغازگر، ادراک انتخابی و سوگیری تأیید.
اگرچه این سوگیری ها اغلب غیرعمدی هستند، اما پیامدهای حضور آنها در سیستم های یادگیری ماشینی می تواند قابل توجه باشد. بسته به نحوه استفاده از سیستمهای یادگیری ماشینی، چنین سوگیریهایی میتواند منجر به کاهش تجربه خدمات مشتری، کاهش فروش و درآمد، اقدامات ناعادلانه یا احتمالاً غیرقانونی و شرایط بالقوه خطرناک شود.
برای جلوگیری از چنین سناریوهایی، سازمانها باید دادههای مورد استفاده برای آموزش مدلهای یادگیری ماشین را به دلیل عدم جامعیت و سوگیری شناختی بررسی کنند. دادهها باید نماینده نژادها، جنسیتها، پیشینهها و فرهنگهای مختلف باشد که ممکن است تحت تأثیر نامطلوب قرار گیرند. دانشمندان دادهای که الگوریتمها را توسعه میدهند باید نمونههای داده را بهگونهای شکل دهند که تعصب الگوریتمی و سایر انواع سوگیری یادگیری ماشین را به حداقل برساند و تصمیمگیرندگان باید زمانی که مناسب یا نامناسب است، استفاده از فناوری یادگیری ماشین را ارزیابی کنند.
انواع سوگیری یادگیری ماشینی
راههای مختلفی وجود دارد که میتوان سوگیری را به سیستم یادگیری ماشین وارد کرد. سناریوهای رایج یا انواع سوگیری شامل موارد زیر است:
- تعصب الگوریتم این زمانی اتفاق میافتد که در الگوریتمی که محاسباتی را انجام میدهد که محاسبات یادگیری ماشین را نیرو میدهد، مشکلی وجود داشته باشد.
- تعصب نمونه این زمانی اتفاق می افتد که در داده های مورد استفاده برای آموزش مدل یادگیری ماشین مشکلی وجود داشته باشد. در این نوع سوگیری، داده های مورد استفاده یا به اندازه کافی بزرگ نیستند یا به اندازه کافی نماینده برای آموزش سیستم هستند. به عنوان مثال، استفاده از داده های آموزشی که فقط معلمان زن را نشان می دهد، سیستم را آموزش می دهد تا به این نتیجه برسد که همه معلمان زن هستند.
- تعصب پیش داوری در این مورد، دادههای مورد استفاده برای آموزش سیستم، تعصبات موجود، کلیشهها و/یا مفروضات اجتماعی معیوب را منعکس میکند و از این طریق همان سوگیریهای دنیای واقعی را در خود یادگیری ماشینی معرفی میکند. برای مثال، استفاده از دادههای مربوط به متخصصان پزشکی که فقط شامل پرستاران زن و پزشکان مرد میشود، در نتیجه یک کلیشه جنسیتی در دنیای واقعی را در مورد کارکنان مراقبتهای بهداشتی در سیستم کامپیوتری تداوم میبخشد.
- سوگیری اندازه گیری همانطور که از نام آن پیداست، این سوگیری به دلیل مشکلات اساسی در صحت داده ها و نحوه اندازه گیری یا ارزیابی آن ها ایجاد می شود. استفاده از تصاویر کارگران شاد برای آموزش سیستمی برای ارزیابی محیط کار می تواند مغرضانه باشد اگر کارگران در تصاویر بدانند که برای شادی سنجیده می شوند. سیستمی که برای ارزیابی دقیق وزن آموزش داده میشود، اگر وزنهای موجود در دادههای تمرینی به طور مداوم جمع شوند، مغرضانه خواهد بود.
- سوگیری حذف این زمانی اتفاق میافتد که یک نقطه داده مهم از دادههای مورد استفاده کنار گذاشته شود – چیزی که اگر مدلسازان نقطه داده را به عنوان پیامد تشخیص ندهند، ممکن است اتفاق بیفتد.
تعصب در مقابل واریانس
دانشمندان داده و سایر افرادی که در ساخت، آموزش و استفاده از مدلهای یادگیری ماشین دخیل هستند، باید نه تنها سوگیری، بلکه واریانس را نیز در هنگام ایجاد سیستمهایی که میتوانند نتایج دقیقی ارائه دهند، در نظر بگیرند.
مانند سوگیری، واریانس خطایی است که زمانی ایجاد میشود که یادگیری ماشین بر اساس دادههای آموزشی مفروضات اشتباهی را تولید کند. برخلاف سوگیری، واریانس واکنشی است به نوسانات واقعی و مشروع در مجموعه دادهها. با این حال، این نوسانات یا نویزها نباید روی مدل مورد نظر تأثیر بگذارند، با این حال سیستم از آن نویز برای مدل سازی استفاده می کند. به عبارت دیگر، واریانس یک حساسیت مشکل ساز به نوسانات کوچک در مجموعه تمرینی است که مانند سوگیری، می تواند نتایج نادرستی ایجاد کند.
اگرچه سوگیری و واریانس متفاوت هستند، اما از این نظر به هم مرتبط هستند که سطح واریانس می تواند به کاهش سوگیری کمک کند. اگر جامعه داده تنوع کافی در آن داشته باشد، سوگیری ها باید توسط واریانس حذف شوند.
به این ترتیب، هدف در یادگیری ماشینی ایجاد یک موازنه یا تعادل بین این دو به منظور توسعه سیستمی است که حداقل مقدار خطا را ایجاد کند.
چگونه از تعصب جلوگیری کنیم
آگاهی و حکمرانی خوب می تواند به جلوگیری از سوگیری یادگیری ماشین کمک کند. سازمانی که پتانسیل سوگیری را تشخیص میدهد، میتواند بهترین شیوهها را برای مبارزه با آن اجرا و اجرا کند که شامل مراحل زیر است:
- دادههای آموزشی را انتخاب کنید که به طور مناسب معرف و به اندازه کافی بزرگ باشد تا با انواع متداول سوگیری یادگیری ماشین، مانند سوگیری نمونه و تعصب پیش داوری مقابله کند.
- تست و اعتبارسنجی کنید تا مطمئن شوید نتایج سیستمهای یادگیری ماشینی سوگیری ناشی از الگوریتمها یا مجموعه دادهها را منعکس نمیکنند.
- سیستمهای یادگیری ماشین را در حین انجام وظایف خود رصد کنید تا اطمینان حاصل کنید که سوگیریها در طول زمان وارد نمیشوند، زیرا سیستمها در حین کار به یادگیری ادامه میدهند.
- برای بررسی و بازرسی مدلها از منابع اضافی، مانند ابزار What-if Google یا جعبه ابزار منبع باز AI Fairness 360 IBM استفاده کنید.
تاریخچه سوگیری یادگیری ماشین
سوگیری یادگیری ماشین برای چندین دهه یک خطر شناخته شده بوده است، اما همچنان یک مشکل پیچیده است که مقابله با آن دشوار بوده است.
در واقع، سوگیری یادگیری ماشین قبلاً در موارد دنیای واقعی دخیل بوده است، با برخی از سوگیری ها عواقب قابل توجه و حتی تغییر دهنده زندگی.
COMPAS یکی از این نمونه هاست. COMPAS که مختصر عبارت Correctional Offender Management Profiles for Alternative Sanctions است، از یادگیری ماشینی برای پیش بینی احتمال تکرار جرم در میان متهمان جنایی استفاده می کند. چندین ایالت این نرم افزار را در اوایل قرن بیست و یکم عرضه کردند، قبل از اینکه تعصب آن علیه رنگین پوستان افشا شود و متعاقباً در مقالات خبری منتشر شود.
آمازون، یک نیروگاه استخدامی که سیاستهای استخدام آن سیاستهای استخدامی را در شرکتهای دیگر شکل میدهد، در سال 2018، الگوریتم استخدام خود را پس از اینکه متوجه شد الگوهای کلمات را شناسایی میکند، به جای مجموعههای مهارتی مرتبط، ناخواسته جریمه میکند و رزومههای حاوی کلمات خاص، از جمله زنان را جریمه میکند، کنار گذاشت. با تخفیف رزومه زنان، کاندیداهای مرد را بر کاندیداهای زن ترجیح داد.
در همین حال، در همان سال، محققان دانشگاهی یافتههایی را اعلام کردند که سیستمهای هوش مصنوعی تشخیص چهره تجاری حاوی سوگیریهای جنسیتی و نوع پوست هستند.