یادگیری ماشین متخاصم چیست؟
یادگیری ماشینی متخاصم تکنیکی است که در یادگیری ماشین برای فریب دادن یا گمراه کردن یک مدل با ورودی های مخرب استفاده می شود. در حالی که یادگیری ماشین متخاصم می تواند در برنامه های مختلف مورد استفاده قرار گیرد، این تکنیک بیشتر برای اجرای یک حمله یا ایجاد نقص در سیستم یادگیری ماشین استفاده می شود. نمونه مشابه یک حمله را می توان به راحتی تغییر داد تا روی چندین مدل از مجموعه داده ها یا معماری های مختلف کار کند.
یادگیری ماشین خصمانه را می توان به عنوان یک حمله جعبه سفید یا سیاه در نظر گرفت. در حمله جعبه سفید، مهاجم از عملکرد درونی مدل استفاده شده و در حمله جعبه سیاه، مهاجم فقط خروجی های مدل را می داند.
مدلهای یادگیری ماشینی با استفاده از مجموعه دادههای بزرگ مربوط به موضوع مورد یادگیری آموزش داده میشوند. به عنوان مثال، اگر یک شرکت خودروسازی بخواهد به خودروی خودکار خود یاد دهد که چگونه علامت توقف را شناسایی کند، آن شرکت ممکن است هزاران تصویر از علائم توقف را از طریق الگوریتم یادگیری ماشینی ارائه دهد.
یک حمله مخرب مانند یادگیری ماشین متخاصم میتواند بر علیه الگوریتم یادگیری ماشین استفاده شود، از دادههای ورودی الگوریتم (در این مورد تصاویر علائم توقف) برای تفسیر نادرست آن دادهها استفاده میکند، و باعث میشود که سیستم کلی در صورت استقرار در هر یک از تمرینها، علائم توقف را اشتباه شناسایی کند. یا تولید
انواع حملات یادگیری ماشین متخاصم
حملات یادگیری ماشین خصمانه را می توان به عنوان ورودی های طبقه بندی اشتباه یا مسمومیت داده طبقه بندی کرد. ورودیهای طبقهبندی نادرست نوع رایجتری هستند که در آن مهاجمان محتوای مخرب را در فیلترهای الگوریتم یادگیری ماشین پنهان میکنند. هدف از این حمله این است که سیستم یک مجموعه داده خاص را به اشتباه طبقه بندی کند. پس از استقرار سیستم می توان از حملات تروجان درب پشتی برای انجام این کار استفاده کرد.
مسمومیت داده زمانی است که مهاجم سعی می کند با قرار دادن داده های نادرست در یک مجموعه داده، فرآیند یادگیری ماشین را اصلاح کند و خروجی ها را دقیق تر کند. هدف این نوع حمله به خطر انداختن فرآیند یادگیری ماشین و به حداقل رساندن سودمندی الگوریتم است.
دفاع در برابر یادگیری ماشینی متخاصم
در حال حاضر، راه مشخصی برای دفاع در برابر یادگیری ماشینی متخاصم وجود ندارد. با این حال، چند تکنیک وجود دارد که می تواند به جلوگیری از وقوع حمله ای از این نوع کمک کند. چنین تکنیک هایی شامل آموزش خصمانه، تقطیر دفاعی است.
آموزش خصومتآمیز فرآیندی است که در آن نمونههایی از نمونههای متخاصم به مدل معرفی میشوند و به عنوان تهدیدکننده برچسبگذاری میشوند. این فرآیند میتواند برای جلوگیری از وقوع حملات یادگیری ماشینی متخاصم مفید باشد، اما نیاز به نگهداری زیادی دارد.
هدف تقطیر دفاعی این است که الگوریتم یادگیری ماشین را با پیشبینی خروجیهای مدل دیگری که قبلاً آموزش داده شده بود، پیشبینی کند. این رویکرد می تواند تهدیدات ناشناخته را شناسایی کند. از نظر فکری شبیه به شبکههای متخاصم مولد (GAN) است که دو شبکه عصبی را با هم برای سرعت بخشیدن به فرآیندهای یادگیری ماشین راهاندازی میکند – در این ایده که دو مدل یادگیری ماشین با هم استفاده میشوند.