یادگیری ماشین متخاصم چیست؟

یادگیری ماشینی متخاصم تکنیکی است که در یادگیری ماشین برای فریب دادن یا گمراه کردن یک مدل با ورودی های مخرب استفاده می شود. در حالی که یادگیری ماشین متخاصم می تواند در برنامه های مختلف مورد استفاده قرار گیرد، این تکنیک بیشتر برای اجرای یک حمله یا ایجاد نقص در سیستم یادگیری ماشین استفاده می شود. نمونه مشابه یک حمله را می توان به راحتی تغییر داد تا روی چندین مدل از مجموعه داده ها یا معماری های مختلف کار کند.

یادگیری ماشین خصمانه را می توان به عنوان یک حمله جعبه سفید یا سیاه در نظر گرفت. در حمله جعبه سفید، مهاجم از عملکرد درونی مدل استفاده شده و در حمله جعبه سیاه، مهاجم فقط خروجی های مدل را می داند.

مدل‌های یادگیری ماشینی با استفاده از مجموعه داده‌های بزرگ مربوط به موضوع مورد یادگیری آموزش داده می‌شوند. به عنوان مثال، اگر یک شرکت خودروسازی بخواهد به خودروی خودکار خود یاد دهد که چگونه علامت توقف را شناسایی کند، آن شرکت ممکن است هزاران تصویر از علائم توقف را از طریق الگوریتم یادگیری ماشینی ارائه دهد.

یک حمله مخرب مانند یادگیری ماشین متخاصم می‌تواند بر علیه الگوریتم یادگیری ماشین استفاده شود، از داده‌های ورودی الگوریتم (در این مورد تصاویر علائم توقف) برای تفسیر نادرست آن داده‌ها استفاده می‌کند، و باعث می‌شود که سیستم کلی در صورت استقرار در هر یک از تمرین‌ها، علائم توقف را اشتباه شناسایی کند. یا تولید

انواع حملات یادگیری ماشین متخاصم

حملات یادگیری ماشین خصمانه را می توان به عنوان ورودی های طبقه بندی اشتباه یا مسمومیت داده طبقه بندی کرد. ورودی‌های طبقه‌بندی نادرست نوع رایج‌تری هستند که در آن مهاجمان محتوای مخرب را در فیلترهای الگوریتم یادگیری ماشین پنهان می‌کنند. هدف از این حمله این است که سیستم یک مجموعه داده خاص را به اشتباه طبقه بندی کند. پس از استقرار سیستم می توان از حملات تروجان درب پشتی برای انجام این کار استفاده کرد.

مسمومیت داده زمانی است که مهاجم سعی می کند با قرار دادن داده های نادرست در یک مجموعه داده، فرآیند یادگیری ماشین را اصلاح کند و خروجی ها را دقیق تر کند. هدف این نوع حمله به خطر انداختن فرآیند یادگیری ماشین و به حداقل رساندن سودمندی الگوریتم است.

دفاع در برابر یادگیری ماشینی متخاصم

در حال حاضر، راه مشخصی برای دفاع در برابر یادگیری ماشینی متخاصم وجود ندارد. با این حال، چند تکنیک وجود دارد که می تواند به جلوگیری از وقوع حمله ای از این نوع کمک کند. چنین تکنیک هایی شامل آموزش خصمانه، تقطیر دفاعی است.

آموزش خصومت‌آمیز فرآیندی است که در آن نمونه‌هایی از نمونه‌های متخاصم به مدل معرفی می‌شوند و به عنوان تهدیدکننده برچسب‌گذاری می‌شوند. این فرآیند می‌تواند برای جلوگیری از وقوع حملات یادگیری ماشینی متخاصم مفید باشد، اما نیاز به نگهداری زیادی دارد.

هدف تقطیر دفاعی این است که الگوریتم یادگیری ماشین را با پیش‌بینی خروجی‌های مدل دیگری که قبلاً آموزش داده شده بود، پیش‌بینی کند. این رویکرد می تواند تهدیدات ناشناخته را شناسایی کند. از نظر فکری شبیه به شبکه‌های متخاصم مولد (GAN) است که دو شبکه عصبی را با هم برای سرعت بخشیدن به فرآیندهای یادگیری ماشین راه‌اندازی می‌کند – در این ایده که دو مدل یادگیری ماشین با هم استفاده می‌شوند.

برای امتیاز به این نوشته کلیک کنید!

[کل: 0 میانگین: 0]