GANs در مقابل VAEs: بهترین رویکرد هوش مصنوعی مولد چیست؟
در این مقاله به GANs در مقابل VAEs: بهترین رویکرد هوش مصنوعی مولد چیست؟ خواهیم پرداخت. استفاده از هوش مصنوعی مولد در صنایع در حال گسترش است. دو رویکرد محبوب وجود دارد یکی GAN ها هستند که برای تولید چند رسانه ای استفاده می شوند و دیگری VAE که بیشتر برای تجزیه و تحلیل سیگنال استفاده می شوند.
شبکههای متخاصم مولد و رمزگذارهای خودکار متغیر، دو مورد از محبوبترین رویکردهایی هستند که برای تولید محتوای تولید شده توسط هوش مصنوعی استفاده میشوند. به طور کلی، GAN ها بیشتر برای تولید چند رسانه ای مورد استفاده قرار می گیرند، در حالی که VAE ها بیشتر در تجزیه و تحلیل سیگنال استفاده می شوند.
بهترین رویکرد هوش مصنوعی مولد چیست؟
چگونه این به ارزش واقعی و عملی ترجمه می شود؟ تکنیکهای هوش مصنوعی به ایجاد مدلهای هوش مصنوعی، دادههای مصنوعی و چند رسانهای واقعی مانند صداها و تصاویر کمک میکنند. اگرچه این تکنیکها گاهی برای ایجاد دیپفیک استفاده میشوند، اما میتوانند دوبلههای واقعی برای فیلمها ایجاد کنند و تصاویری را از توضیحات متن کوتاه ایجاد کنند. آنها همچنین اهداف کشف دارو را تولید می کنند، انتخاب های طراحی محصول را توصیه می کنند و الگوریتم های امنیتی را بهبود می بخشند.
GAN ها چگونه کار می کنند؟
ایان گودفلو و همکارانش در دانشگاه مونترال GAN ها را در سال 2014 معرفی کردند. Yann LeCun، دانشمند ارشد هوش مصنوعی در Meta، نوشته است که GAN ها و تغییرات آنها “جالب ترین ایده در ده سال گذشته در یادگیری ماشینی” است.
برای شروع، از GAN ها برای تولید گفتار واقع گرایانه، از جمله صداها و حرکات لب برای تولید ترجمه بهتر استفاده شده است. آنها همچنین تصاویر را ترجمه کرده اند، بین شب و روز تفاوت قائل شده اند و حرکات رقص بین بدن ها را مشخص کرده اند. در ترکیب با سایر تکنیکهای هوش مصنوعی، امنیت را بهبود میبخشند و طبقهبندیکنندههای هوش مصنوعی بهتری میسازند.
مکانیک واقعی GAN ها شامل تعامل دو شبکه عصبی است که برای تولید و سپس طبقه بندی داده هایی که نماینده واقعیت هستند با هم کار می کنند. GAN ها محتوا را با استفاده از یک شبکه عصبی مولد تولید می کنند که در برابر یک شبکه عصبی دوم آزمایش می شود: تشخیص دهنده، که تعیین می کند آیا محتوا “واقعی” به نظر می رسد یا خیر.
این بازخورد به آموزش شبکه ژنراتور بهتر کمک می کند. تمایزکننده همچنین میتواند محتوای جعلی یا محتوایی را که بخشی از دامنه نیست شناسایی کند. با گذشت زمان، هر دو شبکه عصبی بهتر میشوند و بازخورد به آنها کمک میکند تا یاد بگیرند که دادههایی تولید کنند که تا حد امکان به واقعیت نزدیک است.
چگونه VAE ها کار می کنند و با GAN مقایسه می شوند؟
VAEها نیز در سال 2014 معرفی شدند، اما توسط دیدریک کینگما، دانشمند محقق در گوگل، و مکس ولینگ، صندلی تحقیقاتی در زمینه یادگیری ماشین در دانشگاه آمستردام. VAE ها همچنین قول می دهند که موتورهای طبقه بندی موثرتری برای کارهای مختلف با مکانیک های مختلف ایجاد کنند. آنها در هسته خود بر روی رمزگذارهای خودکار شبکه عصبی ساخته شده اند که از دو شبکه عصبی تشکیل شده است: یک رمزگذار و یک رمزگشا. شبکه رمزگذار برای راههای کارآمدتر نمایش دادهها بهینهسازی میشود، در حالی که شبکه رمزگشا برای روشهای کارآمدتر برای بازسازی مجموعه داده اصلی بهینه میشود.
به طور سنتی، تکنیک های رمزگذار خودکار داده ها را تمیز می کند، تجزیه و تحلیل پیش بینی را بهبود می بخشد، داده ها را فشرده می کند و ابعاد مجموعه داده ها را برای الگوریتم های دیگر کاهش می دهد. VAE ها این را بیشتر می کنند تا خطاهای بین سیگنال خام و بازسازی را به حداقل برسانند.
تیاگو کاردوسو، مدیر محصول گروه در Hyland Software، گفت: “VAEها در ارائه محتوای تقریباً اصلی فقط با یک بردار کاهشیافته فوقالعاده قوی هستند. همچنین به ما امکان میدهد محتوای موجودی تولید کنیم که بتوان بدون مجوز از آن استفاده کرد.”
بزرگترین تفاوتی که در کنار هم قرار دادن GANs در مقابل VAE یافت می شود، نحوه اعمال آنهاست. Pratik Agrawal، شریک تحول دیجیتال و تمرین هوش مصنوعی در شرکت مشاوره مدیریت Kearney، گفت که GAN ها معمولاً هنگام برخورد با هر نوع تصویر یا داده بصری استفاده می شوند. او دریافت که VAEها برای موارد استفاده پردازش سیگنال، مانند تشخیص ناهنجاری برای نگهداری پیشبینیکننده یا برنامههای تحلیل امنیتی، بهتر عمل میکنند.
موارد استفاده از هوش مصنوعی
تکنیک های مولد هوش مصنوعی مانند GAN ها و VAE ها را می توان در موارد استفاده به ظاهر نامحدودی به کار برد، از جمله موارد زیر:
- پیاده سازی ربات های چت برای خدمات مشتری و پشتیبانی فنی.
- استفاده از دیپ فیک برای تقلید از افراد.
- بهبود دوبله فیلم ها
- نوشتن پاسخ ایمیل، پروفایل دوستیابی، رزومه و مقالات ترم.
- خلق هنر فوتورئالیستی در سبکی خاص.
- پیشنهاد ترکیبات دارویی جدید برای آزمایش.
- طراحی محصولات فیزیکی و ساختمان.
- بهینه سازی طرح های جدید تراشه
- نوشتن موسیقی به سبک یا لحن خاص.
آگراوال گفت، از آنجایی که هر دو VAE و GAN نمونههایی از شبکههای عصبی هستند، کاربرد آنها را میتوان در نمونههای واقعی کسبوکار محدود کرد. دانشمندان داده و توسعه دهندگانی که با این تکنیک ها کار می کنند باید نتایج را به ورودی ها مرتبط کنند و تجزیه و تحلیل حساسیت را اجرا کنند. همچنین در نظر گرفتن عواملی مانند پایداری این راه حل ها و توجه به اینکه چه کسی آنها را اجرا می کند، تعداد دفعات نگهداری آنها و منابع فناوری مورد نیاز برای به روز رسانی آنها ضروری است.
شایان ذکر است که تکنیکهای متنوع دیگری به تازگی در هوش مصنوعی مولد پدیدار شدهاند، از جمله مدلهای انتشار، که برای تولید و بهینهسازی تصاویر استفاده میشوند. ترانسفورماتورهایی مانند Open AI’s ChatGPT که به طور گسترده در تولید زبان استفاده می شود. و میدان های تابشی عصبی یا NeRF ها، تکنیک جدیدی است که برای ایجاد رسانه های سه بعدی واقعی از داده های دو بعدی استفاده می شود.