Sohl-Dickstein از اصول انتشار برای توسعه الگوریتمی برای مدلسازی مولد استفاده کرد. ایده ساده است: این الگوریتم ابتدا تصاویر پیچیده در مجموعه داده های آموزشی را به نویز ساده تبدیل می کند – شبیه به حرکت از یک لکه جوهر به انتشار آب آبی روشن – و سپس به سیستم می آموزد که چگونه فرآیند را مع، کند و نویز را به تصویر تبدیل کند.
نحوه کار به این صورت است: ابتدا الگوریتم یک تصویر از مجموعه آموزشی می گیرد. مانند قبل، فرض کنید که هر یک از میلیون پی،ل مقداری ارزش دارد و می تو،م تصویر را به صورت یک نقطه در فضای میلیون بعدی رسم کنیم. این الگوریتم در هر مرحله زم، مقداری نویز به هر پی،ل اضافه می کند که معادل انتشار جوهر پس از یک مرحله زم، کوچک است. همانطور که این روند ادامه می یابد، مقادیر پی،ل ها رابطه کمتری با مقادیر آنها در تصویر اصلی دارند و پی،ل ها بیشتر شبیه یک توزیع نویز ساده هستند. (الگوریتم همچنین در هر مرحله زم،، هر مقدار پی،ل را یک مقدار کمی به سمت مبدا، ی،ی مقدار صفر در تمام آن محورها، هدایت می کند. این حرکت از بزرگ شدن مقادیر پی،ل برای رایانه ها جلوگیری می کند تا به راحتی با آن کار نکنند.)
این کار را برای همه تصاویر موجود در مجموعه داده انجام دهید، و توزیع پیچیده اولیه نقاط در فضای میلیون بعدی (که به راحتی قابل توصیف و نمونه برداری نیست) به یک توزیع ساده و عادی از نقاط در اطراف مبدا تبدیل می شود.
Sohl-Dickstein گفت: “توالی تبدیل ها به آرامی توزیع داده های شما را فقط به یک توپ نویز بزرگ تبدیل می کند.” این «فرآیند رو به جلو» توزیعی را در اختیار شما قرار می دهد که می تو،د به راحتی از آن نمونه برداری کنید.
یانگ سانگ با آموزش شبکهای که به طور موثر تصاویر پر سر و صدا را از هم جدا میکند، به یک تکنیک جدید برای تولید تصاویر کمک کرد.
با حسن نیت از یانگ سانگ،مت بعدی یادگیری ماشینی است: تصاویر پر سر و صدای بدست آمده از یک گذر رو به جلو را به یک شبکه عصبی بدهید و آن را آموزش دهید تا تصاویر کم نویز را که یک قدم زودتر آمده است را پیش بینی کند. در ابتدا اشتباه می کند، بنابراین پارامترهای شبکه را تغییر می دهید تا بهتر عمل کند. در نهایت، شبکه عصبی می تواند به طور قابل اعتماد یک تصویر نویزدار را که نماینده نمونه ای از توزیع ساده است، به تصویری نماینده نمونه از توزیع پیچیده تبدیل کند.
شبکه آموزش دیده یک مدل مولد تمام عیار است. اکنون حتی به یک تصویر اصلی برای انجام پاس رو به جلو هم نیاز ندارید: شما یک توصیف ریاضی کامل از توزیع ساده دارید، بنابراین می تو،د مستقیماً از آن نمونه برداری کنید. شبکه عصبی می تواند این نمونه را – که اساساً فقط ایستا است – به یک تصویر نهایی که شبیه یک تصویر در مجموعه داده های آموزشی است تبدیل کند.
Sohl-Dickstein اولین ،وجی های مدل انتشار خود را به یاد می آورد. او گفت: “شما به چشم نگاه می کنید و می گویید، “من فکر می کنم آن لکه رنگی شبیه یک کامیون است.” ماههای زیادی از زندگیام را صرف خیره شدن به ال،ای مختلف پی،لها کردهام و سعی میکنم ساختاری را ببینم که میگویم: «این ساختار بسیار ساختارمندتر از قبل است.» خیلی هیجان زده بودم.»
تجسم آینده
Sohl-Dickstein خود را منتشر کرد الگوریتم مدل انتشار در سال 2015، اما هنوز از آنچه GAN ها می توانستند انجام دهند بسیار عقب بود. در حالی که مدلهای انتشار میتوانستند از کل توزیع نمونه برداری کنند و هرگز با بیرون ریختن تنها زیرمجموعهای از تصاویر گیر نکنند، تصاویر بدتر به نظر میرسیدند و روند بسیار کند بود. Sohl-Dickstein گفت: «فکر نمیکنم در آن زمان این موضوع هیجانانگیز باشد.
دو دانشجو که هیچ یک از آنها سول دی،تین یا یکدیگر را نمیشناختند، لازم است تا نقاط این کار اولیه را به مدلهای انتشار امروزی مانند DALL·E 2 متصل کنند. اولین نفر سونگ، دانشجوی دکترا در استنفورد در آن زمان بود. . در سال 2019 او و مشاورش یک روش جدید منتشر کرد برای ساخت مدلهای مولد که توزیع احتمال دادهها (سطح با ابعاد بالا) را برآورد نمیکنند. در عوض، گرادیان توزیع را ،ن زد (به ،وان شیب سطح با ابعاد بالا در نظر بگیرید).
منبع: https://www.wired.com/story/the-physics-principle-that-inspired-modern-ai-art/