اصل فیزیک که الهام بخش هنر هوش مصنوعی مدرن است


Sohl-Dickstein از اصول انتشار برای توسعه الگوریتمی برای مدل‌سازی مولد استفاده کرد. ایده ساده است: این الگوریتم ابتدا تصاویر پیچیده در مجموعه داده های آموزشی را به نویز ساده تبدیل می کند – شبیه به حرکت از یک لکه جوهر به انتشار آب آبی روشن – و سپس به سیستم می آموزد که چگونه فرآیند را مع، کند و نویز را به تصویر تبدیل کند.

نحوه کار به این صورت است: ابتدا الگوریتم یک تصویر از مجموعه آموزشی می گیرد. مانند قبل، فرض کنید که هر یک از میلیون پی،ل مقداری ارزش دارد و می تو،م تصویر را به صورت یک نقطه در فضای میلیون بعدی رسم کنیم. این الگوریتم در هر مرحله زم، مقداری نویز به هر پی،ل اضافه می کند که معادل انتشار جوهر پس از یک مرحله زم، کوچک است. همانطور که این روند ادامه می یابد، مقادیر پی،ل ها رابطه کمتری با مقادیر آنها در تصویر اصلی دارند و پی،ل ها بیشتر شبیه یک توزیع نویز ساده هستند. (الگوریتم همچنین در هر مرحله زم،، هر مقدار پی،ل را یک مقدار کمی به سمت مبدا، ی،ی مقدار صفر در تمام آن محورها، هدایت می کند. این حرکت از بزرگ شدن مقادیر پی،ل برای رایانه ها جلوگیری می کند تا به راحتی با آن کار نکنند.)

این کار را برای همه تصاویر موجود در مجموعه داده انجام دهید، و توزیع پیچیده اولیه نقاط در فضای میلیون بعدی (که به راحتی قابل توصیف و نمونه برداری نیست) به یک توزیع ساده و عادی از نقاط در اطراف مبدا تبدیل می شود.

Sohl-Dickstein گفت: “توالی تبدیل ها به آرامی توزیع داده های شما را فقط به یک توپ نویز بزرگ تبدیل می کند.” این «فرآیند رو به جلو» توزیعی را در اختیار شما قرار می دهد که می تو،د به راحتی از آن نمونه برداری کنید.

یانگ سانگ با آموزش شبکه‌ای که به طور موثر تصاویر پر سر و صدا را از هم جدا می‌کند، به یک تکنیک جدید برای تولید تصاویر کمک کرد.

با حسن نیت از یانگ سانگ

،مت بعدی یادگیری ماشینی است: تصاویر پر سر و صدای بدست آمده از یک گذر رو به جلو را به یک شبکه عصبی بدهید و آن را آموزش دهید تا تصاویر کم نویز را که یک قدم زودتر آمده است را پیش بینی کند. در ابتدا اشتباه می کند، بنابراین پارامترهای شبکه را تغییر می دهید تا بهتر عمل کند. در نهایت، شبکه عصبی می تواند به طور قابل اعتماد یک تصویر نویزدار را که نماینده نمونه ای از توزیع ساده است، به تصویری نماینده نمونه از توزیع پیچیده تبدیل کند.

شبکه آموزش دیده یک مدل مولد تمام عیار است. اکنون حتی به یک تصویر اصلی برای انجام پاس رو به جلو هم نیاز ندارید: شما یک توصیف ریاضی کامل از توزیع ساده دارید، بنابراین می تو،د مستقیماً از آن نمونه برداری کنید. شبکه عصبی می تواند این نمونه را – که اساساً فقط ایستا است – به یک تصویر نهایی که شبیه یک تصویر در مجموعه داده های آموزشی است تبدیل کند.

Sohl-Dickstein اولین ،وجی های مدل انتشار خود را به یاد می آورد. او گفت: “شما به چشم نگاه می کنید و می گویید، “من فکر می کنم آن لکه رنگی شبیه یک کامیون است.” ماه‌های زیادی از زندگی‌ام را صرف خیره شدن به ال،ای مختلف پی،ل‌ها کرده‌ام و سعی می‌کنم ساختاری را ببینم که می‌گویم: «این ساختار بسیار ساختارمندتر از قبل است.» خیلی هیجان زده بودم.»

تجسم آینده

Sohl-Dickstein خود را منتشر کرد الگوریتم مدل انتشار در سال 2015، اما هنوز از آنچه GAN ها می توانستند انجام دهند بسیار عقب بود. در حالی که مدل‌های انتشار می‌توانستند از کل توزیع نمونه برداری کنند و هرگز با بیرون ریختن تنها زیرمجموعه‌ای از تصاویر گیر نکنند، تصاویر بدتر به نظر می‌رسیدند و روند بسیار کند بود. Sohl-Dickstein گفت: «فکر نمی‌کنم در آن زمان این موضوع هیجان‌انگیز باشد.

دو دانشجو که هیچ یک از آنها سول دی،تین یا یکدیگر را نمی‌شناختند، لازم است تا نقاط این کار اولیه را به مدل‌های انتشار امروزی مانند DALL·E 2 متصل کنند. اولین نفر سونگ، دانشجوی دکترا در استنفورد در آن زمان بود. . در سال 2019 او و مشاورش یک روش جدید منتشر کرد برای ساخت مدل‌های مولد که توزیع احتمال داده‌ها (سطح با ابعاد بالا) را برآورد نمی‌کنند. در عوض، گرادیان توزیع را ،ن زد (به ،وان شیب سطح با ابعاد بالا در نظر بگیرید).


منبع: https://www.wired.com/story/the-physics-principle-that-inspired-modern-ai-art/