در حالیکه سیستمهای مختلفی برای تبدیل متن به تصویر مانند برنامههای مبتنی بر ارز دیجیتال مانند VQGAN+CLIP و CLIP-Guided Diffusion وجود دارند، جدیدترین نسخه DALL-E بهطور قابلتوجهی در تولید تصاویر منسجم بهینهسازی شده است. بهنظر میرسد که جهان و ارتباطات بین اشابه بهخوی توسط فناوری درک شده است. هوش مصنوعی دال-ای قادر به تولید تصاویر خیرهکنندهای است که پتانسیل هنری هوش مصنوعی را نشان میدهد. بیایید دقیقتر بدانیم که DALL-E چیست و چطور از آن استفاده کنیم.
هوش مصنوعی دال-ای چیست؟
DALL-E یک فناوری هوش مصنوعی مولد است که میتواند تصاویر واقعی و هنری را از پیامهای متنی ایجاد کند. بهعنوان مثال، اگر از او بخواهید که گربهای سیاه را با کلاه کابویی قرمز رنگ بکشد، تمام سعی خود را میکند تا تصویری مطابق با درخواست شما ایجاد کند. در واقع کاربر با دادن یک عبارت ساده یا پیچیده به DALL-E، میتواند تصاویر مختلفی از عکسهای واقعگرایانه گرفته تا هنر انتزاعی و.. را با سطحی از خلاقیت بالا که شگفتزدهتان میکند، دریافت کند.
از نظر عملکردی، Dall-E یک شبکه عصبی است که میتواند تصاویر کاملاً جدیدی را در هر تعداد سبک با مفاهیم و ویژگیها مختلف که توسط درخواستهای کاربر مشخص میشود، تولید کند و یا آنها را با تصاویر بدیع و تخیلی ترکیب کند.
نام Dall-E ادای احترامی به دو موضوع اصلی مختلف این فناوری است که به هدف ادغام هنر و فناوری هوش مصنوعی اشاره دارد. قسمت اول (DALL) در نظر گرفته شده که یادآور هنرمند مشهور سورئال اسپانیایی سالوادور دالی است، در حالیکه قسمت دوم (E) مربوط به ربات خیالی دیزنی Wall-E است. ترکیب این دو نام نشاندهنده قدرت تصویری انتزاعی و تا حدودی سورئال این فناوری است که توسط یک ماشین خودکار شده است.
انواع هوش مصنوعی دال-ای
DALL-E یکی از خلاقانهترین خلاقیتهای OpenAI است که بهطور خاص برای تولید تصاویر از توضیحات متنی طراحی شده است. این مدل هوش مصنوعی شاخهای از GPT-3 معروف است که برای محتوای بصری به جای متن طراحی شده است.
سه نسخه از DALL-E وجود دارد: DALL-E 1، DALL-E 2 و DALL-E 3. آنها در ویژگیها، قابلیتها و دقت در ظرافت تصاویر با همدیگر تفاوت دارند.
DALL-E 1 اولین نسخه بود که در ژانویه 20211 منتشر شد. این نسخه از هوش مصنوعی دال-ای تصاویر را براساس پیامهای متنی که از نظر گرامری صحیح حروف ربط، حروف اضافه و انتقال سبک صحیح هستند، تولید میکند. با اینحال همیشه تصاویر این ورژن از دال- ای واقعی و دقیق نیست بهویژه برای درخواستهای پیچیده یا انتزاعی. تصاویر تولید شده توسط DALL-E 1 از یک VAE گسسته در یک شبکه 32×32 از کدهای پنهان کشیده میشوند.
DALL-E 2 دومین نسخه بود که در آوریل 20222 منتشر شد. DALL-E و DALL-E 2 تکنیکهای یادگیری عمیق هستند. دومین نسخه دال-ای تصاویر را واقعیتر و دقیقتر و با وضوح 4 برابر بیشتر تولید میکند. همچنین میتواند مفاهیم، ویژگیها و سبکها را با هم ترکیب کند، تا گرافیک واقعیتر با وضوح بالاتر ارائه دهد.
DALL-E 3 آخرین نسخه سیستم هوش مصنوعی پیشرفته OpenAI است که میتواند تصاویر بسیار دقیق و ظریقی را براساس توضیحات کاربر ایجاد کند. این ورژن از دال- ای میتواند پیامها را براساس ساختار جملات یا سناریوهای پیچیده مانند «یک ساختمان با معماری مدرن با پنجرههای شیشهای، روی صخرهای مشرف به اقیاس آرام در غروب خورشید» کاملاً درک کند. همچنین این ورژن از دال-ای میتواند چندین درخواست را بهطور همزمان مدیریت کند و کلاژی از تصاویر تولید و ارائه دهد.
چگونه از DALL-E استفاده کنیم؟
روشهای مختلفی برای استفاده از هوش مصنوعی DALL-E با توجه به ترجیحات کاربران وجود دارد که رایجترین گزینهها عبارتند از:
– میتوانید از DALL-E3، آخرین نسخه DALL-E که با ChatGPT یکپارچه شده است، استفاده کنید.. برای استفاده از DALL-E3، باید در ChatGPT Plus ثبتنام کنید که هزینه آن 20 دلار در ماه است. پس از ثبتنام میتوانید از وبسایت ChatGPT به DALL-E3 دسترسی پیدا کنید و تصاویر درخواستی را بهصورت پیام متنی یا با استفاده از زبان گفتار اعلام کنید. پس از اعلام درخواست دال-ای چهار تصویر مختلف را براساس درخواست شما ارائه میدهد.
– برای آزمایش DALL-E3 بهصورت رایگان، اما با برخی محدودیتها، میتوانید از Bing Image Creator استفاده کنید.
– روش دیگر برای استفاده از این هوش مصنوعی استفاده از نسخهی DALL-E2 است که بهعنوان یک برنامه مستقل در دسترس است. برای استفاده از دال-ای 2 باید یک حساب کاربری رایگان در وبسایت OpenAI ایحاد کنید و درخواست دسترسی به نسخه بتا DALL-E 2 را بدهید. پس از تائید درخواست میتوانید نوع تصویر درخواستی را براساس پیام متنی در وب سایت DALL-E 2 وارد کنید و 4 تصویر مختلف براساس درخواستتان دریافت کنید.
– راه دیگر برای استفاده از هوش مصنوعی دالای استفاده از DALL-E1، نسخه اصلی DALL-E است که هنوز در وبسایت OpenAI بهصورت رایگان قابل دسترسی است. DALL-E1 میتواند تصاویر را از هر پیام متنی تولید کند، به شرطی که منسجم و از نظر گرامری صحیح باشد. برای استفاده از DALL-E1، فقط باید به وبسایت OpenAI بروید و درخواست را بهصورت پیام متنی در صفحه DALL-E1 وارد کنید.