متا یک مدل جدید هوش مصنوعی به نام ImageBind را به صورت منبع باز منتشر کرده است که چندین جریان داده را از جمله داده های متنی، صوتی، تصویری، دمایی و خوانش حرکتی به هم متصل می کند.
مدل جدید ImageBind، داده های متنی، صوتی، تصویری، حرکتی، حرارتی و عمقی را با هم ترکیب می کند. این فقط یک پروژه تحقیقاتی است، اما نشان می دهد که چگونه مدل های هوش مصنوعی آینده قادر به تولید محتوای چند حسی خواهند بود.
همانطور که گفته شد، این مدل در حال حاضر فقط یک پروژه تحقیقاتی است و هیچ کاربرد عملی برای مصرفکنندگان ندارد. اما نشان می دهد که در آینده، سیستم های AI تولیدی قادر به ایجاد تجربه های چندحسی هستند و شمارا در خود غرق خواهند کرد. در مقایسه با رقبایی مانند Open AIو گوگل، که روز به روز محرمانهتر شدهاند، متا به انتشار تحقیقات AI خود ادامه میدهد.
طرح اصلی این تحقیق، اتصال چندین نوع داده به یک فضای شاخص چند بعدی یا فضای تعبیه شده به زبان AI است. این ایده ممکن است کمی انتزاعی به نظر برسد، اما همین ایده زیر بنای رشد اخیر در AI مولد را فراهم کرده است.
مدل های AI چند حسی هستند که قلب رونق AI مولد را تشکیل می دهند
به عنوان مثال، تولید کننده های تصویر AI مانند DALL-E، Stable Diffusion و Midjourney، همه به سیستمهایی نیاز دارند که در دوره آموزشی، دادههای تصویری و متنی را با هم ارتباط دهند. این سیستمها الگوهایی را در دادههای بصری جستجو می کنند در حالی که این اطلاعات را به توصیف تصاویر متصل می کنند. این است که باعث می شود این سیستم ها تصاویری را تولید کنند که با ورودی متنی کاربران هماهنگ شدهاند. همین موضوع برای بسیاری از ابزارهای AI که ویدئو یا صدا تولید می کنند نیز درست است.
متا می گوید که مدل هوش مصنوعی متا ImageBind آن، اولین مدل است که شش نوع داده را در یک فضای تعبیه شده ترکیب می کند. شش نوع داده شامل داده های تصویری به صورت تصویر و ویدئو، دادههای حرارتی تصاویر مادون قرمز، متن، صدا، اطلاعات عمق و جالب تر از همه، خوانش حرکت تولید شده توسط یک واحد اندازهگیری اینرسی یا IMU است. IMU ها در تلفن های هوشمند و ساعت های هوشمند یافت و برای مجموعه ای از وظایف از جمله تغییر حالت تلفن از فضایی به عمودی و تشخیص انواع فعالیت های فیزیکی مختلف استفاده می شوند.
ایده این است که سیستمهای هوش مصنوعی آینده میتوانند این دادهها را به همان روشی که سیستمهای هوش مصنوعی فعلی برای ورودیهای متن انجام میدهند، ارجاع دهند. به عنوان مثال، یک دستگاه واقعیت مجازی آینده را تصور کنید که نه تنها ورودی صوتی و تصویری شما را تولید می کند، بلکه محیط و حرکات شما را روی صحنه فیزیکی نیز با یکدیگر ترکیب می کند. ممکن است از آن بخواهید تا یک سفر دریایی را شبیه سازی کند و این دستگاه، شما را نه تنها در یک کشتی با صدای موج ها در پس زمینه قرار دهد، بلکه حرکت کشتی روی آب را به پاهای شما منتقل کرده و هوای پر از نسیم خنک دریا را برای شما به ارمغان بیاورد.
متا، در یک پست وبلاگ به این نکته اشاره کرده است که در مدل های آینده، جریانهای حسی دیگری از جمله لمس، سخنرانی، بو و نشانه های fMRI مغز نیز اضافه میشود. همچنین آنها اعلام کردهاند که تحقیقاتشان ماشینها را یک قدم به توانایی یادگیری به صورت همزمان، جامع و مستقیم از انواع مختلف اطلاعات نزدیکتر میکند که البته، بستگی دارد این قدمها چقدر کوچک باشند.
در حال حاضر همه این ها احتمالی است و احتمالا کاربردهای اولیه تحقیقاتی مانند این، خیلی محدودتر خواهد بود. به عنوان مثال، سال گذشته متا یک مدل هوش مصنوعی متا نشان داد که از شرح متنی، ویدئوهای کوتاه و مبهمی را تولید می کند. کارهایی مانند ImageBind نشان می دهد که نسخه های آینده سیستم چگونه می توانند جریان های دیگری از دادهها را نیز با خود ترکیب کند، به عنوان مثال، تولید صدایی که با ویدئو خروجی هماهنگ شود.
همچنین برای ناظران صنعت، این تحقیقات جالب است زیرا متا مدل پایه را به صورت منبع باز ارائه می کند. این روش که در جهان AI بطور فزاینده ای مورد بررسی قرار می گیرد.
افرادی که مخالف با منبع باز در این صنعت هستند، مانند OpenAI، می گویند که این روش برای کاربران آسیب زا است زیرا رقبا می توانند کارهای آنها را کپی کنند و این به طور بالقوه خطرناک است، به افراد مخرب اجازه می دهد از مدل های پیشرفته هوش مصنوعی استفاده کنند.
حامیان این طرح پاسخ می دهند که بازسازی باعث می شود افراد واسطه قادر به بررسی سیستم ها برای یافتن نقاط ضعف و بهبود برخی از نواقص شوند. آنها خاطرنشان می کنند که حتی می تواند منجر به مزیت تجاری شود، زیرا در واقع به شرکت ها اجازه می دهد که توسعه دهندگان شخص ثالث را به عنوان کارگران بدون حقوق استخدام کرده و کار خود را بهبود بخشند.
تا کنون، متا به طور قطعانه طرفدار منبع باز بوده است، البته این موضع بدون مشکل نیست.برای مثال، آخرین مدل زبان LLaMA ، اوایل امسال به صورت آنلاین منتشر شد. از بسیاری جهات نیز، عدم موفقیت تجاری آن در هوش مصنوعی این رویکرد را به آن ها داده است چراکه این شرکت هیچ ربات چت برای رقیب Bing، Bard یا ChatGPT ندارد. با این حال، با راهاندازی ImageBind، شرکت متا این رویکرد خود را ادامه میدهد.