متا یک مدل جدید هوش مصنوعی به نام ImageBind را به صورت منبع باز منتشر کرده است که چندین جریان داده را از جمله داده های متنی، صوتی، تصویری، دمایی و خوانش حرکتی به هم متصل می کند.

مدل جدید ImageBind، داده های متنی، صوتی، تصویری، حرکتی، حرارتی و عمقی را با هم ترکیب می کند. این فقط یک پروژه تحقیقاتی است، اما نشان می دهد که چگونه مدل های هوش مصنوعی آینده قادر به تولید محتوای چند حسی خواهند بود.

همانطور که گفته شد، این مدل در حال حاضر فقط یک پروژه تحقیقاتی است و هیچ کاربرد عملی برای مصرف‌کنندگان ندارد. اما نشان می دهد که در آینده، سیستم های AI تولیدی قادر به ایجاد تجربه های چندحسی هستند و شمارا در خود غرق خواهند کرد. در مقایسه با رقبایی مانند  Open AIو گوگل، که روز به روز محرمانه‌تر شده‌اند، متا به انتشار تحقیقات AI خود ادامه می‌دهد.

طرح اصلی این تحقیق، اتصال چندین نوع داده به یک فضای شاخص چند بعدی یا فضای تعبیه شده به زبان AI است. این ایده ممکن است کمی انتزاعی به نظر برسد، اما همین ایده زیر بنای رشد اخیر در AI مولد را فراهم کرده است.

مدل های AI چند حسی هستند که قلب رونق AI مولد را تشکیل می دهند

به عنوان مثال، تولید کننده های تصویر AI مانند DALL-E، Stable Diffusion و Midjourney، همه به سیستم‌هایی نیاز دارند که در دوره آموزشی، داده‌های تصویری و متنی را با هم ارتباط دهند. این سیستم‌ها الگوهایی را در داده‌های بصری جستجو می کنند در حالی که این اطلاعات را به توصیف تصاویر متصل می کنند. این است که باعث می شود این سیستم ها تصاویری را تولید کنند که با ورودی متنی کاربران هماهنگ شده‌اند. همین موضوع برای بسیاری از ابزارهای AI که ویدئو یا صدا تولید می کنند نیز درست است.

متا می گوید که مدل هوش مصنوعی متا ImageBind آن، اولین مدل است که شش نوع داده را در یک فضای تعبیه شده ترکیب می کند. شش نوع داده شامل داده های تصویری به صورت تصویر و ویدئو، داده‌های حرارتی تصاویر مادون قرمز، متن، صدا، اطلاعات عمق و جالب تر از همه، خوانش حرکت تولید شده توسط یک واحد اندازه‌گیری اینرسی یا IMU است. IMU ها در تلفن های هوشمند و ساعت های هوشمند یافت و برای مجموعه ای از وظایف از جمله تغییر حالت تلفن از فضایی به عمودی و تشخیص انواع فعالیت های فیزیکی مختلف استفاده می شوند.

ایده این است که سیستم‌های هوش مصنوعی آینده می‌توانند این داده‌ها را به همان روشی که سیستم‌های هوش مصنوعی فعلی برای ورودی‌های متن انجام می‌دهند، ارجاع دهند. به عنوان مثال، یک دستگاه واقعیت مجازی آینده را تصور کنید که نه تنها ورودی صوتی و تصویری شما را تولید می کند، بلکه محیط و حرکات شما را روی صحنه فیزیکی نیز با یکدیگر ترکیب می کند. ممکن است از آن بخواهید تا یک سفر دریایی را شبیه سازی کند و این دستگاه، شما را نه تنها در یک کشتی با صدای موج ها در پس زمینه قرار دهد، بلکه حرکت کشتی روی آب را به پاهای شما منتقل کرده و هوای پر از نسیم خنک دریا را برای شما به ارمغان بیاورد.

متا، در یک پست وبلاگ به این نکته اشاره کرده است که در مدل های آینده، جریان‌های حسی دیگری از جمله لمس، سخنرانی، بو و نشانه های fMRI مغز نیز اضافه ‌می‌شود. همچنین آن‌ها اعلام کرده‌اند که تحقیقاتشان ماشین‌ها را یک قدم  به توانایی یادگیری به صورت همزمان، جامع و مستقیم از انواع مختلف اطلاعات نزدیک‌تر می‌کند که البته، بستگی دارد این قدم‌ها چقدر کوچک باشند.

در حال حاضر همه این ها احتمالی است و احتمالا کاربردهای اولیه تحقیقاتی مانند این، خیلی محدودتر خواهد بود. به عنوان مثال، سال گذشته متا یک مدل هوش مصنوعی متا نشان داد که از شرح متنی، ویدئوهای کوتاه و مبهمی را تولید می کند. کارهایی مانند ImageBind نشان می دهد که نسخه های آینده سیستم چگونه می توانند جریان های دیگری از داده‌ها را نیز با خود ترکیب کند، به عنوان مثال، تولید صدایی که با ویدئو خروجی هماهنگ شود.

همچنین برای ناظران صنعت، این تحقیقات جالب است زیرا متا مدل پایه را به صورت منبع باز ارائه می کند. این روش که در جهان AI بطور فزاینده ای مورد بررسی قرار می گیرد.

افرادی که مخالف با منبع باز در این صنعت هستند، مانند OpenAI، می گویند که این روش برای کاربران آسیب زا است زیرا رقبا می توانند کارهای آن‌ها را کپی کنند و این به طور بالقوه خطرناک است، به افراد مخرب اجازه می دهد از مدل های پیشرفته هوش مصنوعی استفاده کنند.

حامیان این طرح پاسخ می دهند که بازسازی باعث می شود افراد واسطه قادر به بررسی سیستم ها برای یافتن نقاط ضعف و بهبود برخی از نواقص شوند. آنها خاطرنشان می کنند که حتی می تواند منجر به مزیت تجاری شود، زیرا در واقع به شرکت ها اجازه می دهد که توسعه دهندگان شخص ثالث را به عنوان کارگران بدون حقوق استخدام کرده و کار خود را بهبود بخشند.
تا کنون، متا به طور قطعانه طرفدار منبع باز بوده است، البته این موضع بدون مشکل نیست.برای مثال، آخرین مدل زبان LLaMA ، اوایل امسال به صورت آنلاین منتشر شد. از بسیاری جهات نیز، عدم موفقیت تجاری آن در هوش مصنوعی این رویکرد را به آن ها داده است چراکه این شرکت هیچ ربات چت برای رقیب Bing، Bard یا ChatGPT ندارد. با این حال، با راه‌اندازی  ImageBind، شرکت متا این رویکرد خود را ادامه می‌دهد.

دسته بندی شده در: