در حال حاضر Pixel 8 Pro مجهز به تراشه Tensor 3 تنها دستگاه سازگار با جمنا نانو است و انتظار می رود در آینده از ویژگی های هوش مصنوعی مانند خلاصه سازی خودکار در اپلیکیشن Recorder و Smart Function استفاده کند.در صفحه کلید Gboard پاسخ دهید. به روز رسانی. البته گوگل کار را پیچیده تر کرده و ادعا می کند که Jumnai Nano در دو مدل Nano-1 با 1.8 میلیارد تنظیمات و Nano-2 با 3.25 میلیارد تنظیمات بسته به ظرفیت رم گوشی در دسترس خواهد بود.
گوگل مدل هوش مصنوعی Jumnai را به شرح زیر توصیف می کند:
Jumnai به روشی کاملاً جدید با هدف چندوجهی، یعنی استدلال صاف، یکپارچه و جابجایی بین متن، تصویر، ویدئو، صدا و کد توسعه یافته است.
در تعریف Jumnai، گوگل اغلب به کلمه “چند وجهی” اشاره می کند، آن هم خیلی بومی. اما دقیقاً منظور ما از تعدد مدل هوش مصنوعی چیست؟
چندوجهی بودن جمنای به این معنی است که گوگل نه تنها از متن برای آموزش مدل استفاده میکند، بلکه آن را با مقادیر زیادی کد، فایلهای صوتی، تصاویر و ویدئوها نیز ارتقا میدهد. بنابراین، جمنای می تواند به همان راحتی که به درخواست های متنی پاسخ می دهد، به درخواست های صوتی و حتی تصویری پاسخ دهد.
قدرت استدلال چندوجهی و تکنیک “کاملا جدید” در توسعه Jumnai
الی کالینز الی کالینز، معاون تولید DeepMind، در توضیح مختصری درباره مدلهای چندوجهی، ادعا کرد که Jamna Ultra میتواند اطلاعات «بسیار دقیق» را در متن، تصاویر، صدا و کد درک کند و به سؤالات مرتبط با موضوعات پیچیده، بهویژه ریاضیات و ریاضیات پاسخ دهد. فیزیک. چالش ها و مسائل. دادن
روش استاندارد برای ایجاد مدلهای چند وجهی، آموزش تک تک اجزای مدل با چهرههای مختلف است. این مدلها در کارهای خاصی مانند توصیف تصاویر برتری دارند، اما در مواجهه با کارهایی که نیاز به استدلال مفهومی پیچیدهتری دارند، با مشکل مواجه میشوند. به همین دلیل ما جمنای را به عنوان یک بومی چند وجهی برای حل این مشکل طراحی کردیم.
با این توضیحات، نمی توان تفاوت جادویی بین Jumnai و مدل های رقیب را درک کرد، زیرا حتی این بحث در مورد “چند وجهی” و توانایی تجزیه و تحلیل ویدیو قبلاً در مدل GPT-4 با ویژن دیده شده است. البته بهبود قدرت استدلال مدل برای دستیابی به هوش مصنوعی فوق بشری بسیار مهم است و گوگل مدعی است که از روش کاملا جدیدی برای تقویت استدلال Jumnai استفاده کرده است. با این حال، او مایل به توضیح این روش نیست.
گوگل: Jumnai در نهایت منجر به تمایز محصولات گوگل از رقبای خود می شود
با این حال، دمیس حسابیس رهبر تیم توسعه جمنا، Demis Hassabis، که قبلا تیم توسعه ربات AlphaGo را رهبری می کرد، گفت که این مدل ویژگی های جدیدی را ارائه می دهد که در نهایت محصولات گوگل را از رقبای خود متمایز می کند. او همچنین گفت که برای اینکه سیستمهای هوش مصنوعی جهان را بهتر از چتباتهای امروزی درک کنند، مدلهای زبان بزرگ باید با سایر تکنیکهای هوش مصنوعی ترکیب شوند.
تاکنون، مدلهای زبان بزرگ، از جمله GPT-4، با مصرف حجم عظیمی از دادههای متنی آموزش دیدهاند و برخی از محققان هوش مصنوعی معتقدند که هرچه دادههای بیشتری اضافه شود، مدل قدرتمندتر میشود. تا جایی که می توانند از هوش انسان پیشی بگیرند.
اما درک واقعیت فیزیکی از طریق دریچه متون نوشته شده توسط انسان ها در نهایت به بن بست می رسد و ضعف های مدل های زبانی اصلی، از جمله توهمات، استدلال ضعیف و مسائل امنیتی عجیب، نشان می دهد که افزایش ساده حجم داده ها احتمالا هرگز کافی نخواهد بود. . دستیابی به “فروش مصنوعی” منجر نشود.
اگرچه گوگل خود را در رقابت مستقیم با OpenAI قرار داده است، اما به نظر می رسد هر دو رقیب به این نتیجه رسیده اند که برای بهبود وضعیت هوش مصنوعی، باید به روش های کاملاً جدید روی بیاوریم. در حال حاضر OpenAI در حال توسعه یک پروژه مخفی و مرموز به نام *Q است که از تکنیک های جدیدی استفاده می کند و ظاهراً قرار است این شرکت را به هوش مافوق بشری معروف به AGI نزدیک کند.
سام آلتمن، مدیرعامل OpenAI، چند ماه پیش گفت: «من معتقدم که ما به پایان دورانی رسیدهایم که مدلهای هوش مصنوعی فوقالعاده میتوانند پیشرو باشند. برای بهبود این مدل ها به سمت روش های دیگر حرکت خواهیم کرد. »
اما آیا همانطور که گوگل می گوید Jumnai آغاز عصر جدیدی از هوش مصنوعی است؟ در حال حاضر برای این نتیجه گیری خیلی زود است. به خصوص که عملکرد Jamna Pro در چت بات بارد هنوز نتوانسته پیشرفت چشمگیری را نسبت به GPT-4 نشان دهد و چند ماه تا انتشار Jamna Ultra و بازنگری در قابلیت های آن باقی مانده است.
ماجرای ویدیوی دستکاری شده جمنای چه بود؟
وقتی داشتم مقایسه ای بین BingChat، Bard و ChatGPT می نوشتم، به این نتیجه رسیدم که بزرگترین ضرر چت بات گوگل در مقایسه با BingChat و ChatGPT در زمان بازاریابی و انتشار است. یعنی اگر Bard بعد از هیپ ChatGPT و قبل از BingChat منتشر شده بود، ممکن بود به دلیل قابلیت اتصال به اینترنت و دسترسی به داده های به روز، نسبت به ChatGPT برتری داشته باشد. اما بارد در زمان انتشار بسیار محدودتر از بینگ چت بود و داستان اشتباهات علمی و سرقت ادبی در نهایت بسیار مخرب بود. در سایه این همه خطا و محدودیت، عجیب نبود که بارد به سرعت فراموش شد.
اما این بار گوگل با معرفی جمنای قصد جبران ضعف بازاریابی و زمان انتشار را داشت، از این رو ظاهرا این پروژه را خیلی زودتر از حد انتظار منتشر کرده و از ویدئویی برای تبلیغ قابلیت های شگفت انگیز آن استفاده کرده است، این موضوع در رسانه ها و شبکه های اجتماعی خبرساز شد. ; در چند دقیقه اول، دقیقاً همانطور که گوگل پیش بینی کرده بود، اما به زودی مشخص شد که این ویدیوی شگفت انگیز آنقدرها هم که فکر می کردیم جادویی نیست.
اغراق می کنم با دیدن این ویدیوی 6 دقیقه ای اجرای جمنا نفس شما را بند می آورد. در این دمو، گوگل به ما نشان میدهد که چگونه قویترین هوش مصنوعی خود توانایی آنالیز «ویدئو» را دارد و میتواند فوراً پیامهای صوتی و تصویری را تجزیه و تحلیل کند، استدلال کند و مناسبترین پاسخ را در کسری از ثانیه ارائه دهد.
ویدیوی باورنکردنی جمنا واقعی نیست!
به عنوان مثال، ما می بینیم که چگونه Jumnai می تواند خطوط ترسیم شده در هر مرحله از طراحی یک اردک را به درستی درک کند. یا حرکت دست روی کارت را به درستی دنبال کنید و پاسخ صحیح را تشخیص دهید. یا حتی شگفتانگیزتر؛ به درستی تشخیص دهید که کاغذ مچاله شده زیر کدام شیشه پنهان شده است یا متوجه ناپدید شدن جادوی سکه در دست شوید یا ویدیوی پخش شده از تلفن پیکسل را تجزیه و تحلیل کنید که خودش ویدیوی دیگری پخش می کند!
اما وقتی تماشای ویدیو را متوقف می کنیم و به جنبه کاربردی موضوع فکر می کنیم، سوالات زیادی به ذهنمان خطور می کند. چگونه یک مدل زبان بزرگ، به همان اندازه که قدرتمند است، میتواند با ویدیویی که در یک ویدیوی دیگر پخش میشود، ارتباط برقرار کند؟ چگونه ممکن است هوش مصنوعی به نقطهای رسیده باشد که بتواند سریع و آسان بین اعلانهای مختلف جابجا شود؟
دموی تبلیغاتی جمنا گمراه کننده بود
واقعیت این است که نسخه ی نمایشی تبلیغات گوگل ما را فریب داد. البته استفاده از کلمه “تقلب” ممکن است کاملاً صحیح نباشد، به خصوص اگر نظر خود را از گوگل بپرسید، زیرا احتمالاً خواهد گفت که هشدارهای لازم را هم در شروع نسخه نمایشی و هم در توضیحات داده است. بخش یوتیوب به عنوان مثال، گفته می شود که این مدل “یک سری تصاویر” نشان داده شده است تا بتوانیم نتیجه بگیریم که آنچه به صورت ویدیویی به ما نشان داده شده است واقعی نیست. در توضیحات یوتیوب آمده است که برای کوتاه کردن ویدیو، زمان پاسخگویی مدل کاهش یافته و پاسخ های جمنای کوتاه شده است.
اما علیرغم این توضیحات، که احتمالاً خود گوگل میدانست که پشت قابلیتهای «جادویی» جمنای گم میشوند، این واقعیت باقی میماند که آنچه در دموی مقدماتی این هوش مصنوعی دیدیم، آن چیزی نیست که به نظر میرسد.
در دمو جمنا، فردی را می بینیم که با این مدل صحبت می کند، مثلاً شخصیت تئودور در فیلمش با هوش مصنوعی سامانتا صحبت می کند. اما در واقع گفتگوی این فرد با جمنا کاملا متنی بوده است.
در دمو همچنین شاهد تعامل جمنای با ویدیوی متحرک در زمان واقعی هستیم، اما در واقعیت فقط در حال تجزیه و تحلیل تصاویر ساکن بود. همانطور که گوگل در مقاله ای در مورد نحوه ایجاد دمو از Jumnai اشاره کرده است.