هوش مصنوعی جمنای; گوگل بالاخره ChatGPT را به زانو درآورد؟


در حال حاضر Pixel 8 Pro مجهز به تراشه Tensor 3 تنها دستگاه سازگار با جمنا نانو است و انتظار می رود در آینده از ویژگی های هوش مصنوعی مانند خلاصه سازی خودکار در اپلیکیشن Recorder و Smart Function استفاده کند.در صفحه کلید Gboard پاسخ دهید. به روز رسانی. البته گوگل کار را پیچیده تر کرده و ادعا می کند که Jumnai Nano در دو مدل Nano-1 با 1.8 میلیارد تنظیمات و Nano-2 با 3.25 میلیارد تنظیمات بسته به ظرفیت رم گوشی در دسترس خواهد بود.

گوگل مدل هوش مصنوعی Jumnai را به شرح زیر توصیف می کند:

Jumnai به روشی کاملاً جدید با هدف چندوجهی، یعنی استدلال صاف، یکپارچه و جابجایی بین متن، تصویر، ویدئو، صدا و کد توسعه یافته است.

در تعریف Jumnai، گوگل اغلب به کلمه “چند وجهی” اشاره می کند، آن هم خیلی بومی. اما دقیقاً منظور ما از تعدد مدل هوش مصنوعی چیست؟

چندوجهی بودن جمنای به این معنی است که گوگل نه تنها از متن برای آموزش مدل استفاده می‌کند، بلکه آن را با مقادیر زیادی کد، فایل‌های صوتی، تصاویر و ویدئوها نیز ارتقا می‌دهد. بنابراین، جمنای می تواند به همان راحتی که به درخواست های متنی پاسخ می دهد، به درخواست های صوتی و حتی تصویری پاسخ دهد.

قدرت استدلال چندوجهی و تکنیک “کاملا جدید” در توسعه Jumnai

الی کالینز الی کالینز، معاون تولید DeepMind، در توضیح مختصری درباره مدل‌های چندوجهی، ادعا کرد که Jamna Ultra می‌تواند اطلاعات «بسیار دقیق» را در متن، تصاویر، صدا و کد درک کند و به سؤالات مرتبط با موضوعات پیچیده، به‌ویژه ریاضیات و ریاضیات پاسخ دهد. فیزیک. چالش ها و مسائل. دادن

روش استاندارد برای ایجاد مدل‌های چند وجهی، آموزش تک تک اجزای مدل با چهره‌های مختلف است. این مدل‌ها در کارهای خاصی مانند توصیف تصاویر برتری دارند، اما در مواجهه با کارهایی که نیاز به استدلال مفهومی پیچیده‌تری دارند، با مشکل مواجه می‌شوند. به همین دلیل ما جمنای را به عنوان یک بومی چند وجهی برای حل این مشکل طراحی کردیم.

با این توضیحات، نمی توان تفاوت جادویی بین Jumnai و مدل های رقیب را درک کرد، زیرا حتی این بحث در مورد “چند وجهی” و توانایی تجزیه و تحلیل ویدیو قبلاً در مدل GPT-4 با ویژن دیده شده است. البته بهبود قدرت استدلال مدل برای دستیابی به هوش مصنوعی فوق بشری بسیار مهم است و گوگل مدعی است که از روش کاملا جدیدی برای تقویت استدلال Jumnai استفاده کرده است. با این حال، او مایل به توضیح این روش نیست.

با این حال، دمیس حسابیس رهبر تیم توسعه جمنا، Demis Hassabis، که قبلا تیم توسعه ربات AlphaGo را رهبری می کرد، گفت که این مدل ویژگی های جدیدی را ارائه می دهد که در نهایت محصولات گوگل را از رقبای خود متمایز می کند. او همچنین گفت که برای اینکه سیستم‌های هوش مصنوعی جهان را بهتر از چت‌بات‌های امروزی درک کنند، مدل‌های زبان بزرگ باید با سایر تکنیک‌های هوش مصنوعی ترکیب شوند.

تاکنون، مدل‌های زبان بزرگ، از جمله GPT-4، با مصرف حجم عظیمی از داده‌های متنی آموزش دیده‌اند و برخی از محققان هوش مصنوعی معتقدند که هرچه داده‌های بیشتری اضافه شود، مدل قدرتمندتر می‌شود. تا جایی که می توانند از هوش انسان پیشی بگیرند.

اما درک واقعیت فیزیکی از طریق دریچه متون نوشته شده توسط انسان ها در نهایت به بن بست می رسد و ضعف های مدل های زبانی اصلی، از جمله توهمات، استدلال ضعیف و مسائل امنیتی عجیب، نشان می دهد که افزایش ساده حجم داده ها احتمالا هرگز کافی نخواهد بود. . دستیابی به “فروش مصنوعی” منجر نشود.

اگرچه گوگل خود را در رقابت مستقیم با OpenAI قرار داده است، اما به نظر می رسد هر دو رقیب به این نتیجه رسیده اند که برای بهبود وضعیت هوش مصنوعی، باید به روش های کاملاً جدید روی بیاوریم. در حال حاضر OpenAI در حال توسعه یک پروژه مخفی و مرموز به نام *Q است که از تکنیک های جدیدی استفاده می کند و ظاهراً قرار است این شرکت را به هوش مافوق بشری معروف به AGI نزدیک کند.

سام آلتمن، مدیرعامل OpenAI، چند ماه پیش گفت: «من معتقدم که ما به پایان دورانی رسیده‌ایم که مدل‌های هوش مصنوعی فوق‌العاده می‌توانند پیشرو باشند. برای بهبود این مدل ها به سمت روش های دیگر حرکت خواهیم کرد. »

اما آیا همانطور که گوگل می گوید Jumnai آغاز عصر جدیدی از هوش مصنوعی است؟ در حال حاضر برای این نتیجه گیری خیلی زود است. به خصوص که عملکرد Jamna Pro در چت بات بارد هنوز نتوانسته پیشرفت چشمگیری را نسبت به GPT-4 نشان دهد و چند ماه تا انتشار Jamna Ultra و بازنگری در قابلیت های آن باقی مانده است.

وقتی داشتم مقایسه ای بین BingChat، Bard و ChatGPT می نوشتم، به این نتیجه رسیدم که بزرگترین ضرر چت بات گوگل در مقایسه با BingChat و ChatGPT در زمان بازاریابی و انتشار است. یعنی اگر Bard بعد از هیپ ChatGPT و قبل از BingChat منتشر شده بود، ممکن بود به دلیل قابلیت اتصال به اینترنت و دسترسی به داده های به روز، نسبت به ChatGPT برتری داشته باشد. اما بارد در زمان انتشار بسیار محدودتر از بینگ چت بود و داستان اشتباهات علمی و سرقت ادبی در نهایت بسیار مخرب بود. در سایه این همه خطا و محدودیت، عجیب نبود که بارد به سرعت فراموش شد.

اما این بار گوگل با معرفی جمنای قصد جبران ضعف بازاریابی و زمان انتشار را داشت، از این رو ظاهرا این پروژه را خیلی زودتر از حد انتظار منتشر کرده و از ویدئویی برای تبلیغ قابلیت های شگفت انگیز آن استفاده کرده است، این موضوع در رسانه ها و شبکه های اجتماعی خبرساز شد. ; در چند دقیقه اول، دقیقاً همانطور که گوگل پیش بینی کرده بود، اما به زودی مشخص شد که این ویدیوی شگفت انگیز آنقدرها هم که فکر می کردیم جادویی نیست.

اغراق می کنم با دیدن این ویدیوی 6 دقیقه ای اجرای جمنا نفس شما را بند می آورد. در این دمو، گوگل به ما نشان می‌دهد که چگونه قوی‌ترین هوش مصنوعی خود توانایی آنالیز «ویدئو» را دارد و می‌تواند فوراً پیام‌های صوتی و تصویری را تجزیه و تحلیل کند، استدلال کند و مناسب‌ترین پاسخ را در کسری از ثانیه ارائه دهد.

ویدیوی باورنکردنی جمنا واقعی نیست!

به عنوان مثال، ما می بینیم که چگونه Jumnai می تواند خطوط ترسیم شده در هر مرحله از طراحی یک اردک را به درستی درک کند. یا حرکت دست روی کارت را به درستی دنبال کنید و پاسخ صحیح را تشخیص دهید. یا حتی شگفت‌انگیزتر؛ به درستی تشخیص دهید که کاغذ مچاله شده زیر کدام شیشه پنهان شده است یا متوجه ناپدید شدن جادوی سکه در دست شوید یا ویدیوی پخش شده از تلفن پیکسل را تجزیه و تحلیل کنید که خودش ویدیوی دیگری پخش می کند!

بخوانید  حقایق جالب فیلم Moneyball | یکی از داستان‌های مهم تاریخ بیسبال

اما وقتی تماشای ویدیو را متوقف می کنیم و به جنبه کاربردی موضوع فکر می کنیم، سوالات زیادی به ذهنمان خطور می کند. چگونه یک مدل زبان بزرگ، به همان اندازه که قدرتمند است، می‌تواند با ویدیویی که در یک ویدیوی دیگر پخش می‌شود، ارتباط برقرار کند؟ چگونه ممکن است هوش مصنوعی به نقطه‌ای رسیده باشد که بتواند سریع و آسان بین اعلان‌های مختلف جابجا شود؟

دموی تبلیغاتی جمنا گمراه کننده بود

واقعیت این است که نسخه ی نمایشی تبلیغات گوگل ما را فریب داد. البته استفاده از کلمه “تقلب” ممکن است کاملاً صحیح نباشد، به خصوص اگر نظر خود را از گوگل بپرسید، زیرا احتمالاً خواهد گفت که هشدارهای لازم را هم در شروع نسخه نمایشی و هم در توضیحات داده است. بخش یوتیوب به عنوان مثال، گفته می شود که این مدل “یک سری تصاویر” نشان داده شده است تا بتوانیم نتیجه بگیریم که آنچه به صورت ویدیویی به ما نشان داده شده است واقعی نیست. در توضیحات یوتیوب آمده است که برای کوتاه کردن ویدیو، زمان پاسخگویی مدل کاهش یافته و پاسخ های جمنای کوتاه شده است.

اما علی‌رغم این توضیحات، که احتمالاً خود گوگل می‌دانست که پشت قابلیت‌های «جادویی» جمنای گم می‌شوند، این واقعیت باقی می‌ماند که آنچه در دموی مقدماتی این هوش مصنوعی دیدیم، آن چیزی نیست که به نظر می‌رسد.

در دمو جمنا، فردی را می بینیم که با این مدل صحبت می کند، مثلاً شخصیت تئودور در فیلمش با هوش مصنوعی سامانتا صحبت می کند. اما در واقع گفتگوی این فرد با جمنا کاملا متنی بوده است.

در دمو همچنین شاهد تعامل جمنای با ویدیوی متحرک در زمان واقعی هستیم، اما در واقعیت فقط در حال تجزیه و تحلیل تصاویر ساکن بود. همانطور که گوگل در مقاله ای در مورد نحوه ایجاد دمو از Jumnai اشاره کرده است.

تحریریه مجله بازی یک گیمر