ناتوانی مدل های زبان بزرگ در درک دقیق حروف و هجاها به حقیقت بزرگتری اشاره دارد که اغلب آن را فراموش می کنیم: این سیستم ها توانایی تفکر مانند انسان را ندارند. چون انسان نیستند.
ما اغلب فراموش می کنیم که مدل های بزرگ زبانی انسان نیستند
اکثر مدل های زبان بزرگ بر اساس معماری یادگیری عمیق به نام ترانسفورماتور ساخته شده اند. مدلهای ترانسفورماتور متن را به واحدهای کوچکی به نام «توکن» میشکنند. این نمادها بسته به شکل مورد استفاده می توانند مجموعه ای از کل کلمات، هجاها یا حتی حروف باشند.
متیو گزدیال متیو گوزیال، محقق هوش مصنوعی و استادیار دانشگاه آلبرتا، در مصاحبه با TechCrunch، عملکرد مدل های زبان بزرگ را به شرح زیر توضیح می دهد:
مدل های زبان بزرگی که بر اساس معماری ترانسفورماتور توسعه یافته اند، به ویژه قادر به تشخیص معنای دقیق کلمات یا نشانه های دریافتی نیستند. وقتی یک پرس و جو را وارد می کنید این است که متن به یک واحد رمزگذاری شده تبدیل می شود. به عنوان مثال، وقتی مدل کلمه “the” را می بیند، رمزگذاری معنای “the” را دارد، اما نمی داند که این کلمه از حروف “h”، “t” و “e” تشکیل شده است.
– متیو گوزیال، دانشگاه آلبرتا
چنین مشکلی دلیل این است که مدل های کامپایلر نمی توانند متن را مستقیماً به عنوان رشته ای از کاراکترها در نظر بگیرند. در عوض، آنها متن را به بردارهای دیجیتالی تبدیل می کنند که به مدل کمک می کند تا یک پاسخ منطقی ارائه دهد. به عنوان مثال، کلمه “توت فرنگی” ممکن است به دو نشانه تقسیم شود که نشان دهنده بخش هایی از کلمه است که مدل از طریق آموزش یاد گرفته است: “توت” و “توت”.
در واقع این توکن ها به صورت رشته ای از اعداد رمزگذاری می شوند که معمولاً رابطه یک به یک ندارند و با حروف کلمه کلیدی قابل برگشت هستند. در مثالهایی مانند «توت فرنگی»، هوش مصنوعی ممکن است این کلمه را بهعنوان دو نماد برداری مانند 496 و 675 ببیند تا حروف جداگانه.
مدل های زبان بزرگ برای کارهایی که نیاز به شمارش دقیق یا تجزیه و تحلیل حروف جداگانه دارند، مناسب نیستند
به عبارت سادهتر، مدل ممکن است بداند که نمادهای «نی» و «تمشک» با هم کلمه «توت فرنگی» را تشکیل میدهند، اما دقیقاً نمیداند که کلمه «توت فرنگی» از چه حروفی تشکیل شده است. بنابراین حتی نمی تواند به شما بگوید که یک کلمه چند حرف دارد. چه می شد اگر می دانست چند حرف «ر» در آن وجود دارد!
متأسفانه راه حل آسانی برای این مشکل وجود ندارد، زیرا این محدودیت در معماری اولیه مدل ها وجود دارد. شریدان فوختیک دانشجوی دکترا در دانشگاه نورث ایسترن که در مورد تفسیرپذیری مدل های زبان بزرگ تحقیق می کند، می گوید:
معنای دقیق کلمه در رابطه با مدل زبان کمی پیچیده است. حتی اگر متخصصان انسانی بتوانند در مورد یک تقسیمبندی به اندازه کلمه به توافق برسند، مدلها احتمالاً به تقسیمبندی کلمات بیشتری ادامه خواهند داد. من فکر می کنم به دلیل این نوع ابهام هیچ کدنویسی کاملی وجود ندارد.
این مشکل زمانی که مدل زبان بزرگ زبان های بیشتری را یاد می گیرد، پیچیده تر می شود. به عنوان مثال، برخی از روشهای نمادگذاری ممکن است فرض کنند که یک فاصله در یک جمله همیشه شروع یک کلمه جدید را نشان میدهد، اما بسیاری از زبانها مانند چینی، ژاپنی و تایلندی از فاصله برای جدا کردن کلمات استفاده نمیکنند.
Faucht افزود: احتمالاً بهتر است مدلها به جای استفاده از نشانه، مستقیماً به حروف نگاه کنند، اما این کار در حال حاضر برای ترانسفورماتورها از نظر محاسباتی امکانپذیر نیست. در مطالعه 2023، ژوئن ژوئن ینی جون، محقق هوش مصنوعی در DeepMind، نشان داد که برخی از زبانها به 10 برابر بیشتر از زبان انگلیسی برای بیان معنای مشابه نیاز دارند.
پردازش توکن های اندازه کاراکتر فراتر از توانایی مبدل های امروزی است
مولدهای تصویر مانند Midjourney و DALL-E از ساختار ترانسفورماتور مورد استفاده در تولیدکنندگان متن مانند ChatGPT استفاده نمی کنند. در عوض، مولدهای تصویر معمولاً از مدلهای انتشار استفاده میکنند که نویز را به یک تصویر معنادار تبدیل میکند.
مدلهای انتشار بر روی پایگاه دادههای بزرگ تصاویر آموزش داده میشوند و هدف آن بازسازی تصاویر مشابه آنچه در دادههای آموزشی دیدهاند، هستند. الگوهای انتشار به تدریج و طی یک فرآیند چند مرحله ای نویز را در تصویر اصلی کاهش می دهند و جزئیات را تکمیل می کنند تا در نهایت تصویری واضح و کامل به دست آید.
مولدهای تصویر در هنگام تولید اشیاء بزرگتر مانند اتومبیل و صورت انسان بهترین عملکرد را دارند و برعکس هنگام تولید جزئیات کوچکتر مانند انگشتان دست و دست خط ضعیف عمل می کنند. این ممکن است به این دلیل باشد که جزئیات کوچکتر معمولاً به اندازه مفاهیم کلی در بلوک های یادگیری برجسته نیستند. به عنوان مثال، چگونه برگ های سبز از شاخه های درخت آویزان می شوند یا چگونه انگشتان به دست ها متصل می شوند. با این حال، مشکلات مرتبط با مدلهای مولد ممکن است آسانتر از مشکلات مرتبط با مدلهای تبدیلی حل شوند.
به عنوان مثال، با تمرکز بیشتر بر روی تصاویر واقعی دست انسان، برخی از مولدهای تصویر، نمایش دست و انگشتان را بهبود بخشیده اند. گزدیال در این زمینه موارد زیر را توضیح می دهد:
تا سال گذشته، همه این مدل ها در تولید تصاویر انگشت بسیار بد بودند و این همان مشکلی است که در تولید متن وجود دارد. این مدل ها در جزئیات محلی بسیار خوب کار می کنند. بنابراین، اگر به دستی با شش یا هفت انگشت نگاه کنید، ممکن است بگویید: “اوه، این یک انگشت به نظر می رسد.” به همین ترتیب، در متون تولید شده، ممکن است بگویید، “این شبیه حرف H و این شبیه حرف P” است، اما آنها هنوز در ساختاربندی این اجزا با هم بسیار بد هستند.
اگر از یک تولید کننده تصویر مبتنی بر هوش مصنوعی بخواهید منوی یک رستوران ایرانی ایجاد کند، احتمالاً آیتم های رایجی مانند «قورمه» را خواهید دید، اما ممکن است گزینه هایی مانند «کبات»، «فبانجان» و «فسبار» را نیز پیدا کنید. در این حالت، هوش مصنوعی شروع به ایجاد کلماتی می کند که هیچ وجود خارجی ندارند، با گروه بندی نشانه هایی که در خود معنی دارند. یعنی دو نماد متمایز را به مخلوطی بی معنا تبدیل می کند.
به عبارت ساده تر، زبان مودال حجیم غذاهای تخیلی با نام های تحریف شده ایجاد می کند.
راه حلی که مورد مدل های زبانی بزرگ را در برابر توهم مصنوعی ایمن می کند، استفاده از منطق هنگام پیش بینی و تولید نشانه ها است.
در این زمینه، Google DeepMind اخیراً از سیستم های استنتاج هوش مصنوعی جدید، AlphaProof و AlphaGeometry 2 رونمایی کرده است که به طور خاص برای استنتاج هندسی طراحی شده اند.
گوگل اعلام کرد که این دو سیستم توانستند چهار مسئله از شش مسئله المپیاد بین المللی ریاضی را با موفقیت حل کنند. این عملکرد به قدری چشمگیر است که این سیستم ها اگر وارد مسابقات می شدند، مدال نقره را کسب می کردند.
گوگل تنها شرکتی نیست که هوش مصنوعی را با توانایی تفکر در نظر گرفته است. در حالی که میم های نحوه نوشتن “توت فرنگی” به صورت آنلاین پخش می شوند، OpenAI در حال کار بر روی پروژه جدیدی با نام رمز “توت فرنگی” است. هدف این پروژه جدید دستیابی به عملکرد بهتر نسبت به قبل در زمینه استنتاج است.
Strawberry نام رمز پروژه OpenAI جدید است که می خواهد دقت ChatGPT را بهبود بخشد.
با کمبود داده های آموزشی آنلاین، رشد مدل های زبان بزرگ محدود است. اما به نظر می رسد که پروژه توت فرنگی قادر به تولید داده های مصنوعی دقیق برای کمک به بهبود مدل های زبان OpenAI باشد.
در قلب قابلیت های Project Strawberry، فناوری به نام «ذهن خودآموز» قرار دارد. این تکنیک مانند دادن آینه ای به هوش مصنوعی است تا تمرینات ذهنی خود را با آن انجام دهد. این رویکرد هوش مصنوعی را فراتر از تشخیص الگوی ساده و وارد دنیای واقعی درک حروف و حل مسائل پیچیده تر می کند.
اما چگونه می توان یک مدل هوش مصنوعی را از ChatGPT-4 به چیزی بسیار پیشرفته ارتقا داد؟ پاسخ این سوال را می توان در پدیده ای به نام گروکینگ یافت آلن اسمیتسون از دانشگاه دوبلین، ایرلند، به شرح زیر توضیح داد:
اگر یک مدل را با مجموعه ای از داده ها آموزش دهید تا زمانی که به سطح خاصی از عملکرد برسد و سپس به آموزش آن ادامه دهید، در نهایت توانایی مدل برای استنتاج ممکن است ناگهان بهبود یابد.
او این لحظه را با “پیدا کردن راه خود” مقایسه می کند. لحظه ای که یک مدل هوش مصنوعی به طور ناگهانی “می فهمد”، درست مانند فردی که ریاضیات را یاد می گیرد و پس از یک دوره مطالعه، ناگهان همه چیز برای او روشن می شود.
اسمیتسون میگوید: «ناگهان توانایی مدلها برای استدلال و استدلال به طرز چشمگیری افزایش مییابد، گویی یک جهش عظیم اتفاق افتاده است. اما نمی دانیم چرا. جالب اینجاست که این بهبود را می توان با صرف زمان بیشتر در حین آموزش مدل به دست آورد. این پدیده ربطی به تنظیمات دقیق مدل یا هندسه درخواست ها ندارد، بلکه ربطی به ساختار مدل و تعداد جلسات آموزشی دارد.
نیاز به داده های آموزشی فراوان برای افزایش دقت مدل های زبان بزرگ به زودی از بین خواهد رفت
یکی از پیامدهای جالب پدیده سنگ زنی این است که دیگر نیازی به حجم زیادی از داده های آموزشی نیست. در حالی که قبلا رقابت برای استفاده از داده های آموزشی بیشتر و توسعه مدل های بزرگتر بود که پردازش آنها به انرژی و هزینه زیادی نیاز داشت، اکنون به نظر می رسد که مدل های کوچکتر (مانند مدل های توسعه یافته توسط شرکت فرانسوی Mistral) می توانند با صرف زمان بیشتر به عملکرد بهتری دست یابند. . در مورد آموزش، بهبود.
طبق گزارش The Information، مدل پروژه توت فرنگی OpenAI نه تنها می تواند معماهای کلمه ای را حل کند که نیاز به تفکر خلاق و تشخیص الگو دارند. حتی می تواند بر چالش هایی مانند حل معادلات ریاضی (که تا به حال با آن ها روبرو نشده اید) غلبه کند.