اجرای مدل های بزرگ زبان هوش مصنوعی به زبان ساده

هنگامی که یک نورون با یک الگو مطابقت دارد، اطلاعاتی را به کلمه برداری اضافه می کند. اگرچه تفسیر این اطلاعات همیشه آسان نیست، اما در بسیاری از موارد می توانید آن را به عنوان پیش بینی اولیه کلمه بعدی در نظر بگیرید.

شبکه های پیشخور بر اساس بردارهای ریاضی هستند

تحقیقات اخیر از دانشگاه براون مثال جالبی از اینکه چگونه لایه‌های پیش‌خور می‌توانند به پیش‌بینی کلمات بعدی کمک کنند، ارائه می‌کند. در بخش‌های قبل، کلمه جستجوی Google را ذکر کردیم که از حساب برداری برای استنتاج قیاسی استفاده می‌کرد. مثلاً با محاسبه نسبت برلین به آلمان، نسبت پاریس به فرانسه. به نظر می رسد لایه های پیشخور دقیقاً از همان روش برای پیش بینی کلمه بعدی استفاده می کنند. محققان در مورد مدل 24 لایه GPT-2 سوالی پرسیدند و سپس عملکرد لایه ها را بررسی کردند.

سوال: پایتخت فرانسه کجاست؟ پاسخ: پاریس. سوال: پایتخت لهستان کجاست؟ پاسخ:؟

در 15 لایه اول، بهترین حدس مدل زبان یک کلمه تصادفی بود. بین لایه های 16 و 19، مدل پیش بینی کرد که کلمه بعدی لهستانی است. پاسخی که درست نبود، اما حداقل کمی با موضوع مرتبط بود. سپس در لایه بیستم بهترین حدس به «ورشو» تغییر کرد و در چهار لایه آخر بدون تغییر باقی ماند. در واقع، یک لایه برداری بیستم را اضافه کرده است که کشورها را به پایتخت های مربوطه آنها پیوند می دهد. در همین مدل، لایه‌های پیش‌خور از محاسبات برداری برای تبدیل کلمات کوچک به کلمات بزرگ و کلمات زمان حال به زمان گذشته استفاده کردند.

لایه های توجه و فید فوروارد وظایف مختلفی دارند

تا اینجا دو مثال واقعی از پیش‌بینی کلمه با GPT-2 را بررسی کرده‌ایم: تکمیل جمله که در آن جان به مریم نوشیدنی پیشنهاد می‌کند، با کمک سرهای توجه، و نقش لایه پیش‌خور در اینکه ورشو پایتخت لهستان است. .

در مثال اول، کلمه Mary از دستور prompt یا text ارائه شده توسط کاربر استخراج شد، اما در مثال دوم، کلمه Warsaw در دستور text یافت نشد. مدل زبانی باید این واقعیت را “به خاطر می آورد” که ورشو پایتخت لهستان است، یعنی از اطلاعاتی که از داده های آموزشی به دست می آورد.

هنگامی که محققان دانشگاه براون لایه قبلی را که ورشو را با لهستان پیوند می‌داد مختل کردند، مدل زبان دیگر ورشو را به عنوان کلمه بعدی پیش‌بینی نمی‌کرد. اما وقتی عبارت «ورشو پایتخت لهستان است» را به ابتدای ادعا اضافه کردند، مدل دوباره پیش‌بینی درستی کرد. شاید به این دلیل که مدل زبان توجه رونویسی “ورشو” را به خود جلب کرد.

بنابراین ما با یک «تقسیم کار» واضح روبرو هستیم: سرهای توجه اطلاعات را از کلمات قبلی دستور بازیابی می‌کنند، در حالی که لایه‌های پیش‌خور به مدل‌های زبان اجازه می‌دهند اطلاعاتی را که در دستور متنی وجود ندارد، «به خاطر بسپارند».

می‌توانیم لایه‌های پیش‌خور را به‌عنوان پایگاه‌داده‌ای در نظر بگیریم که در آن اطلاعات از داده‌های آموزشی قبلی برای مدل زبان جمع‌آوری می‌شود. احتمالاً، لایه‌های پیش‌خور اولیه، حقایق ساده مرتبط با کلمات خاص را رمزگذاری می‌کنند. مانند افزودن یک بردار برای تبدیل یک کشور به پایتخت آن.

نحوه آموزش مدل های زبانی

بسیاری از الگوریتم‌های یادگیری ماشین اولیه به نمونه‌های آموزشی با برچسب انسانی نیاز داشتند. به عنوان مثال، داده های آموزشی می تواند تصاویر سگ یا گربه با برچسب “سگ” و “گربه” برای هر تصویر باشد. یکی از دلایلی که ایجاد مجموعه داده های بزرگ برای آموزش الگوریتم های قدرتمند گران و دشوار است، نیاز به نیروی انسانی برای برچسب گذاری داده ها است.

یکی از نوآوری‌های LLM این است که به داده‌های دارای برچسب صریح نیاز ندارند. آنها با تلاش برای پیش بینی کلمه بعدی آموزش می بینند. تقریباً هر مطلب نوشتاری، از صفحات ویکی پدیا گرفته تا مقالات خبری و کدهای کامپیوتری، برای آموزش این مدل ها مناسب است.

به عنوان مثال، یک MBA ممکن است “قند” را به عنوان کلمه بعدی با توجه به ورودی “من قهوه ام را با خامه و -” پیش بینی کند. یک مدل زبان تازه اولیه در این زمینه واقعا ضعیف عمل می کند. زیرا هر یک از پارامترهای وزن آن تحت یک عدد کاملا تصادفی شروع به کار می کند. اما زمانی که همان مدل نمونه های بسیار بیشتری (صدها میلیارد کلمه) را شناسایی می کند، این وزن ها به تدریج تنظیم می شوند و پیش بینی های دقیق تر و بهتری به دست می آید.

جادوی LLM در آن نهفته است داده های تفکیک شده مورد نیاز نیست

برای درک بهتر این موضوع، تصور کنید که در حال گرفتن دوش ولرم هستید. تا به حال از این شیر آب استفاده نکرده اید و هیچ نشانه ای از آن نمی بینید. بنابراین دستگیره را به طور تصادفی به یک سمت می چرخانید و دما را احساس می کنید. اگر آب خیلی گرم بود آن را به یک طرف و اگر آب خیلی سرد بود آن را به طرف دیگر می چرخاندم. هر چه به دمای مناسب نزدیکتر شوید، تغییرات کوچکتر خواهد بود.

حال اجازه دهید تغییراتی در این مثال ایجاد کنیم. ابتدا تصور کنید که به جای یک شیر آب، 50257 شیر آب وجود دارد. هر شیر با کلمه متفاوتی مانند “خامه”، “قهوه” یا “شکر” مطابقت دارد و هدف شما این است که به طور متوالی آب را از شیرهای مرتبط با کلمات زیر رها کنید.

البته پشت شیرها شبکه ای سیم پیچ و مارپیچ از لوله های متصل قرار دارد و لوله ها نیز حاوی شیرهای زیادی هستند. به همین دلیل اگر آب از سر دوش اشتباه خارج شود، مشکل شما به سادگی با تنظیم دسته شیر حل نمی شود. آنها ارتشی از سنجاب های باهوش را می فرستند تا لوله ها را به عقب و جلو دنبال کنند و هر دریچه ای را که در مسیر می بینند تنظیم کنند. از آنجایی که یک لوله آب را به چندین حمام می رساند، کار کمی پیچیده تر می شود. باید خوب فکر کنیم تا بفهمیم کدام دریچه ها باید تا چه حد شل یا سفت شوند.

بخوانید  چندین بیوم منحصر به فرد در بازی Deliver Us Mars وجود دارد

ما نمی‌توانیم این مثال را در دنیای واقعی اعمال کنیم، زیرا ساخت شبکه‌ای از لوله‌های مارپیچی حاوی 175 میلیارد دریچه اصلا واقع‌بینانه یا حتی مفید نیست. اما به لطف کامپیوتر قانون مور آنها می توانند در این مقیاس عمل کنند.

تمام بخش‌های LLM که تاکنون در مورد آن بحث کرده‌ایم، یعنی نورون‌ها در لایه‌های پیش‌خور و هدهای توجه که اطلاعات متنی را بین کلمات منتقل می‌کنند، به‌عنوان زنجیره‌ای از توابع ریاضی ساده (در اصل ضرب‌های ماتریسی) عمل می‌کنند و رفتار آنها با قابلیت تنظیم تعیین می‌شود. پارامترهای وزن زمانی که سنجاب های داستان ما دریچه ها را برای کنترل جریان آب باز و بسته می کردند، الگوریتم یادگیری با افزایش یا کاهش پارامترهای وزن، جریان اطلاعات را در شبکه عصبی کنترل می کرد.

فرآیند آموزش مدل ها در دو مرحله انجام می شود: مرحله اول، مرحله انتشار به جلو، که در آن شیر آب باز می شود و بررسی می شود که آیا آب از شیر خارج می شود یا خیر. سپس آب قطع می‌شود و یک مرحله «انتشار برگشتی» رخ می‌دهد، مانند زمانی که سنجاب‌های باهوش لوله‌ها را بازرسی می‌کنند و دریچه‌ها را باز یا بسته می‌کنند. در شبکه های عصبی دیجیتال نقش سنجاب ها الگوریتمی است به نام انتشار به پشت محاسبات ریاضی را برای تخمین میزان تغییر برای هر پارامتر وزن انجام می دهد و در طول شبکه به عقب حرکت می کند.

تکمیل این فرآیند انتشار به جلو با استفاده از یک نمونه و سپس انتشار مجدد برای بهبود عملکرد شبکه از طریق نمونه فوق نیازمند صدها میلیارد محاسبه است. آموزش مدل های زبان بزرگ نیز مستلزم تکرار این فرآیند در چندین مثال است.

عملکرد باورنکردنی برای مدل های زبان بزرگ

ممکن است تعجب کنید که چگونه با وجود محاسبات بی‌شمار، روند آموزش مدل‌های هوش مصنوعی به خوبی پیش می‌رود. این روزها هوش مصنوعی مولد وظایف مختلفی مانند نوشتن مقاله، تولید تصاویر یا برنامه نویسی را برای ما انجام می دهد. چگونه این مکانیسم یادگیری می تواند چنین مدل های قدرتمندی ایجاد کند؟

یکی از مهم ترین دلایل این امر دامنه داده های آموزشی است. ما نمی توانیم تعداد نمونه ها یا نرخ داده هایی را که مدل های زبان بزرگ به عنوان ورودی آموزشی دریافت می کنند تصور کنیم. دو سال پیش، GPT-3 بر روی مجموعه ای از 500 میلیارد کلمه آموزش داده شد. به خاطر داشته باشید که کودکان تا سن 10 سالگی در معرض حدود 100 میلیون کلمه قرار می گیرند.

بخوانید  Diablo 4 Uber Uniques استفاده نشده خود را نفروشید، بلیزارد قول می دهد که به زودی مفید خواهند بود.

در طول شش سال گذشته، OpenAI، توسعه دهنده ChatGPT، به طور مداوم اندازه مدل های زبان خود را افزایش داده است. با افزایش اندازه مدل ها، طبیعتاً در وظایف مربوط به زبان بهتر عمل می کنند. این در صورتی به دست می آید که آنها میزان داده های آموزشی را با یک عامل مشابه افزایش دهند. برای آموزش مدل های زبان بزرگتر با استفاده از داده های بیشتر، بدیهی است که به قدرت پردازش و محاسبات بالاتری نیاز داریم.

اولین مدل زبان OpenAI در سال 2018 با نام GPT-1 منتشر شد که از بردارهای کلمه 768 بعدی استفاده می کرد و دارای 12 لایه برای مجموع 117 میلیون پارامتر بود. دو سال بعد، مدل GPT-3 با 12288 بردار کلمه بعدی در 96 لایه و 175 میلیارد پارامتر معرفی شد. سال 2023 سال انتشار GPT-4 بود که بسیار گسترده تر از نسخه قبلی خود بود. هر مدل نه تنها حقایق بیشتری را نسبت به پیشینیان کوچکتر خود یاد گرفت، بلکه در کارهایی که به نوعی تفکر انتزاعی نیاز داشت نیز بهتر عمل کرد.

داستان زیر را در نظر بگیرید:

یک کیسه پر از ذرت بو داده بدون هیچ شکلاتی داخلش هست. با این حال روی کیسه نوشته شده است “شکلات”. سارا این کیف را پیدا می کند. او هرگز این کیسه را ندیده بود و نمی توانست ببیند چه چیزی داخل آن است. پوستر خوانده می شود.

احتمالاً می توانید حدس بزنید که سارا فکر می کند در یک کیسه شکلات است و با دیدن پاپ کورن تعجب می کند. روانشناسان توانایی انسان برای استدلال در مورد حالات روانی دیگران را “نظریه ذهن” (ToM) می نامند. اکثر افراد از سنین دبستان این توانایی را دارند و طبق تحقیقات انجام شده این توانایی برای شناخت اجتماعی انسان مهم است.

آخرین نسخه GPT-3 به خوبی مشکلات 7 ساله “تئوری ذهن” را اجرا می کند

مایکل کوسینسکی یک روانشناس دانشگاه استنفورد سال گذشته مطالعه ای را منتشر کرد که توانایی مدل های مختلف زبانی را برای حل مسائل تئوری ذهن بررسی کرد. او متن هایی مانند داستان بالا به LLM ها داد و از آنها خواست جمله “او فکر می کند چمدان پر است از…” را کامل کنند. ما می دانیم که پاسخ صحیح شکلات است، اما مدل های زبانی ساده تر احتمالاً جمله را با کلمه “پاپ کورن” کامل می کنند.

مدل‌های زبان‌شناختی GPT-1 و GPT-2 در آزمون شکست خوردند، اما نسخه اول GPT-3 به چهل درصد سؤالات پاسخ صحیح داد. آخرین نسخه GPT-3 این میزان را به 90 درصد رساند که مانند یک کودک 7 ساله است. GPT-4 حدود 95 درصد از سؤالات تئوری ذهن را به درستی پاسخ داد.

تحریریه مجله بازی یک گیمر