کتاب Build a Large Language Model (from Scratch) (ساخت یک مدل زبان بزرگ (از ابتدا)) نویسنده پرفروش سباستین راشکا گام به گام شما را در ایجاد LLM راهنمایی می‌کند. هر مرحله با متن، نمودارها و مثال‌های واضح توضیح داده شده است. شما از طراحی اولیه و ایجاد، به پیش‌آموزش در یک مجموعه عمومی و به تنظیم دقیق برای کارهای خاص خواهید رفت.

در ادامه مقدمه‌ای از کتاب Build a Large Language Model (from Scratch) را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Build a Large Language Model (from Scratch):

من همیشه شیفته مدل‌های زبانی بوده‌ام. بیش از یک دهه پیش، سفر من به دنیای هوش مصنوعی با یک کلاس طبقه‌بندی الگوی آماری آغاز شد که منجر به اولین پروژه مستقل من شد: توسعه یک مدل و یک برنامه وب برای تشخیص روحیه یک آهنگ بر اساس متن آن.

با پیشرفت سریع تا سال 2022، با انتشار ChatGPT، مدل‌های بزرگ زبان (LLM) دنیا را طوفان گرفته‌اند و نحوه کار بسیاری از ما را متحول کرده‌اند. این مدل‌ها بسیار متنوع هستند و در کارهایی مانند بررسی دستور زبان، نوشتن ایمیل، خلاصه‌سازی اسناد طولانی و موارد دیگر کمک می‌کنند. این به دلیل توانایی آن‌ها در تجزیه و تولید متن شبیه انسان است که در زمینه‌های مختلف، از خدمات مشتری گرفته تا ایجاد محتوا و حتی در حوزه‌های فنی‌تر مانند کدنویسی و تحلیل داده‌ها، مهم است.

همانطور که از نام آنها پیداست، یکی از ویژگی‌های بارز LLMها این است که آنها “بزرگ” هستند – بسیار بزرگ – شامل میلیون‌ها تا میلیاردها پارامتر. (برای مقایسه، با استفاده از روش‌های سنتی‌تر یادگیری ماشین یا آماری، مجموعه داده گل Iris را می‌توان با دقت بیش از 90% با استفاده از یک مدل کوچک با تنها دو پارامتر طبقه‌بندی کرد.) با این حال، علی‌رغم اندازه بزرگ LLMها در مقایسه با روش‌های سنتی‌تر، LLMها نیازی نیست که یک جعبه سیاه باشند.

در این کتاب، یاد خواهید گرفت که چگونه یک LLM را قدم به قدم بسازید. در پایان، درک جامعی از نحوه عملکرد یک LLM، مانند آنهایی که در ChatGPT استفاده می‌شوند، در سطح بنیادی خواهید داشت. من معتقدم که توسعه اعتماد به نفس با هر قسمت از مفاهیم بنیادی و کد زیربنایی برای موفقیت بسیار مهم است. این نه تنها به رفع اشکال و بهبود عملکرد کمک می‌کند، بلکه امکان آزمایش ایده‌های جدید را نیز فراهم می‌کند.

چند سال پیش، زمانی که شروع به کار با LLMها کردم، مجبور بودم یاد بگیرم که چگونه آنها را به روش سختی پیاده‌سازی کنم، با جستجو در بسیاری از مقالات تحقیقاتی و مخازن کد ناکامل برای توسعه درک کلی. با کتاب Build a Large Language Model (from Scratch)، امیدوارم با توسعه و به اشتراک گذاری یک آموزش گام به گام پیاده‌سازی که تمام اجزای اصلی و مراحل توسعه یک LLM را تشریح می‌کند، LLMها را قابل دسترسی‌تر کنم.

من به شدت معتقدم که بهترین راه برای درک LLMها، کدنویسی یک مورد از ابتدا است – و خواهید دید که این می‌تواند سرگرم‌کننده نیز باشد!

از خواندن و کدنویسی خوشحال باشید!

درباره کتاب Build a Large Language Model (from Scratch)

کتاب “ساخت یک مدل بزرگ زبان (از ابتدا)” برای کمک به شما در درک و ایجاد مدل‌های بزرگ زبان (LLM) مانند GPT خود از ابتدا نوشته شده است. این کتاب با تمرکز بر اصول کار با داده‌های متنی و کدگذاری مکانیزم‌های توجه شروع می‌شود و سپس شما را در پیاده‌سازی یک مدل کامل GPT از ابتدا راهنمایی می‌کند. کتاب Build a Large Language Model (from Scratch) سپس مکانیزم پیش‌آموزش و همچنین تنظیم دقیق برای وظایف خاص مانند طبقه‌بندی متن و پیروی از دستورالعمل‌ها را پوشش می‌دهد.

در پایان کتاب Build a Large Language Model (from Scratch)، درک عمیقی از نحوه عملکرد LLMها و مهارت‌های ساخت مدل‌های خود خواهید داشت. در حالی که مدل‌هایی که شما ایجاد خواهید کرد در مقیاس کوچکتر نسبت به مدل‌های بزرگ بنیادی هستند، از همان مفاهیم استفاده می‌کنند و به عنوان ابزارهای آموزشی قدرتمندی برای درک مکانیزم‌های اصلی و تکنیک‌های استفاده شده در ساخت LLMهای پیشرفته عمل می‌کنند.

چه کسانی باید کتاب Build a Large Language Model (from Scratch) را بخوانند

“ساخت یک مدل بزرگ زبان (از ابتدا)” برای علاقه‌مندان به یادگیری ماشین، مهندسان، محققان، دانشجویان و متخصصانی که می‌خواهند درک عمیقی از نحوه عملکرد LLMها به دست آورند و یاد بگیرند که چگونه مدل‌های خود را از ابتدا بسازند، مناسب است. هم مبتدیان و هم توسعه‌دهندگان باتجربه می‌توانند از مهارت‌ها و دانش موجود خود برای درک مفاهیم و تکنیک‌های استفاده شده در ایجاد LLMها استفاده کنند.

آنچه این کتاب را متمایز می‌کند، پوشش جامع کل فرآیند ساخت LLMها، از کار با مجموعه داده‌ها تا پیاده‌سازی معماری مدل، پیش‌آماده‌سازی روی داده‌های برچسب‌گذاری نشده و تنظیم دقیق برای وظایف خاص است. تا زمان نگارش کتاب Build a Large Language Model (from Scratch)، هیچ منبع دیگری چنین رویکرد کامل و عملی برای ساخت LLMها از ابتدا ارائه نمی‌دهد.

برای درک مثال‌های کد در کتاب Build a Large Language Model (from Scratch)، باید درک جامعی از برنامه‌نویسی پایتون داشته باشید. در حالی که مقداری آشنایی با یادگیری ماشین، یادگیری عمیق و هوش مصنوعی می‌تواند مفید باشد، یک پس‌زمینه گسترده در این زمینه‌ها ضروری نیست. LLMها یک زیرمجموعه منحصر به فرد از هوش مصنوعی هستند، بنابراین حتی اگر نسبتاً تازه وارد این زمینه هستید، می‌توانید دنبال کنید.

اگر تجربه‌هایی با شبکه‌های عصبی عمیق دارید، ممکن است برخی از مفاهیم برای شما آشنا‌تر باشند، زیرا LLMها بر روی این معماری‌ها ساخته شده‌اند. با این حال، تسلط بر PyTorch یک پیش‌نیاز نیست. ضمیمه A مقدمه‌ای مختصر بر PyTorch ارائه می‌دهد و شما را با مهارت‌های لازم برای درک مثال‌های کد در سراسر کتاب مجهز می‌کند.

درک سطح دبیرستانی از ریاضیات، به ویژه کار با بردارها و ماتریس‌ها، می‌تواند مفید باشد زیرا ما به بررسی کار داخلی LLMها می‌پردازیم. با این حال، دانش ریاضی پیشرفته برای درک مفاهیم و ایده‌های کلیدی ارائه شده در کتاب Build a Large Language Model (from Scratch) ضروری نیست.

مهم‌ترین پیش‌نیاز، یک پایه قوی در برنامه‌نویسی پایتون است. با این دانش، شما برای کاوش در دنیای جذاب LLMها و درک مفاهیم و مثال‌های کد ارائه شده در این کتاب آماده خواهید بود.

نحوه سازماندهی کتاب Build a Large Language Model (from Scratch): یک نقشه راه

این کتاب برای خواندن متوالی طراحی شده است، زیرا هر فصل بر مفاهیم و تکنیک‌های معرفی شده در فصل‌های قبلی بنا می‌شود. کتاب Build a Large Language Model (from Scratch) به هفت فصل تقسیم شده است که جنبه‌های ضروری LLMها و پیاده‌سازی آن‌ها را پوشش می‌دهد.

فصل 1 مقدمه‌ای سطح بالا در مورد مفاهیم بنیادی پشت LLMها ارائه می‌دهد. این معماری ترانسفورمر را بررسی می‌کند که اساس LLMهایی مانند آنهایی که در پلتفرم ChatGPT استفاده می‌شوند، تشکیل می‌دهد.

فصل 2 طرحی را برای ساخت یک LLM از ابتدا ترسیم می‌کند. این فرآیند آماده‌سازی متن برای آموزش LLM، از جمله تقسیم متن به توکن‌های کلمه و زیرکلمه، استفاده از رمزگذاری جفت بایت برای توکنیزه کردن پیشرفته، نمونه‌برداری از مثال‌های آموزشی با رویکرد پنجره لغزنده و تبدیل توکن‌ها به بردارهایی که به LLM تغذیه می‌شوند، را پوشش می‌دهد.

فصل 3 بر مکانیزم‌های توجه استفاده شده در LLMها تمرکز دارد. این یک چارچوب توجه خودی پایه و پیشرفت به یک مکانیزم توجه خودی بهبود یافته را معرفی می‌کند. این فصل از کتاب Build a Large Language Model (from Scratch)، همچنین پیاده‌سازی یک ماژول توجه علی را پوشش می‌دهد که به LLMها امکان می‌دهد یک توکن را در یک زمان تولید کنند، وزن‌های توجه انتخاب شده به صورت تصادفی را با حذف برای کاهش بیش برازش ماسک کنند و چندین ماژول توجه علی را در یک ماژول توجه چند سر استک کنند.

فصل 4 بر کدنویسی یک LLM مانند GPT که می‌تواند برای تولید متن شبیه انسان آموزش داده شود، تمرکز دارد. این تکنیک‌هایی مانند نرمال‌سازی فعال‌سازی لایه برای تثبیت آموزش شبکه عصبی، اضافه کردن اتصالات میانبر در شبکه‌های عصبی عمیق برای آموزش موثرتر مدل‌ها، پیاده‌سازی بلوک‌های ترانسفورمر برای ایجاد مدل‌های GPT با اندازه‌های مختلف و محاسبه تعداد پارامترها و الزامات ذخیره‌سازی مدل‌های GPT را پوشش می‌دهد.

فصل 5 فرآیند پیش‌آماده‌سازی LLMها را پیاده‌سازی می‌کند. این محاسبه تلفات مجموعه آموزش و اعتبارسنجی برای ارزیابی کیفیت متن تولید شده توسط LLM، پیاده‌سازی یک تابع آموزش و پیش‌آماده‌سازی LLM، ذخیره و بارگذاری وزن‌های مدل برای ادامه آموزش یک LLM و بارگذاری وزن‌های پیش‌آماده از OpenAI را پوشش می‌دهد.

فصل 6 روش‌های مختلف تنظیم دقیق LLM را معرفی می‌کند. این شامل آماده‌سازی یک مجموعه داده برای طبقه‌بندی متن، اصلاح یک LLM پیش‌آماده برای تنظیم دقیق، تنظیم دقیق یک LLM برای شناسایی پیام‌های اسپم و ارزیابی دقت یک طبقه‌بندی‌کننده LLM با تنظیم دقیق است.

فصل 7 فرآیند تنظیم دقیق دستورالعمل LLMها را بررسی می‌کند. این شامل آماده‌سازی یک مجموعه داده برای تنظیم دقیق دستورالعمل نظارت شده، سازماندهی داده‌های دستورالعمل در دسته‌های آموزشی، بارگذاری یک LLM پیش‌آماده و تنظیم دقیق آن برای پیروی از دستورالعمل‌های انسانی، استخراج پاسخ‌های دستورالعمل تولید شده توسط LLM برای ارزیابی و ارزیابی یک LLM با تنظیم دقیق دستورالعمل است.

سرفصل‌های کتاب Build a Large Language Model (from Scratch):

copyright
contents
Build a Large Language Model (From Scratch)
preface
acknowledgments
about this book
about the author
about the cover illustration
1 Understanding large language models
2 Working with text data
3 Coding attention mechanisms
4 Implementing a GPT model from scratch to generate text
5 Pretraining on unlabeled data
6 Fine-tuning for classification
7 Fine-tuning to follow instructions
appendix A Introduction to PyTorch
appendix B References and further reading
appendix C Exercise solutions
appendix D Adding bells and whistles to the training loop
appendix E Parameter-efficient fine-tuning with LoRA

جهت دانلود کتاب Build a Large Language Model (from Scratch) می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub, PDF
ویرایش	First
ISBN	9781633437166
تعداد صفحات	368
انتشارات	Manning
سال انتشار	2024
حجم	13.68 مگابایت, 17.29 مگابایت
نویسنده	Sebastian Raschka

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Build a Large Language Model (from Scratch)”

کتاب Build a Large Language Model (from Scratch)

خرید کتاب Build a Large Language Model (from Scratch):

مقدمه‌ای بر کتاب Build a Large Language Model (from Scratch):

سرفصل‌های کتاب Build a Large Language Model (from Scratch):

دیدگاهها

خرید کتاب Build a Large Language Model (from Scratch):

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: