کتاب Deep Reinforcement Learning with Python, 2nd Edition: RLHF for Chatbots and Large Language Models (آموزش تقویتی عمیق با پایتون، ویرایش دوم: RLHF برای چت بات ها و مدل های زبان بزرگ) مفاهیم و نکات مربوط به آموزش تقویتی عمیق را با استفاده از زبان برنامهنویسی پایتون آموزش میدهد.
در ادامه مقدمهای از کتاب Deep Reinforcement Learning with Python را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Deep Reinforcement Learning with Python:
این کتاب در مورد یادگیری تقویتی است و خواننده را از مبانی اولیه تا موضوعات پیشرفته راهنمایی میکند. اگرچه این کتاب دانش قبلی در مورد یادگیری تقویتی را فرض نمیکند، اما انتظار دارد خوانندگان با اصول اولیه یادگیری ماشین آشنا باشند.
آیا با پایتون برنامهنویسی کردهاید؟ آیا با کتابخانههایی مانند NumPy و scikit-learn که در یادگیری ماشین رایج هستند، راحت کار میکنید؟آیا در مورد یادگیری عمیق چیزی شنیدهاید و آیا با بلوکهای سازندهی پایه برای آموزش مدلهای ساده با استفاده از PyTorch آشنا هستید؟
برای بهرهگیری کامل از این کتاب، بهتر است به این سوالات پاسخ مثبت بدهید. در غیر این صورت، پیشنهاد میشود قبل از شروع، کمی روی این مفاهیم کار کنید. نیاز به یادگیری عمیق نیست، هر آموزش آنلاین مقدماتی یا کتابی از Apress در مورد این موضوعات کافی خواهد بود.
اضافات جدید در چاپ دوم:
- مدلهای زبان بزرگ (LLM) و هوش مصنوعی تولیدکننده چندرسانهای (Multimodal Generative AI): این نسخه شامل پیشرفتهای اخیر (اواخر سال ۲۰۲۲) در این زمینهها است که تأثیر قابل توجهی بر جهان داشته است. فصل جدیدی به بررسی چگونگی نقش اساسی یادگیری تقویتی (RL) در این پیشرفت از طریق تکنیکی به نام یادگیری تقویتی از بازخورد انسان (RLHF) میپردازد. این فصل، نمای کلی از ترانسفورماتورها، LLMها و مفاهیم مرتبط مانند مهندسی پرامپت، تولید تقویتشده با بازیابی (RAG)، تنظیم دقیق کارآمد پارامتر (PEFT) و زنجیرهسازی LLMها و عوامل خودکار مبتنی بر LLM را ارائه میدهد و سپس به توضیح دقیق مفهوم RLHF میپردازد. همچنین در همین فصل، با بهینهسازی سیاست تقریبی (PPO) که یک الگوریتم محبوب و پیشرفته مبتنی بر RL است که توسط OpenAI برای تنظیم دقیق RLHF چتگپت استفاده میشد، آشنا خواهید شد.
- یادگیری تقویتی چند عاملی (MARL) و یادگیری تقویتی عمیق چند عاملی (DMARL): فصل جدیدی سناریوهایی را پوشش میدهد که در آن چندین عامل در یک محیط با هم همکاری یا رقابت میکنند. این فصل مقدمهای را ارائه میدهد و شما را با یک مثال عملی راهنمایی میکند. تمرکز بر معرفی مفاهیم کلیدی است و خوانندگانی که علاقهمند به کاوش بیشتر هستند میتوانند به متون تخصصی در مورد MARL مراجعه کنند.
- پوشش اضافی: این نسخه موضوعات دیگری مانند تنظیم ابرپارامتر، یادگیری کنجکاوی، کاربردهای مختلف ترانسفورماتورها در RL، زمینههای نوظهوری مانند یادگیری تقویتی آفلاین کارآمد نمونه، ترانسفورماتورهای تصمیمگیری، یادگیری برنامه درسی خودکار، یادگیری تقویتی بدون نمونه (zero-shot RL) و سایر پیشرفتها در این زمینه را از زمان چاپ اول پوشش میدهد. فصل مربوط به شبکههای Q عمیق برای سازماندهی بهتر موضوع به دو بخش تقسیم شده است.
در مورد کد هم تغییرات قابل توجهی وجود داشته است.
این نسخه خیلی بیشتر به محیطهای یادگیری تقویتی (RL) میپردازد. کتابخانهی Gymnasiu را که جانشین OpenAI Gym است، معرفی میکنم. همچنین محیطهای دیگری مانند FinRL را معرفی میکنم که به طور خاص برای اعمال RL در معاملات بازار، سایر محیطهای رباتیک و محیطهای یادگیری تقویتی چند عاملی (MARL) کاربرد دارد. کتاب به کتابخانههای دیگر یادگیری تقویتی که از چاپ اول محبوبیت پیدا کردهاند نیز میپردازد.
نحوهی اجرای کد در سال ۲۰۲۴ بسیار متفاوت است. بنابراین، کتاب بلافاصله در فصل ۱ دستورالعملهای نصب گام به گام را به خوانندگان ارائه میدهد تا بتوانند کد همراه را روی رایانههای محلی و/یا ارائهدهندگان ابری اجرا کنند، که شامل نظارت و ردیابی آموزش مبتنی بر ابر نیز میشود.
بیشتر بخوانید: کتاب The Art of Reinforcement Learning
در مورد یادگیری کتاب Deep Reinforcement Learning with Python
این کتاب خوانندگان را با اصول اولیهی یادگیری تقویتی آشنا میکند و زمان زیادی را صرف توضیح مفاهیم در فصلهای اولیه میکند. خوانندهای که دانش قبلی در مورد یادگیری تقویتی داشته باشد، میتواند به سرعت چهار فصل اول را مطالعه کند. فصل ۵ سرعت میگیرد و کاوش در موضوعات پیشرفته را آغاز میکند و یادگیری عمیق را با یادگیری تقویتی ترکیب میکند.
کد همراه که در گیت هاب میزبانی میشود، جزء جداییناپذیر این کتاب است. در حالی که کتاب لیستهایی از کدهای مرتبط دارد، جوبپایتری نوتبوکها در مخزن کد، بینشهای اضافی و نکات عملی در مورد کدگذاری این الگوریتمها را ارائه میدهند.
بهترین کار این است که خواننده ابتدا فصل را بخواند و توضیحات را دنبال کند و سپس کار با کد را در جوبپایتری نوتبوکها انجام دهد. همچنین به خواننده توصیه میشود سعی کند کد را برای آموزش عاملهای خود در محیطهای اضافی مختلف، همانطور که در کتاب توضیح داده شده است، بازنویسی کند.
در مورد ریاضیات
برای موضوعی مانند این، ریاضی اجتناب ناپذیر است. با این حال، سعی کردهام آن را به حداقل برسانسانم. کتاب از بسیاری از مقالات تحقیقاتی با ارائه توضیحات کوتاه از رویکرد اتخاذ شده نقل قول میکند.
خوانندگانی که مایل به درک عمیقتری از تئوری هستند، باید این مقالات تحقیقاتی را مطالعه کنند. هدف این کتاب معرفی انگیزه و رویکرد سطح بالا پشت بسیاری از آخرین تکنیکهای این حوزه به متخصصان است. با این حال، به هیچ وجه به معنای ارائه درک نظری کامل از این تکنیکها نیست، که بهترین راه برای رسیدن به آن خواندن مقالات اصلی است.
فصلهای کتاب Deep Reinforcement Learning with Python
این کتاب در ۱۳ فصل سازماندهی شده است.
فصل ۱، مقدمهای بر یادگیری تقویتی: خوانندگان در مورد اصول و کاربردهای یادگیری تقویتی در دنیای واقعی اطلاعات کسب میکنند. این فصل از کتاب Deep Reinforcement Learning with Python، همچنین مراحلی را برای راهاندازی کدی که همراه کتاب Deep Reinforcement Learning with Python ارائه میشود بر روی پلتفرمهای مختلف مانند رایانه محلی یا ابر ارائه میدهد.
فصل ۲، پایه و اساس: فرایندهای تصمیمگیری مارکوف: این فصل مشکلی را که یادگیری تقویتی به دنبال حل آن است، توصیف میکند. اجزای سیستم RL – عامل، محیط، پاداشها، توابع ارزش، مدل و سیاست را معرفی میکنم. فرآیند مارکوف و انواع مختلف آن را به همراه معادلات پشتیبان توسط ریچارد بلمن توضیح میدهم.
فصل ۳، رویکردهای مبتنی بر مدل: این فصل از کتاب Deep Reinforcement Learning with Python، به سناریویی مینگرد که در آن عامل یک مدل دارد و برای بهترین نتیجه عمل خود را برنامهریزی میکند. همچنین Gymnasiu را که یک کتابخانهی محبوب محیط یادگیری تقویتی است، معرفی میکنم. در نهایت، روشهای تکرار ارزش و سیاست را برای برنامهریزی، از جمله تکرار سیاست تعمیمیافته و پشتیبانهای ناهمزمان، بررسی میکنم.
فصل ۴، رویکردهای بدون مدل: این فصل از کتاب Deep Reinforcement Learning with Python، روشهای یادگیری بدون مدل را بررسی میکند که عامل زمانی که نمیتواند به دینامیک محیط/مدل دسترسی پیدا کند، میتواند از آنها استفاده کند. این فصل بر رویکردهای مونت کارلو (MC) و اختلاف زمانی (TD) برای یادگیری تمرکز دارد. ابتدا آنها را به طور جداگانه بررسی می کند و سپس آنها را تحت مفهوم بازگشتهای n مرحلهای و ردپای واجد شرایط ادغام میکند.
فصل ۵، تقریب تابع و یادگیری عمیق: این فصل از کتاب Deep Reinforcement Learning with Python، به جای حالتهای گسستهای که در فصول قبل وجود داشت، به بررسی حالات با ارزش پیوسته میپردازد.
این فصل از کتاب Deep Reinforcement Learning with Python، با روش متعارف طراحی تقریب تابع به صورت دستی، به ویژه روشهای خطی شروع میشود. در انتهای فصل، ایده استفاده از مدلهای مبتنی بر یادگیری عمیق به عنوان تقریبزنهای غیرخطی تابع ارائه میشود.
فصل ۶، یادگیری عمیق Q (DQN): به DQN میپردازد، رویکردی که با موفقیت از یادگیری عمیق همراه با یادگیری تقویتی استفاده کرده است. این فصل کتابخانههای محبوب برای بهینهسازی ابرپارامتر و ردیابی آزمایش را معرفی میکند. در نهایت، بررسی گستردهای از محیطهای یادگیری تقویتی از رباتیک، امور مالی و معاملات و غیره انجام میدهد.
فصل ۷، بهبودهایی در DQN: این فصل اختیاری است و به بحث در مورد بهبودهای DQN میپردازد. برای هر یک از این موارد، مباحث تئوری به دنبال پیادهسازی کامل در پایتون و PyTorch است. این فصل از کتاب Deep Reinforcement Learning with Python، موضوعاتی مانند بازپخش اولویتدار، DQN دوتایی، DQN دوئل، DQN شبکههای نویزی، DQN C51، DQN کوانتایل و بازپخش تجربه گذشتهنگر را پوشش میدهد.
فصل ۸، الگوریتمهای گرادیان رویه: این فصل از روشهای مبتنی بر ارزش به سمت یادگیری مستقیم رویه تغییر میکند. پس از ایجاد پایههای نظری، به رویکردهای مختلف از جمله رویکردهای اخیر و بسیار موفق مانند بهینهسازی رویه ناحیه اعتماد (TRPO) و بهینهسازی رویه تقریبی (PPO) به همراه پیادهسازی در PyTorch میپردازد. همچنین به یادگیری مبتنی بر کنجکاوی نگاهی میاندازد.
فصل ۹، ترکیب گرادیان رویه و یادگیری Q: این فصل به DQN با روشهای گرادیان رویه برای استفاده از مزایای هر دو رویکرد نگاه میکند که همچنین به فضاهای عمل پیوسته که به راحتی در غیر این صورت امکانپذیر نیست، اجازه میدهد. این فصل به سه مورد بسیار محبوب نگاه میکند – گرادیان رویه سیاست قطعی عمیق (DDPG)، DDPG با تأخیر دوقلو (TD3) و بازیگر-منتقد نرم (SAC).
فصل ۱۰، برنامهریزی و یادگیری یکپارچه: این فصل از کتاب Deep Reinforcement Learning with Python، در مورد ترکیب رویکرد مبتنی بر مدل از فصل ۳ و رویکرد بدون مدل از فصلهای ۴ تا ۹ است.
این فصل از کتاب Deep Reinforcement Learning with Python، چارچوبی کلی به نام Dyna را به همراه برخی از Varianten (انواع) آن مورد بحث قرار میدهد. در نهایت، به جستجوی درختی مونت کارلو (MCTS) به همراه کاربرد آن برای آموزش AlphaGo که میتواند بازیکنان قهرمان Go انسان را شکست دهد، میپردازد.
فصل ۱۱، بهینهسازی رویه تقریبی (PPO) و یادگیری تقویتی از بازخورد انسان (RLHF): این فصل به گرادیانهای طبیعی رویه که انگیزه PPO را ایجاد کردهاند، به همراه بررسی خط به خط پیادهسازی PPO میپردازد.
این فصل از کتاب Deep Reinforcement Learning with Python، مدلهای زبان بزرگ (LLM) و مفاهیم مرتبط را معرفی میکند. در ادامه، بحث عمیقی در مورد RLHF به همراه یک مثال عملی صورت میگیرد.
فصل ۱۲، یادگیری تقویتی چند عاملی (MARL): این فصل از کتاب Deep Reinforcement Learning with Python، مفهوم چندین عامل در یک محیط مشابه، مبانی نظری، طبقهبندی جدید برای MARL، ارتباط آن با تئوری بازی، چالشهای جدید و رویکردهای راهحل RL برای MARL را معرفی میکند.
فصل ۱۳، موضوعات اضافی و پیشرفتهای اخیر: این فصل از کتاب Deep Reinforcement Learning with Python، به بررسی سایر توسعههای یادگیری تقویتی میپردازد. این فصل به مفاهیمی مانند مدلهای جهان، ترانسفورماتورهای تصمیمگیری، یادگیری خودکار برنامه درسی، تقلید و یادگیری معکوس، روشهای بدون مشتق، انتقال و یادگیری چند وظیفهای، فرایادگیری، یادگیری تقویتی بدون نمونه بدون نظارت و موارد دیگر میپردازد.
سرفصلهای کتاب Deep Reinforcement Learning with Python:
- Table of Contents
- About the Author
- About the Technical Reviewer
- Acknowledgments
- Introduction
- Chapter 1: Introduction to Reinforcement Learning
- Chapter 2: The Foundation: Markov Decision Processes
- Chapter 3: Model-Based Approaches
- Chapter 4: Model-Free Approaches
- Chapter 5: Function Approximation and Deep Learning
- Chapter 6: Deep Q-Learning (DQN)
- Chapter 7: Improvements to DQN **
- Chapter 8: Policy Gradient Algorithms
- Chapter 9: Combining Policy Gradient and Q-Learning
- Chapter 10: Integrated Planning and Learning
- Chapter 11: Proximal Policy Optimization (PPO) and RLHF
- Chapter 12: Multi-Agent RL (MARL)
- Chapter 13: Additional Topics and Recent Advances
- Index
جهت دانلود کتاب Deep Reinforcement Learning with Python میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.