کتاب Deep Reinforcement Learning Hands-On, 3rd Edition: A practical and easy-to-follow guide to RL from Q-learning and DQNs to PPO and RLHF (یادگیری تقویتی عمیق: راهنمای عملی و آسان برای یادگیری RL از Q-learning و DQN تا PPO و RLHF) یک راهنمای جامع و کاربردی است که به شما کمک میکند تا مفاهیم پیچیده یادگیری تقویتی (RL) را به راحتی درک و پیادهسازی کنید.
این کتاب با رویکردی عملی، از مبانی اولیه RL مانند Q-learning و DQN شروع میکند و سپس به روشهای پیشرفتهتری مانند PPO و RLHF میپردازد.
در ادامه مقدمهای از کتاب Deep Reinforcement Learning Hands-On را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Deep Reinforcement Learning Hands-On:
این کتاب در مورد یادگیری تقویتی (RL) است که زیرمجموعهای از یادگیری ماشین (ML) است؛ این حوزه بر روی مسئله عمومی و چالشبرانگیز یادگیری رفتار بهینه در محیطهای پیچیده تمرکز دارد. فرآیند یادگیری تنها با استفاده از ارزش پاداش و مشاهدات به دست آمده از محیط هدایت میشود.
این مدل بسیار عمومی است و میتواند در بسیاری از شرایط عملی، از بازی کردن تا بهینهسازی فرآیندهای پیچیده تولید، اعمال شود. ما در این کتاب عمدتاً بر روی RL عمیق تمرکز میکنیم، که RL است که از روشهای یادگیری عمیق (DL) استفاده میکند.
به دلیل انعطافپذیری و عمومیت آن، حوزه RL بسیار سریع در حال توسعه است و توجه زیادی را به خود جلب میکند، هم از سوی پژوهشگرانی که در تلاش برای بهبود روشهای موجود یا ایجاد روشهای جدید هستند و هم از سوی متخصصانی که علاقهمند به حل مشکلات خود به موثرترین روش هستند.
چرا کتاب Deep Reinforcement Learning Hands-On را نوشتم؟
فعالیت تحقیقاتی زیادی در زمینه RL در سراسر جهان در حال انجام است. تقریباً هر روز مقالات تحقیقاتی جدیدی منتشر میشود و تعداد زیادی از کنفرانسهای DL، مانند سیستمهای پردازش اطلاعات عصبی (NeurIPS) یا کنفرانس بینالمللی در مورد نمایشهای یادگیری (ICLR)، به روشهای RL اختصاص داده شدهاند.
همچنین گروههای تحقیقاتی بزرگی وجود دارند که بر روی کاربرد روشهای RL در رباتیک، پزشکی، سیستمهای چندعامله و موارد دیگر تمرکز میکنند.
با این حال، اگرچه اطلاعات مربوط به تحقیقات اخیر به طور گسترده در دسترس است، اما بسیار تخصصی و انتزاعی است و به راحتی قابل درک نیست. وضعیت مربوط به جنبه عملی RL حتی بدتر است، زیرا همیشه مشخص نیست که چگونه از یک روش انتزاعی که در شکل ریاضیمحور خود در یک مقاله تحقیقاتی توصیف شده است، به یک پیادهسازی عملی که یک مشکل واقعی را حل میکند، قدم برداریم.
این امر برای کسی که به این حوزه علاقهمند است، درک روشها و ایدههای پشت مقالات و سخنرانیهای کنفرانس را دشوار میکند.
برخی از پستهای وبلاگ بسیار خوبی در مورد جنبههای مختلف RL وجود دارد که با مثالهای عملی نشان داده شدهاند، اما قالب محدود یک پست وبلاگ به نویسندگان اجازه میدهد فقط یک یا دو روش را توصیف کنند، بدون اینکه یک تصویر ساختاری کامل بسازند و نشان دهند که چگونه روشهای مختلف به هم مرتبط هستند.
کتاب Deep Reinforcement Learning Hands-On به عنوان تلاشی برای پر کردن این شکاف آشکار در اطلاعات عملی و ساختاری در مورد روشها و رویکردهای RL نوشته شده است.
رویکرد کتاب Deep Reinforcement Learning Hands-On
جنبه کلیدی این کتاب، تمرکز آن بر جنبه عملی است. هر روش برای محیطهای مختلف، از بسیار ساده تا کاملاً پیچیده، پیادهسازی شده است. من سعی کردهام تا مثالها را تمیز و قابل فهم ارائه دهم، که با قدرت و بیانگری بالای PyTorch امکانپذیر شده است.
از طرف دیگر، پیچیدگی و نیازمندیهای مثالها بر روی علاقهمندان به یادگیری تقویتی (RL) تمرکز دارد که به منابع محاسباتی بسیار بزرگ مانند خوشههای واحد پردازش گرافیک (GPU) یا ایستگاههای کاری بسیار قدرتمند دسترسی ندارند.
به اعتقاد من، این امر باعث میشود حوزه هیجانانگیز و سرگرمکنندهی RL برای مخاطبان بسیار گستردهتری فراتر از گروههای تحقیقاتی یا شرکتهای بزرگ هوش مصنوعی در دسترس قرار گیرد.
با این حال، کتاب Deep Reinforcement Learning Hands-On همچنان در مورد RL عمیق است، بنابراین دسترسی به GPU بسیار توصیه میشود، زیرا افزایش سرعت محاسبات، آزمایشها را بسیار راحتتر میکند (انتظار کشیدن چندین هفته برای تکمیل یک بهینهسازی، خیلی سرگرمکننده نیست). تقریباً نیمی از مثالهای کتاب از اجرا شدن روی یک GPU بهرهمند خواهند شد.
علاوه بر مثالهای سنتی با اندازهی متوسط از محیطهایی که در RL استفاده میشوند، مانند بازیهای آتاری یا مسائل کنترل پیوسته، کتاب Deep Reinforcement Learning Hands-On شامل چندین فصل (10، 13، 14، 19، 20 و 21) است که حاوی پروژههای بزرگتر است و نشان میدهد که چگونه روشهای RL را میتوان در محیطها و کارهای پیچیدهتر اعمال کرد.
این مثالها هنوز به اندازهی پروژههای واقعی و تمامعیار نیستند (آنها به تنهایی یک کتاب جداگانه را اشغال میکنند)، بلکه فقط مشکلات بزرگتری هستند که نشان میدهند چگونه پارادایم RL را میتوان در دامنههایی فراتر از معیارهای تثبیتشده اعمال کرد.
نکته دیگری که در مورد مثالهای بخشهای 1، 2 و 3 کتاب Deep Reinforcement Learning Hands-On باید به آن توجه کرد این است که من سعی کردهام آنها را خودکفا بسازم، به طوری که کد منبع به طور کامل نمایش داده شود.
گاهی اوقات این امر منجر به تکرار کد شده است (برای مثال، حلقهی آموزش در اکثر روشها بسیار شبیه به هم است)، اما من معتقدم که دادن آزادی به شما برای پریدن مستقیم به روشی که میخواهید یاد بگیرید، از اجتناب از چند تکرار مهمتر است. تمام مثالهای کتاب در GitHub در آدرس https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-3E/ در دسترس هستند و شما میتوانید آنها را فورک کنید، آزمایش کنید و مشارکت داشته باشید.
علاوه بر کد منبع، چندین فصل (15، 16، 19 و 22) همراه با ضبطهای ویدیویی از مدل آموزشدیده شده است. همه این ضبطها در لیست پخش یوتیوب زیر در دسترس هستند:
https://youtube.com/playlist?list=PLMVwuZENsfJmjPlBuFy5u7c3uStMTJYz7.
کتاب Deep Reinforcement Learning Hands-On برای چه کسانی است؟
این کتاب برای مهندسان یادگیری ماشین، مهندسان نرمافزار و دانشمندان داده که به دنبال یادگیری و بهکارگیری RL عمیق در عمل هستند، ایدهآل است.
کتاب Deep Reinforcement Learning Hands-On آشنایی با پایتون، حساب دیفرانسیل و مفاهیم یادگیری ماشین را در نظر میگیرد. با مثالهای عملی و بررسیهای سطح بالا، این کتاب برای متخصصان باتجربهای که به دنبال تعمیق درک خود از روشهای پیشرفتهی RL عمیق و اعمال آنها در صنایع مختلف مانند بازی و امور مالی هستند نیز مناسب است.
کتاب Deep Reinforcement Learning Hands-On چه موضوعاتی را پوشش میدهد؟
فصل 1، یادگیری تقویتی چیست؟، مقدمهای بر ایدههای RL و مدلهای رسمی اصلی ارائه میدهد.
فصل 2، API OpenAI Gym و Gymansium، جنبههای عملی RL را با استفاده از کتابخانه منبع باز Gym و نسل آن، Gymnasium معرفی میکند.
فصل 3، یادگیری عمیق با PyTorch، یک مرور سریع بر کتابخانه PyTorch ارائه میدهد.
فصل 4، روش آنتروپی متقاطع، یکی از سادهترین روشهای RL را معرفی میکند تا به شما تصوری از روشها و مشکلات RL بدهد.
فصل 5، یادگیری جدولی و معادله بلمن، این فصل، بخش دوم کتاب Deep Reinforcement Learning Hands-On را آغاز میکند که به خانواده روشهای مبتنی بر ارزش اختصاص دارد.
فصل 6، شبکههای Q عمیق، شبکههای Q عمیق (DQNs) را توصیف میکند، که گسترش روشهای مبتنی بر ارزش پایه است و به ما اجازه میدهد محیطهای پیچیده را حل کنیم.
فصل 7، کتابخانههای سطح بالاتر RL، کتابخانه PTAN را توصیف میکند که ما در کتاب Deep Reinforcement Learning Hands-On برای سادهسازی پیادهسازی روشهای RL استفاده خواهیم کرد.
فصل 8، گسترشهای DQN، یک مرور دقیق بر یک گسترش مدرن روش DQN برای بهبود پایداری و همگرایی آن در محیطهای پیچیده ارائه میدهد.
فصل 9، راه های سرعت بخشیدن به روشهای RL، مروری بر راههای تسریع اجرای کد RL ارائه میدهد.
فصل 10، معاملات سهام با استفاده از RL، اولین پروژه عملی است و بر کاربرد روش DQN در معاملات سهام تمرکز دارد.
فصل 11، گرادیانهای سیاست، بخش سوم کتاب Deep Reinforcement Learning Hands-On را آغاز میکند و خانواده دیگری از روشهای RL را معرفی میکند که بر اساس بهینهسازی مستقیم سیاست است.
فصل 12، روش بازیگر-منتقد: A2C و A3C، یکی از پرکاربردترین روشهای مبتنی بر سیاست در RL را توصیف میکند.
فصل 13، محیط TextWorld، کاربرد روشهای RL در بازیهای تعاملی داستان محور را پوشش میدهد.
فصل 14، ناوبری وب، پروژه طولانی دیگری است که RL را برای ناوبری صفحات وب با استفاده از محیط MiniWoB++ اعمال میکند.
فصل 15، فضای عمل پیوسته، بخش پیشرفته RL کتاب Deep Reinforcement Learning Hands-On را آغاز میکند و جزئیات محیطهایی با فضای عمل پیوسته و روشهای مختلف (که به طور گسترده در رباتیک استفاده میشود) را توصیف میکند.
فصل 16، مناطق اعتماد، فصل دیگری در مورد فضاهای عمل پیوسته است که مجموعهای از روشهای منطقه اعتماد را توصیف میکند: PPO، TRPO، ACKTR و SAC.
فصل 17، بهینهسازی جعبه سیاه در RL، مجموعه دیگری از روشها را نشان میدهد که از گرادیانها به شکل صریح استفاده نمیکنند.
فصل 18، اکتشاف پیشرفته، رویکردهای مختلفی را پوشش میدهد که میتوان برای اکتشاف بهتر محیط استفاده کرد – یک جنبه بسیار مهم از RL.
فصل 19، یادگیری تقویتی با بازخورد انسانی، رویکرد اخیر برای هدایت فرآیند یادگیری با دادن بازخورد انسانی را معرفی و پیادهسازی میکند.
این روش به طور گسترده در آموزش مدلهای بزرگ زبان (LLM) استفاده میشود. در این فصل از کتاب Deep Reinforcement Learning Hands-On، ما خط لوله RLHF را از ابتدا پیادهسازی خواهیم کرد و کارایی آن را بررسی خواهیم کرد.
فصل 20، AlphaGo Zero و MuZero، روش AlphaGo Zero و تکامل آن به MuZero را توصیف میکند و هر دو روش را به بازی Connect 4 اعمال میکند.
فصل 21، RL در بهینه سازی گسسته، کاربرد روشهای RL در حوزه بهینهسازی گسسته را با استفاده از مکعب روبیک به عنوان یک محیط توصیف میکند.
فصل 22، RL چند عامله، یک جهت نسبتا جدید از روشهای RL را برای موقعیتهایی با چندین عامل معرفی میکند.
سرفصلهای کتاب Deep Reinforcement Learning Hands-On:
- Preface
- Part 1 Introduction to RL
- What Is Reinforcement Learning?
- OpenAl Gym API and Gymnasium
- Deep Learning with PyTorch
- The Cross-Entropy Method
- Part 2 Value-based methods
- Tabular Learning and the Bellman Equation
- Deep Q-Networks
- Higher-Level RL Libraries
- DQN Extensions
- Ways to Speed Up RL
- Stocks Trading Using RL
- Part 3 Policy-based methods
- Policy Gradients
- Actor-Critic Method: A2C and A3C
- The TextWorld Environment
- Web Navigation
- Part 4 Advanced RL
- Continous Action Space
- Trust Region Methods
- Black-Box Optimizations in RL
- Advanced Exploration
- Reinforcement Learning with Human Feedback
- AlphaGo Zero and MuZero
- RL in Discrete Optimization
- Multi-Agent RL
- Bibliography
- Index
جهت دانلود کتاب Deep Reinforcement Learning Hands-On میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.