کتاب Deep Reinforcement Learning with Python, 2nd Edition: RLHF for Chatbots and Large Language Models (آموزش تقویتی عمیق با پایتون، ویرایش دوم: RLHF برای چت بات ها و مدل های زبان بزرگ) مفاهیم و نکات مربوط به آموزش تقویتی عمیق را با استفاده از زبان برنامه‌نویسی پایتون آموزش می‌دهد.

در ادامه مقدمه‌ای از کتاب Deep Reinforcement Learning with Python را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Deep Reinforcement Learning with Python:

این کتاب در مورد یادگیری تقویتی است و خواننده را از مبانی اولیه تا موضوعات پیشرفته راهنمایی می‌کند. اگرچه این کتاب دانش قبلی در مورد یادگیری تقویتی را فرض نمی‌کند، اما انتظار دارد خوانندگان با اصول اولیه یادگیری ماشین آشنا باشند.

آیا با پایتون برنامه‌نویسی کرده‌اید؟ آیا با کتابخانه‌هایی مانند NumPy و scikit-learn که در یادگیری ماشین رایج هستند، راحت کار می‌کنید؟آیا در مورد یادگیری عمیق چیزی شنیده‌اید و آیا با بلوک‌های سازنده‌ی پایه برای آموزش مدل‌های ساده با استفاده از PyTorch آشنا هستید؟

برای بهره‌گیری کامل از این کتاب، بهتر است به این سوالات پاسخ مثبت بدهید. در غیر این صورت، پیشنهاد می‌شود قبل از شروع، کمی روی این مفاهیم کار کنید. نیاز به یادگیری عمیق نیست، هر آموزش آنلاین مقدماتی یا کتابی از Apress در مورد این موضوعات کافی خواهد بود.

اضافات جدید در چاپ دوم:

مدل‌های زبان بزرگ (LLM) و هوش مصنوعی تولیدکننده چندرسانه‌ای (Multimodal Generative AI): این نسخه شامل پیشرفت‌های اخیر (اواخر سال ۲۰۲۲) در این زمینه‌ها است که تأثیر قابل توجهی بر جهان داشته است. فصل جدیدی به بررسی چگونگی نقش اساسی یادگیری تقویتی (RL) در این پیشرفت از طریق تکنیکی به نام یادگیری تقویتی از بازخورد انسان (RLHF) می‌پردازد. این فصل، نمای کلی از ترانسفورماتورها، LLMها و مفاهیم مرتبط مانند مهندسی پرامپت، تولید تقویت‌شده با بازیابی (RAG)، تنظیم دقیق کارآمد پارامتر (PEFT) و زنجیره‌سازی LLMها و عوامل خودکار مبتنی بر LLM را ارائه می‌دهد و سپس به توضیح دقیق مفهوم RLHF می‌پردازد. همچنین در همین فصل، با بهینه‌سازی سیاست تقریبی (PPO) که یک الگوریتم محبوب و پیشرفته مبتنی بر RL است که توسط OpenAI برای تنظیم دقیق RLHF چت‌گپت استفاده می‌شد، آشنا خواهید شد.
یادگیری تقویتی چند عاملی (MARL) و یادگیری تقویتی عمیق چند عاملی (DMARL): فصل جدیدی سناریوهایی را پوشش می‌دهد که در آن چندین عامل در یک محیط با هم همکاری یا رقابت می‌کنند. این فصل مقدمه‌ای را ارائه می‌دهد و شما را با یک مثال عملی راهنمایی می‌کند. تمرکز بر معرفی مفاهیم کلیدی است و خوانندگانی که علاقه‌مند به کاوش بیشتر هستند می‌توانند به متون تخصصی در مورد MARL مراجعه کنند.
پوشش اضافی: این نسخه موضوعات دیگری مانند تنظیم ابرپارامتر، یادگیری کنجکاوی، کاربردهای مختلف ترانسفورماتورها در RL، زمینه‌های نوظهوری مانند یادگیری تقویتی آفلاین کارآمد نمونه، ترانسفورماتورهای تصمیم‌گیری، یادگیری برنامه درسی خودکار، یادگیری تقویتی بدون نمونه (zero-shot RL) و سایر پیشرفت‌ها در این زمینه را از زمان چاپ اول پوشش می‌دهد. فصل مربوط به شبکه‌های Q عمیق برای سازماندهی بهتر موضوع به دو بخش تقسیم شده است.

در مورد کد هم تغییرات قابل توجهی وجود داشته است.

این نسخه خیلی بیشتر به محیط‌های یادگیری تقویتی (RL) می‌پردازد. کتابخانه‌ی Gymnasiu را که جانشین OpenAI Gym است، معرفی می‌کنم. همچنین محیط‌های دیگری مانند FinRL را معرفی می‌کنم که به طور خاص برای اعمال RL در معاملات بازار، سایر محیط‌های رباتیک و محیط‌های یادگیری تقویتی چند عاملی (MARL) کاربرد دارد. کتاب به کتابخانه‌های دیگر یادگیری تقویتی که از چاپ اول محبوبیت پیدا کرده‌اند نیز می‌پردازد.

نحوه‌ی اجرای کد در سال ۲۰۲۴ بسیار متفاوت است. بنابراین، کتاب بلافاصله در فصل ۱ دستورالعمل‌های نصب گام به گام را به خوانندگان ارائه می‌دهد تا بتوانند کد همراه را روی رایانه‌های محلی و/یا ارائه‌دهندگان ابری اجرا کنند، که شامل نظارت و ردیابی آموزش مبتنی بر ابر نیز می‌شود.

بیشتر بخوانید: کتاب The Art of Reinforcement Learning

در مورد یادگیری کتاب Deep Reinforcement Learning with Python

این کتاب خوانندگان را با اصول اولیه‌ی یادگیری تقویتی آشنا می‌کند و زمان زیادی را صرف توضیح مفاهیم در فصل‌های اولیه می‌کند. خواننده‌ای که دانش قبلی در مورد یادگیری تقویتی داشته باشد، می‌تواند به سرعت چهار فصل اول را مطالعه کند. فصل ۵ سرعت می‌گیرد و کاوش در موضوعات پیشرفته را آغاز می‌کند و یادگیری عمیق را با یادگیری تقویتی ترکیب می‌کند.

کد همراه که در گیت هاب میزبانی می‌شود، جزء جدایی‌ناپذیر این کتاب است. در حالی که کتاب لیست‌هایی از کدهای مرتبط دارد، جوب‌پایتری نوت‌بوک‌ها در مخزن کد، بینش‌های اضافی و نکات عملی در مورد کدگذاری این الگوریتم‌ها را ارائه می‌دهند.

بهترین کار این است که خواننده ابتدا فصل را بخواند و توضیحات را دنبال کند و سپس کار با کد را در جوب‌پایتری نوت‌بوک‌ها انجام دهد. همچنین به خواننده توصیه می‌شود سعی کند کد را برای آموزش عامل‌های خود در محیط‌های اضافی مختلف، همانطور که در کتاب توضیح داده شده است، بازنویسی کند.

در مورد ریاضیات

برای موضوعی مانند این، ریاضی اجتناب ناپذیر است. با این حال، سعی کرده‌ام آن را به حداقل برسانسانم. کتاب از بسیاری از مقالات تحقیقاتی با ارائه توضیحات کوتاه از رویکرد اتخاذ شده نقل قول می‌کند.

خوانندگانی که مایل به درک عمیق‌تری از تئوری هستند، باید این مقالات تحقیقاتی را مطالعه کنند. هدف این کتاب معرفی انگیزه و رویکرد سطح بالا پشت بسیاری از آخرین تکنیک‌های این حوزه به متخصصان است. با این حال، به هیچ وجه به معنای ارائه درک نظری کامل از این تکنیک‌ها نیست، که بهترین راه برای رسیدن به آن خواندن مقالات اصلی است.

فصل‌های کتاب Deep Reinforcement Learning with Python

این کتاب در ۱۳ فصل سازماندهی شده است.

فصل ۱، مقدمه‌ای بر یادگیری تقویتی: خوانندگان در مورد اصول و کاربردهای یادگیری تقویتی در دنیای واقعی اطلاعات کسب می‌کنند. این فصل از کتاب Deep Reinforcement Learning with Python، همچنین مراحلی را برای راه‌اندازی کدی که همراه کتاب Deep Reinforcement Learning with Python ارائه می‌شود بر روی پلتفرم‌های مختلف مانند رایانه محلی یا ابر ارائه می‌دهد.

فصل ۲، پایه و اساس: فرایندهای تصمیم‌گیری مارکوف: این فصل مشکلی را که یادگیری تقویتی به دنبال حل آن است، توصیف می‌کند. اجزای سیستم RL – عامل، محیط، پاداش‌ها، توابع ارزش، مدل و سیاست را معرفی می‌کنم. فرآیند مارکوف و انواع مختلف آن را به همراه معادلات پشتیبان توسط ریچارد بلمن توضیح می‌دهم.

فصل ۳، رویکردهای مبتنی بر مدل: این فصل از کتاب Deep Reinforcement Learning with Python، به سناریویی می‌نگرد که در آن عامل یک مدل دارد و برای بهترین نتیجه عمل خود را برنامه‌ریزی می‌کند. همچنین Gymnasiu را که یک کتابخانه‌ی محبوب محیط یادگیری تقویتی است، معرفی می‌کنم. در نهایت، روش‌های تکرار ارزش و سیاست را برای برنامه‌ریزی، از جمله تکرار سیاست تعمیم‌یافته و پشتیبان‌های ناهمزمان، بررسی می‌کنم.

فصل ۴، رویکردهای بدون مدل: این فصل از کتاب Deep Reinforcement Learning with Python، روش‌های یادگیری بدون مدل را بررسی می‌کند که عامل زمانی که نمی‌تواند به دینامیک محیط/مدل دسترسی پیدا کند، می‌تواند از آن‌ها استفاده کند. این فصل بر رویکردهای مونت کارلو (MC) و اختلاف زمانی (TD) برای یادگیری تمرکز دارد. ابتدا آنها را به طور جداگانه بررسی می کند و سپس آنها را تحت مفهوم بازگشت‌های n مرحله‌ای و ردپای واجد شرایط ادغام می‌کند.

فصل ۵، تقریب تابع و یادگیری عمیق: این فصل از کتاب Deep Reinforcement Learning with Python، به جای حالت‌های گسسته‌ای که در فصول قبل وجود داشت، به بررسی حالات با ارزش پیوسته می‌پردازد.

این فصل از کتاب Deep Reinforcement Learning with Python، با روش متعارف طراحی تقریب تابع به صورت دستی، به ویژه روش‌های خطی شروع می‌شود. در انتهای فصل، ایده استفاده از مدل‌های مبتنی بر یادگیری عمیق به عنوان تقریب‌زن‌های غیرخطی تابع ارائه می‌شود.

فصل ۶، یادگیری عمیق Q (DQN): به DQN می‌پردازد، رویکردی که با موفقیت از یادگیری عمیق همراه با یادگیری تقویتی استفاده کرده است. این فصل کتابخانه‌های محبوب برای بهینه‌سازی ابرپارامتر و ردیابی آزمایش را معرفی می‌کند. در نهایت، بررسی گسترده‌ای از محیط‌های یادگیری تقویتی از رباتیک، امور مالی و معاملات و غیره انجام می‌دهد.

فصل ۷، بهبودهایی در DQN: این فصل اختیاری است و به بحث در مورد بهبودهای DQN می‌پردازد. برای هر یک از این موارد، مباحث تئوری به دنبال پیاده‌سازی کامل در پایتون و PyTorch است. این فصل از کتاب Deep Reinforcement Learning with Python، موضوعاتی مانند بازپخش اولویت‌دار، DQN دوتایی، DQN دوئل، DQN شبکه‌های نویزی، DQN C51، DQN کوانتایل و بازپخش تجربه گذشته‌نگر را پوشش می‌دهد.

فصل ۸، الگوریتم‌های گرادیان رویه: این فصل از روش‌های مبتنی بر ارزش به سمت یادگیری مستقیم رویه تغییر می‌کند. پس از ایجاد پایه‌های نظری، به رویکردهای مختلف از جمله رویکردهای اخیر و بسیار موفق مانند بهینه‌سازی رویه ناحیه اعتماد (TRPO) و بهینه‌سازی رویه تقریبی (PPO) به همراه پیاده‌سازی در PyTorch می‌پردازد. همچنین به یادگیری مبتنی بر کنجکاوی نگاهی می‌اندازد.

فصل ۹، ترکیب گرادیان رویه و یادگیری Q: این فصل به DQN با روش‌های گرادیان رویه برای استفاده از مزایای هر دو رویکرد نگاه می‌کند که همچنین به فضاهای عمل پیوسته که به راحتی در غیر این صورت امکان‌پذیر نیست، اجازه می‌دهد. این فصل به سه مورد بسیار محبوب نگاه می‌کند – گرادیان رویه سیاست قطعی عمیق (DDPG)، DDPG با تأخیر دوقلو (TD3) و بازیگر-منتقد نرم (SAC).

فصل ۱۰، برنامه‌ریزی و یادگیری یکپارچه: این فصل از کتاب Deep Reinforcement Learning with Python، در مورد ترکیب رویکرد مبتنی بر مدل از فصل ۳ و رویکرد بدون مدل از فصل‌های ۴ تا ۹ است.

این فصل از کتاب Deep Reinforcement Learning with Python، چارچوبی کلی به نام Dyna را به همراه برخی از Varianten (انواع) آن مورد بحث قرار می‌دهد. در نهایت، به جستجوی درختی مونت کارلو (MCTS) به همراه کاربرد آن برای آموزش AlphaGo که می‌تواند بازیکنان قهرمان Go انسان را شکست دهد، می‌پردازد.

فصل ۱۱، بهینه‌سازی رویه تقریبی (PPO) و یادگیری تقویتی از بازخورد انسان (RLHF): این فصل به گرادیان‌های طبیعی رویه که انگیزه PPO را ایجاد کرده‌اند، به همراه بررسی خط به خط پیاده‌سازی PPO می‌پردازد.

این فصل از کتاب Deep Reinforcement Learning with Python، مدل‌های زبان بزرگ (LLM) و مفاهیم مرتبط را معرفی می‌کند. در ادامه، بحث عمیقی در مورد RLHF به همراه یک مثال عملی صورت می‌گیرد.

فصل ۱۲، یادگیری تقویتی چند عاملی (MARL): این فصل از کتاب Deep Reinforcement Learning with Python، مفهوم چندین عامل در یک محیط مشابه، مبانی نظری، طبقه‌بندی جدید برای MARL، ارتباط آن با تئوری بازی، چالش‌های جدید و رویکردهای راه‌حل RL برای MARL را معرفی می‌کند.

فصل ۱۳، موضوعات اضافی و پیشرفت‌های اخیر: این فصل از کتاب Deep Reinforcement Learning with Python، به بررسی سایر توسعه‌های یادگیری تقویتی می‌پردازد. این فصل به مفاهیمی مانند مدل‌های جهان، ترانسفورماتورهای تصمیم‌گیری، یادگیری خودکار برنامه درسی، تقلید و یادگیری معکوس، روش‌های بدون مشتق، انتقال و یادگیری چند وظیفه‌ای، فرایادگیری، یادگیری تقویتی بدون نمونه بدون نظارت و موارد دیگر می‌پردازد.

سرفصل‌های کتاب Deep Reinforcement Learning with Python:

Table of Contents
About the Author
About the Technical Reviewer
Acknowledgments
Introduction
Chapter 1: Introduction to Reinforcement Learning
Chapter 2: The Foundation: Markov Decision Processes
Chapter 3: Model-Based Approaches
Chapter 4: Model-Free Approaches
Chapter 5: Function Approximation and Deep Learning
Chapter 6: Deep Q-Learning (DQN)
Chapter 7: Improvements to DQN **
Chapter 8: Policy Gradient Algorithms
Chapter 9: Combining Policy Gradient and Q-Learning
Chapter 10: Integrated Planning and Learning
Chapter 11: Proximal Policy Optimization (PPO) and RLHF
Chapter 12: Multi-Agent RL (MARL)
Chapter 13: Additional Topics and Recent Advances
Index

جهت دانلود کتاب Deep Reinforcement Learning with Python می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub
ویرایش	Second
ISBN	979-8-8688-0273-7
تعداد صفحات	659
انتشارات	Apress
سال انتشار	2024
حجم	16.78 مگابایت, 17.32 مگابایت
نویسنده	Nimish Sanghi

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Deep Reinforcement Learning with Python”

کتاب Deep Reinforcement Learning with Python

خرید کتاب Deep Reinforcement Learning with Python:

مقدمه‌ای بر کتاب Deep Reinforcement Learning with Python:

سرفصل‌های کتاب Deep Reinforcement Learning with Python:

دیدگاهها

خرید کتاب Deep Reinforcement Learning with Python:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: