کتاب Transformers in Action (ترنسفورمرها در عمل) نوشتهٔ Nicole Koenigstein، راهنمایی است کاربردی و نسبتاً جامع برای درک و بهکارگیری معماری «ترنسفورمر» و مدلهای بزرگ زبانی («LLM») که از آن منشأ میگیرند. این کتاب ابتدا با توضیح چرایی ظهور ترنسفورمرها و پایهٔ ریاضیاتی آنها شروع میکند، سپس به معماریهای مختلف (مانند تنها رمزگذار، رمزگذار–رمزگشا، مدلهای مولد) میپردازد.
در ادامه مقدمهای از کتاب Transformers in Action را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Transformers in Action:
وقتی در سال ۲۰۱۹ برای نخستین بار از ترنسفورمرها استفاده کردم، بلافاصله مجذوبشان شدم. دو سال بعد، معماری یادگیری عمیق خودم را با استفاده از اتنشن ساختم. آن کار بعدها در یک ژورنال از انتشارات Springer Nature منتشر شد و همان تجربه، مرا قانع کرد که ترنسفورمرها واقعاً دگرگونکننده خواهند بود.
چیزی که بیش از همه مرا تحت تأثیر قرار داد، پیچیدگی آنها نبود، بلکه سادگیشان بود. سازوکاری که انقلاب ترنسفورمر را رقم زد، ریاضیات پیچیده نیست؛ بلکه بر پایهی مفاهیم سادهی جبر خطی بنا شده: ضرب ماتریسها، نرمالسازی با سافتمکس، و ترکیب بردارها با جمعهای وزندار.
شگفتانگیز است که از بنیانی شامل ضرب نقطهای و احتمالات، به سیستمهایی با میلیاردها پارامتر رسیدهایم که قادرند روی متن، تصویر، صدا و ویدئو استدلال کنند. این همان داستان ترنسفورمرهاست: یک سازوکار ظریف و زیبا که وقتی در مقیاس بزرگ به کار میرود، چشمانداز هوش مصنوعی را دگرگون میکند. کتاب Transformers in Action بر همین داستان تمرکز دارد—از پیدایش ترنسفورمرها تا شیوهی استفاده از مدلهای زبانی بزرگ (LLMها) و سیستمهای چندوجهی در عمل.
زیبایی کار در این است که چگونه همین مراحل ساده کنار هم قرار گرفته و ترکیب شدهاند. هر توکن به کوئری، کی و ولیو نگاشت میشود. مدل ضرب نقطهای بین کوئریها و کیها را برای تعیین میزان ارتباط محاسبه میکند، سپس با سافتمکس آن امتیازها را به احتمال تبدیل میکند و از آنها برای ساخت جمعهای وزندار روی ولیوها استفاده میکند.
اگر به آن فکر کنید، این فرایند چندان با آنچه هنگام تولید متن اتفاق میافتد تفاوتی ندارد. وقتی مدل میخواهد توکن بعدی را پیشبینی کند، دوباره از سافتمکس برای تولید احتمالها استفاده میکند و سپس از میان آنها نمونهبرداری میکند تا تصمیم بگیرد چه بیاید. هر دو سازوکار متکی بر مفاهیم پایهای احتمال هستند. به همین دلیل برای درک ترنسفورمرها لازم نیست ریاضیدان باشید. بنیان آنها قابل فهم است و شگفتی واقعی در این است که چگونه چنین عملیات سادهای چنین قدرت عظیمی ایجاد میکند.
سرعت نوآوری بر پایهی این معماری خیرهکننده است. مقالهی Attention Is All You Need در سال ۲۰۱۷ برای نخستین بار ترنسفورمرها را در ترجمهی ماشینی به کار گرفت. BERT قدرت پیشتمرین و ریزتنظیم را نشان داد. چیزی که با ترجمه آغاز شد، اکنون به مدلهای زبانی عظیم با میلیاردها پارامتر رسیده است؛ با ChatGPT که ترنسفورمرها را وارد زندگی روزمره کرد و مدلهایی مثل DeepSeek که بهرهوری و مقیاس را به مرزهای تازهای رساندهاند. با نوآوریهای پیاپی مانند FlashAttention، تمام آن ضربماتریسها سریعتر و کارآمدتر شدهاند.
چرا تصمیم گرفتم کتاب Transformers in Action را بنویسم؟ وقتی برای اولین بار یادگیری ماشین و یادگیری عمیق را مطالعه میکردم، بیشتر کتابهایی که میدیدم از مثالهای خیلی ساده استفاده میکردند. این مثالها برای توضیح مفاهیم خوب بودند، اما وقتی روی دادههای واقعی اعمال میشدند، غالباً کاراییشان از بین میرفت.
من میخواستم رویکرد متفاوتی داشته باشم و میخواستم اشتیاق خودم برای آموزش را روی کاغذ بیاورم. برای کمک به نسل بعدی دانشمندان داده و مهندسان یادگیری ماشین، سعی کردم نهتنها یک پایهی محکم فراهم کنم، بلکه راهنمای عملی لازم برای کار با ترنسفورمرها در دنیای واقعی را هم ارائه دهم.
در تمام کتاب Transformers in Action، شما هم مسیر تکامل ترنسفورمرها را دنبال خواهید کرد و هم مسیر شخصی من با آنها در دنیای مدلهای زبانی بزرگ را، در حالی که مسیر خودتان را میسازید و میآموزید چگونه در این حوزه پیش بروید.
کتاب با مبانی اتنشن آغاز میشود و سپس نشان میدهد که چگونه ترنسفورمرها به سیستمهای مولد و چندوجهی امروزی تبدیل شدند. در طول مسیر، به بهرهوری، راهبردهای مقیاسپذیری، و مسئولیتهایی که با بهکارگیری چنین مدلهای قدرتمندی همراه است نیز میپردازد.
امیدوارم هنگام خواندن کتاب، هم زیبایی سادگی بنیادین آن را ببینید و هم امکانات شگفتانگیزی را که از دل آن زاده میشود.
دربارهی کتاب Transformers in Action
Transformers in Action یک راهنمای جامع برای درک و بهکارگیری مدلهای ترنسفورمر در حوزههای زبانی و چندوجهی است. این مدلها پایهی بسیاری از سیستمهای هوش مصنوعی مدرن مانند ChatGPT و Gemini هستند. هدف کتاب Transformers in Action این است که یک پایهی محکم برای استفاده از این مدلها در پروژههای خودتان فراهم کند؛ از مفاهیم بنیادی ترنسفورمرها شروع میکند و سپس به کاربردهای عملی و پیشرفتهتر مانند سیستمهای بازیابی چندوجهی میرسد.
شما خواهید آموخت که چرا ترنسفورمرها چنین طراحی شدهاند و چگونه کار میکنند؛ یعنی هم فهم نظری لازم را به دست میآورید و هم مهارت عملی برای استفادهی مؤثر از آنها. در این مسیر، یاد میگیرید چه زمانی باید از مدلهای زبانی کوچک (SLMها) استفاده کرد و چه زمانی انتخاب معماریهایی مانند مدلهای فقط-انکودر یا فقط-دیکودر منطقیتر است.
چه کسانی باید کتاب Transformers in Action را بخوانند
این کتاب برای دانشمندان داده و مهندسان یادگیری ماشین نوشته شده که میخواهند یاد بگیرند چگونه مدلهای مبتنی بر ترنسفورمر را برای وظایف زبانی و چندوجهی بسازند و به کار بگیرند. هدف کتاب Transformers in Action این است که دانش ضروری برای ایجاد یک پایهی قوی را در اختیار شما قرار دهد تا بتوانید با اطمینان به سراغ مدلها و روشهای پیشرفتهتر بروید.
ساختار کتاب Transformers in Action: یک نقشهی راه
کتاب در سه بخش و مجموعاً ۱۰ فصل سازماندهی شده است.
بخش ۱: مبانی مدلهای ترنسفورمر
فصل ۱
نیاز به ترنسفورمرها را توضیح میدهد، بیان میکند چرا مدلهای دنبالهای قدیمی دچار مشکل بودند، و نشان میدهد سازوکار Attention چگونه این محدودیتها را برطرف کرد.
فصل ۲
معماری کامل ترنسفورمر، شامل انکودر و دیکودر، کدگذاری مکانی (positional encoding)، لایههای Attention و شبکههای پیشخور (feed-forward) را بررسی میکند.
بخش ۲: ترنسفورمرهای مولد
فصل ۳
به بررسی انواع معماریهای مهم میپردازد، از جمله مدلهای فقط-دیکودر، فقط-انکودر، مدلهای امبدینگ و ساختار Mixture-of-Experts.
فصل ۴
راهبردهای تولید متن و تکنیکهای پرامپتنویسی را معرفی میکند؛ شامل:
- جستجوی حریصانه (greedy) و Beam Search
- نمونهبرداری Top-k و Nucleus
- نمونهبرداری با دما
- الگوهای پرامپت از Zero-shot تا Tree-of-Thought
فصل ۵
روی همترازی ترجیحی و RAG تمرکز دارد. شامل:
- آموزش با بازخورد انسانی (RLHF)
- بهینهسازی مستقیم ترجیحات (DPO)
- روشهای ارزیابی مقاوم
- ساخت سیستمهای مبتنی بر دانش با RAG
بخش ۳: مدلهای تخصصی و پیشرفته
فصل ۶
مدلهای چندوجهی را معرفی میکند که متن را با تصویر، صدا و ویدئو ترکیب میکنند. موضوعات شامل:
- توکنسازی مخصوص هر نوع داده
- امبدینگهای تصویری و صوتی
- RAG چندوجهی برای مستندات پیچیده
فصل ۷
به مدلهای زبانی کوچک (SLMها) میپردازد. شامل:
- نقش SLMها بهعنوان متخصصان کارآمد
- مطالعات موردی در طبقهبندی، ترجمه و فاینتیون برای لحن همدلانه
- نمایش SLMها بهعنوان عاملها (agents) در جریانهای کاری بزرگتر
فصل ۸
آموزش و ارزیابی LLMها را توضیح میدهد؛ شامل:
- هایپرفارامترها
- ثبت آزمایشها
- فاینتیون کارآمد با پارامتر کم (PEFT)
- تکنیکهای کوانتش مثل QLoRA
فصل ۹
بهینهسازی و مقیاسپذیری را بررسی میکند:
- Pruning
- Distillation
- Sharding
- بهینهسازی استنتاج
- بهرهوری سطح GPU
- FlashAttention
- گسترش طول زمینه (long context)
فصل ۱۰
به اخلاق و مسئولیت در هوش مصنوعی میپردازد:
- شناسایی سوگیری
- ابزارهای شفافیت و توضیحپذیری
- استقرار مسئولانه
- محافظت در برابر Jailbreak و سوءاستفاده
چگونه کتاب Transformers in Action را بخوانید
میتوانید کتاب را از ابتدا تا انتها بخوانید، یا ابتدا بخش ۱ را برای مبانی مطالعه کنید و سپس بر اساس نیازتان مستقیم به موضوعات بخشهای ۲ و ۳ بروید.
سرفصلهای کتاب Transformers in Action:
- Transformers in Action
brief contents - contents
- foreword
- preface
- acknowledgments
- about this book
- Who should read this book
- How this book is organized: A road map
- About the code
- liveBook discussion forum
- about the author
- about the cover illustration
- Part 1 Foundations of modern transformer models
- 1 The need for transformers
- 2 A deeper look into transformers
- Part 2 Generative transformers
- 3 Model families and architecture variants
- 4 Text generation strategies and prompting techniques
- 5 Preference alignment and retrieval-augmented generation
- Part 3 Specialized models
- 6 Multimodal models
- 7 Efficient and specialized small language models
- 8 Training and evaluating large language models
- 9 Optimizing and scaling large language models
- 10 Ethical and responsible large language models
- references
- index
- Transformers in Action – back
جهت دانلود کتاب Transformers in Action میتوانید پس از پرداخت، دریافت کنید.




دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.