کتاب Build a Text-to-Image Generator (from Scratch) (ساخت یک مولد متنبهتصویر (از صفر)) بهصورت گامبهگام توضیح میدهد که چگونه میتوان از پایه یک سیستم هوش مصنوعی ساخت که توضیحات متنی را به تصویر تبدیل کند. تمرکز کتاب بر درک مفاهیم اصلی یادگیری عمیق است، از جمله نمایش متن (مانند embeddingها)، مدلهای مولد، شبکههای عصبی کانولوشنی و ترنسفورمرها، و بهویژه مدلهای diffusion که هسته بسیاری از مولدهای تصویر مدرن هستند.
در ادامه مقدمهای از کتاب Build a Text-to-Image Generator (from Scratch) را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Build a Text-to-Image Generator (from Scratch):
این کتاب با کنجکاوی من دربارهٔ اینکه چگونه ماشینها میتوانند تنها از روی کلمات تصویر بسازند آغاز میشود. وقتی برای نخستینبار با DALL-E و Stable Diffusion روبهرو شدم، نتایج جادویی به نظر میرسیدند: یک پرامپت مینوشتی و تصویری واقعی و زنده بیرون میآمد که کاملاً با توصیف مطابقت داشت. اما پشت این جادو، ریاضیات، کد و زنجیرهای طولانی از ایدهها در یادگیری ماشین قرار داشت. میخواستم این ایدهها را رمزگشایی کنم؛ نه فقط برای خودم، بلکه برای هر کسی که بهترین شیوهٔ یادگیریاش ساختن چیزها از پایه است.
هوش مصنوعی مولد با سرعتی پیش میرود که کمتر کسی میتوانست پیشبینی کند و نهتنها شیوهٔ کار ما، بلکه نحوهٔ خلق، طراحی و ارتباط برقرار کردنمان را نیز دگرگون میسازد. بهویژه مدلهای تبدیل متن به تصویر از برجستهترین و تحولآفرینترین این فناوریها هستند. آنها نماد جهش از هوش مصنوعی تکوجهی به چندوجهیاند؛ سامانههایی که میان انواع مختلف داده استدلال میکنند. در حالی که تیتر خبرها بر خروجیهای شگفتانگیز آنها تمرکز داشت، ذهن من درگیر این پرسش بود: واقعاً چگونه کار میکنند؟ به این نتیجه رسیدم که تنها پاسخ رضایتبخش این است که خودم یکی بسازم.
کتاب Build a Text-to-Image Generator (from Scratch) حاصل آن مسیر است. نه مجموعهای از توضیحات سطحبالا یا نمایشهای جعبهسیاه، بلکه راهنمایی عملی برای بازآفرینی بلوکهای سازندهٔ بنیادی تولید تصویر از متن: ترنسفورمرها، مدلهای بینایی، فرایندهای انتشار (دیفیوژن) و بازنماییهای نهفته. با بازسازی گامبهگام این سامانهها، خوانندگانی مانند شما درک عمیقتری از هم توانمندیها و هم محدودیتهای آنها به دست میآورید. همانطور که ریچارد فاینمن زمانی گفت: «آنچه را نتوانم خلق کنم، نمیفهمم.» این روحیه راهنمای هر فصل است.
نوشتن این کتاب همچنین از تمایل من برای پل زدن میان دو جامعه برمیآمد: پژوهشگران یادگیری ماشین که مرزهای مدلهای مولد را پیش میبرند و توسعهدهندگان، طراحان و علاقهمندانی که مشتاق بهکارگیری این ابزارها هستند اما نمیدانند از کجا شروع کنند. امید من این است که با کار کردن روی کد، آزمایشها و پروژهها ببینید این مدلها جعبهسیاههای نفوذناپذیر نیستند، بلکه سامانههایی دسترسپذیرند که از اجزای قابلفهم ساخته شدهاند.
نمونههای این کتاب عمداً بازیگوشانهاند (پانداهایی با کلاه سیلندر، موزهایی سوار بر موتورسیکلت)، چون خلاقیت باید لذتبخش باشد. اما درسها ارزشی جدی دارند—از نمونهسازی سریع در طراحی و بازاریابی گرفته تا کمک به آموزش و امکانپذیر کردن شکلهای تازهای از بیان هنری. امیدوارم در پایان این کتاب نهتنها بفهمید مدلهای تبدیل متن به تصویر چگونه کار میکنند، بلکه با خیال راحت بتوانید آنها را گسترش دهید، تطبیق دهید و کاربردهای تازهٔ خودتان را تصور کنید.
دربارهٔ این کتاب
کتاب Build a Text-to-Image Generator (from Scratch) با یک اصل راهنما نوشته شده است: بهترین راه برای درک واقعی اینکه چیزی چگونه کار میکند، ساختن آن از پایه است. ساخت یک مولد متنبهتصویر (از صفر) این فلسفه را گرفته و آن را بر یکی از هیجانانگیزترین حوزههای امروز هوش مصنوعی—یعنی تولید تصویر از متن—اعمال میکند. بهجای آنکه سامانههای مدرن هوش مصنوعی را جعبهسیاههایی نفوذناپذیر در نظر بگیرد، کتاب Build a Text-to-Image Generator (from Scratch) شما را گامبهگام در مسیر ساخت مؤلفههای اصلیای که آنها را ممکن میسازند هدایت میکند: ترنسفورمرها، مدلهای بینایی، فرایندهای انتشار (دیفیوژن) و معماریهای چندوجهی. در پایان، نهتنها خواهید دانست چگونه از مدلهای پیشرفتهای مانند Stable Diffusion و DALL-E استفاده کنید، بلکه میتوانید نسخههای سادهشدهای از آنها را خودتان بازسازی کنید؛ مهارتهای عملی در کنار یک بنیان مفهومی عمیق.
چه کسانی باید این کتاب را بخوانند
کتاب Build a Text-to-Image Generator (from Scratch) برای توسعهدهندگان، پژوهشگران، دانشجویان و فعالان کنجکاوی نوشته شده است که میخواهند فراتر از صرفاً اجرای مدلهای ازپیشساختهٔ هوش مصنوعی بروند و بیاموزند این مدلها چگونه طراحی شدهاند. لازم است تسلط خوبی بر پایتون و آشنایی عملی با یادگیری ماشین—بهویژه شبکههای عصبی در PyTorch—داشته باشید. پیشزمینهای در مبانی یادگیری عمیق، مانند شبکههای کانولوشنی، امبدینگها و حلقههای آموزش، مفید است؛ هرچند کتاب هر مفهوم را در بستر خود معرفی میکند. اگر مهندسی هستید که میخواهید مهارتهای هوش مصنوعیتان را عمیقتر کنید، پژوهشگری که به یادگیری چندوجهی علاقهمند است، یا صرفاً علاقهمندی که بهترین شیوهٔ یادگیریاش کدنویسی است، این کتاب برای شماست.
ساختار کتاب: نقشهٔ راه
کتاب Build a Text-to-Image Generator (from Scratch) در پنج بخش سازماندهی شده است:
- بخش ۱: درک توجه و ترنسفورمرها — معرفی ترنسفورمرها، معماریای که پردازش زبان طبیعی و سپس بینایی ماشین را متحول کرد. ترنسفورمرها را از پایه میسازید و آنها را برای ترجمهٔ ماشینی (مثلاً آلمانی به انگلیسی)، طبقهبندی و کپشنگذاری تصویر به کار میبرید.

- بخش ۲: آشنایی با مدلهای دیفیوژن — توضیح میدهد مدلهای انتشار چگونه با حذف تدریجی نویز تصادفی به تصاویر منسجم میرسند. تولید تصویر مبتنی بر دیفیوژن را پیادهسازی میکنید و روشهایی برای کنترل و بهبود کیفیت تصاویر تولیدشده را بررسی میکنید.
- بخش ۳: تولید متنبهتصویر با مدلهای دیفیوژن — تمرکز بر یادگیری چندوجهی. برای سنجش شباهت متن–تصویر، پیشآموزش متضاد زبان–تصویر (CLIP) را آموزش داده و آزمایش میکنید، دیفیوژن نهفته را پیادهسازی میکنید و بهصورت عمیق معماری Stable Diffusion را بررسی میکنید.

- بخش ۴: تولید متنبهتصویر با ترنسفورمرها — نشان میدهد چگونه با رویکردهای مبتنی بر ترنسفورمر تصویر تولید کنیم. با شبکهٔ مولد رقابتیِ کمّیسازی برداری (VQGAN) برای تبدیل تصاویر به توکنهای گسسته آشنا میشوید و یک پیادهسازی حداقلی از DALL-E میسازید.
- بخش ۵: تحولات و چالشهای جدید — فصل پایانی به پیشرفتهای اخیر و چالشهای باز در تولید متنبهتصویر میپردازد؛ از مسائل کپیرایت و دغدغههای اخلاقی گرفته تا مسیرهای پژوهشی آینده. نیمهٔ دوم فصل یک راهنمای عملی ارائه میدهد برای فاینتیون کردن ResNet50 بهمنظور تشخیص تصاویر واقعی از دیپفیکها.

در طول مسیر، پروژههای عملی انجام میدهید—مانند تولید «پاندایی با کلاه سیلندر که کتاب میخواند» یا «موزی که سوار موتورسیکلت است»—تا ایدههای انتزاعی هم جذاب شوند و هم ملموس.
سرفصلهای کتاب Build a Text-to-Image Generator (from Scratch):
- Build a Text-to-Image Generator (from Scratch)
- brief contents
- contents
- preface
- acknowledgments
- about this book
- about the author
- about the cover illustration
- Part 1 Understanding attention
- 1 A tale of two models: Transformers and diffusions
- 2 Build a transformer
- 3 Classify images with a vision transformer
- 4 Add captions to images
- Part 2 Introduction to diffusion models
- 5 Generate images with diffusion models
- 6 Control what images to generate in diffusion models
- 7 Generate high-resolution images with diffusion models
- Part 3 Text-to-image generation with diffusion models
- 8 CLIP: A model to measure the similarity between image and text
- 9 Text-to-image generation with latent diffusion
- 10 A deep dive into Stable Diffusion
- Part 4 Text-to-image generation with transformers
- 11 VQGAN: Convert images into sequences of integers
- 12 A minimal implementation of DALL-E
- Part 5 New developments and challenges
- 13 New developments and challenges in text-to-image generation
- Appendix A Installing PyTorch and enabling GPU training locally and in Colab
- references
- index
جهت دانلود کتاب Build a Text-to-Image Generator (from Scratch) میتوانید پس از پرداخت، دریافت کنید.

دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.