کتاب Build a Text-to-Image Generator (from Scratch) (ساخت یک مولد متن‌به‌تصویر (از صفر)) به‌صورت گام‌به‌گام توضیح می‌دهد که چگونه می‌توان از پایه یک سیستم هوش مصنوعی ساخت که توضیحات متنی را به تصویر تبدیل کند. تمرکز کتاب بر درک مفاهیم اصلی یادگیری عمیق است، از جمله نمایش متن (مانند embeddingها)، مدل‌های مولد، شبکه‌های عصبی کانولوشنی و ترنسفورمرها، و به‌ویژه مدل‌های diffusion که هسته بسیاری از مولدهای تصویر مدرن هستند.

در ادامه مقدمه‌ای از کتاب Build a Text-to-Image Generator (from Scratch) را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Build a Text-to-Image Generator (from Scratch):

این کتاب با کنجکاوی من دربارهٔ این‌که چگونه ماشین‌ها می‌توانند تنها از روی کلمات تصویر بسازند آغاز می‌شود. وقتی برای نخستین‌بار با DALL-E و Stable Diffusion روبه‌رو شدم، نتایج جادویی به نظر می‌رسیدند: یک پرامپت می‌نوشتی و تصویری واقعی و زنده بیرون می‌آمد که کاملاً با توصیف مطابقت داشت. اما پشت این جادو، ریاضیات، کد و زنجیره‌ای طولانی از ایده‌ها در یادگیری ماشین قرار داشت. می‌خواستم این ایده‌ها را رمزگشایی کنم؛ نه فقط برای خودم، بلکه برای هر کسی که بهترین شیوهٔ یادگیری‌اش ساختن چیزها از پایه است.

هوش مصنوعی مولد با سرعتی پیش می‌رود که کمتر کسی می‌توانست پیش‌بینی کند و نه‌تنها شیوهٔ کار ما، بلکه نحوهٔ خلق، طراحی و ارتباط برقرار کردن‌مان را نیز دگرگون می‌سازد. به‌ویژه مدل‌های تبدیل متن به تصویر از برجسته‌ترین و تحول‌آفرین‌ترین این فناوری‌ها هستند. آن‌ها نماد جهش از هوش مصنوعی تک‌وجهی به چندوجهی‌اند؛ سامانه‌هایی که میان انواع مختلف داده استدلال می‌کنند. در حالی که تیتر خبرها بر خروجی‌های شگفت‌انگیز آن‌ها تمرکز داشت، ذهن من درگیر این پرسش بود: واقعاً چگونه کار می‌کنند؟ به این نتیجه رسیدم که تنها پاسخ رضایت‌بخش این است که خودم یکی بسازم.

کتاب Build a Text-to-Image Generator (from Scratch) حاصل آن مسیر است. نه مجموعه‌ای از توضیحات سطح‌بالا یا نمایش‌های جعبه‌سیاه، بلکه راهنمایی عملی برای بازآفرینی بلوک‌های سازندهٔ بنیادی تولید تصویر از متن: ترنسفورمرها، مدل‌های بینایی، فرایندهای انتشار (دیفیوژن) و بازنمایی‌های نهفته. با بازسازی گام‌به‌گام این سامانه‌ها، خوانندگانی مانند شما درک عمیق‌تری از هم توانمندی‌ها و هم محدودیت‌های آن‌ها به دست می‌آورید. همان‌طور که ریچارد فاینمن زمانی گفت: «آنچه را نتوانم خلق کنم، نمی‌فهمم.» این روحیه راهنمای هر فصل است.

نوشتن این کتاب همچنین از تمایل من برای پل زدن میان دو جامعه برمی‌آمد: پژوهشگران یادگیری ماشین که مرزهای مدل‌های مولد را پیش می‌برند و توسعه‌دهندگان، طراحان و علاقه‌مندانی که مشتاق به‌کارگیری این ابزارها هستند اما نمی‌دانند از کجا شروع کنند. امید من این است که با کار کردن روی کد، آزمایش‌ها و پروژه‌ها ببینید این مدل‌ها جعبه‌سیاه‌های نفوذناپذیر نیستند، بلکه سامانه‌هایی دسترس‌پذیرند که از اجزای قابل‌فهم ساخته شده‌اند.

نمونه‌های این کتاب عمداً بازیگوشانه‌اند (پانداهایی با کلاه سیلندر، موزهایی سوار بر موتورسیکلت)، چون خلاقیت باید لذت‌بخش باشد. اما درس‌ها ارزشی جدی دارند—از نمونه‌سازی سریع در طراحی و بازاریابی گرفته تا کمک به آموزش و امکان‌پذیر کردن شکل‌های تازه‌ای از بیان هنری. امیدوارم در پایان این کتاب نه‌تنها بفهمید مدل‌های تبدیل متن به تصویر چگونه کار می‌کنند، بلکه با خیال راحت بتوانید آن‌ها را گسترش دهید، تطبیق دهید و کاربردهای تازهٔ خودتان را تصور کنید.

دربارهٔ این کتاب

کتاب Build a Text-to-Image Generator (from Scratch) با یک اصل راهنما نوشته شده است: بهترین راه برای درک واقعی این‌که چیزی چگونه کار می‌کند، ساختن آن از پایه است. ساخت یک مولد متن‌به‌تصویر (از صفر) این فلسفه را گرفته و آن را بر یکی از هیجان‌انگیزترین حوزه‌های امروز هوش مصنوعی—یعنی تولید تصویر از متن—اعمال می‌کند. به‌جای آن‌که سامانه‌های مدرن هوش مصنوعی را جعبه‌سیاه‌هایی نفوذناپذیر در نظر بگیرد، کتاب Build a Text-to-Image Generator (from Scratch) شما را گام‌به‌گام در مسیر ساخت مؤلفه‌های اصلی‌ای که آن‌ها را ممکن می‌سازند هدایت می‌کند: ترنسفورمرها، مدل‌های بینایی، فرایندهای انتشار (دیفیوژن) و معماری‌های چندوجهی. در پایان، نه‌تنها خواهید دانست چگونه از مدل‌های پیشرفته‌ای مانند Stable Diffusion و DALL-E استفاده کنید، بلکه می‌توانید نسخه‌های ساده‌شده‌ای از آن‌ها را خودتان بازسازی کنید؛ مهارت‌های عملی در کنار یک بنیان مفهومی عمیق.

چه کسانی باید این کتاب را بخوانند

کتاب Build a Text-to-Image Generator (from Scratch) برای توسعه‌دهندگان، پژوهشگران، دانشجویان و فعالان کنجکاوی نوشته شده است که می‌خواهند فراتر از صرفاً اجرای مدل‌های ازپیش‌ساختهٔ هوش مصنوعی بروند و بیاموزند این مدل‌ها چگونه طراحی شده‌اند. لازم است تسلط خوبی بر پایتون و آشنایی عملی با یادگیری ماشین—به‌ویژه شبکه‌های عصبی در PyTorch—داشته باشید. پیش‌زمینه‌ای در مبانی یادگیری عمیق، مانند شبکه‌های کانولوشنی، امبدینگ‌ها و حلقه‌های آموزش، مفید است؛ هرچند کتاب هر مفهوم را در بستر خود معرفی می‌کند. اگر مهندسی هستید که می‌خواهید مهارت‌های هوش مصنوعی‌تان را عمیق‌تر کنید، پژوهشگری که به یادگیری چندوجهی علاقه‌مند است، یا صرفاً علاقه‌مندی که بهترین شیوهٔ یادگیری‌اش کدنویسی است، این کتاب برای شماست.

ساختار کتاب: نقشهٔ راه

کتاب Build a Text-to-Image Generator (from Scratch) در پنج بخش سازمان‌دهی شده است:

بخش ۱: درک توجه و ترنسفورمرها — معرفی ترنسفورمرها، معماری‌ای که پردازش زبان طبیعی و سپس بینایی ماشین را متحول کرد. ترنسفورمرها را از پایه می‌سازید و آن‌ها را برای ترجمهٔ ماشینی (مثلاً آلمانی به انگلیسی)، طبقه‌بندی و کپشن‌گذاری تصویر به کار می‌برید.

بخش ۲: آشنایی با مدل‌های دیفیوژن — توضیح می‌دهد مدل‌های انتشار چگونه با حذف تدریجی نویز تصادفی به تصاویر منسجم می‌رسند. تولید تصویر مبتنی بر دیفیوژن را پیاده‌سازی می‌کنید و روش‌هایی برای کنترل و بهبود کیفیت تصاویر تولیدشده را بررسی می‌کنید.
بخش ۳: تولید متن‌به‌تصویر با مدل‌های دیفیوژن — تمرکز بر یادگیری چندوجهی. برای سنجش شباهت متن–تصویر، پیش‌آموزش متضاد زبان–تصویر (CLIP) را آموزش داده و آزمایش می‌کنید، دیفیوژن نهفته را پیاده‌سازی می‌کنید و به‌صورت عمیق معماری Stable Diffusion را بررسی می‌کنید.

بخش ۴: تولید متن‌به‌تصویر با ترنسفورمرها — نشان می‌دهد چگونه با رویکردهای مبتنی بر ترنسفورمر تصویر تولید کنیم. با شبکهٔ مولد رقابتیِ کمّی‌سازی برداری (VQGAN) برای تبدیل تصاویر به توکن‌های گسسته آشنا می‌شوید و یک پیاده‌سازی حداقلی از DALL-E می‌سازید.
بخش ۵: تحولات و چالش‌های جدید — فصل پایانی به پیشرفت‌های اخیر و چالش‌های باز در تولید متن‌به‌تصویر می‌پردازد؛ از مسائل کپی‌رایت و دغدغه‌های اخلاقی گرفته تا مسیرهای پژوهشی آینده. نیمهٔ دوم فصل یک راهنمای عملی ارائه می‌دهد برای فاین‌تیون کردن ResNet50 به‌منظور تشخیص تصاویر واقعی از دیپ‌فیک‌ها.

در طول مسیر، پروژه‌های عملی انجام می‌دهید—مانند تولید «پاندایی با کلاه سیلندر که کتاب می‌خواند» یا «موزی که سوار موتورسیکلت است»—تا ایده‌های انتزاعی هم جذاب شوند و هم ملموس.

سرفصل‌های کتاب Build a Text-to-Image Generator (from Scratch):

Build a Text-to-Image Generator (from Scratch)
brief contents
contents
preface
acknowledgments
about this book
about the author
about the cover illustration
Part 1 Understanding attention
- 1 A tale of two models: Transformers and diffusions
- 2 Build a transformer
- 3 Classify images with a vision transformer
- 4 Add captions to images
Part 2 Introduction to diffusion models
- 5 Generate images with diffusion models
- 6 Control what images to generate in diffusion models
- 7 Generate high-resolution images with diffusion models
Part 3 Text-to-image generation with diffusion models
- 8 CLIP: A model to measure the similarity between image and text
- 9 Text-to-image generation with latent diffusion
- 10 A deep dive into Stable Diffusion
Part 4 Text-to-image generation with transformers
- 11 VQGAN: Convert images into sequences of integers
- 12 A minimal implementation of DALL-E
Part 5 New developments and challenges
- 13 New developments and challenges in text-to-image generation
Appendix A Installing PyTorch and enabling GPU training locally and in Colab
references
index

جهت دانلود کتاب Build a Text-to-Image Generator (from Scratch) می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	PDF
ویرایش	First
ASIN	B0FSS4LNTF
ISBN	9781633435421
تعداد صفحات	362
انتشارات	Manning
سال انتشار	2026
حجم	21.43 مگابایت, 34.73 مگابایت
نویسنده	Mark Liu

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Build a Text-to-Image Generator (from Scratch)”

کتاب Build a Text-to-Image Generator (from Scratch)

خرید کتاب Build a Text-to-Image Generator (from Scratch):

مقدمه‌ای بر کتاب Build a Text-to-Image Generator (from Scratch):

دیدگاهها

خرید کتاب Build a Text-to-Image Generator (from Scratch):

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: