کتاب Hands-On LLM Serving and Optimization: Hosting LLMs at Scale 1st Edition (کتاب راهنمای عملی خدمات‌رسانی و بهینه‌سازی مدل‌های زبانی بزرگ (LLM): میزبانی مدلهای LLM در مقیاس بزرگ، ویرایش اول) نوشته‌ی «چی وانگ» و «پی‌هنگ هو» یک راهنمای کاربردی و جامع برای مهندسان و متخصصان زیرساخت است که به چالش‌های استقرار و بهینه‌سازی مدل‌های زبانی بزرگ (LLM) در مقیاس وسیع می‌پردازد.
در ادامه مقدمه‌ای از کتاب Hands-On LLM Serving and Optimization را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Hands-On LLM Serving and Optimization:

مدل‌های زبانی بزرگ (LLM) در مدتی کوتاه و شگفت‌انگیز — درست مانند انقلاب اینترنت — از کنجکاوی‌های تحقیقاتی به زیرساخت حیاتی تولید تبدیل شده‌اند. جهانی مبتنی بر عامل‌ها (agentic) در راه است، و از بسیاری جهات، از هم‌اکنون نیز وجود دارد: موج جدیدی از «توکن‌سازی» که در آن برنامه‌های کاربردی بیشتری بر روی زیرساخت LLM ساخته می‌شوند تا بر روی APIها و خدمات سنتی.

در عرض تنها چند سال، عبارت «فقط با API تماس بگیرید» از ارائه‌دهندگان عمومی LLM مانند OpenAI به «ما به مدل‌های خود نیاز داریم» و سپس به «باید این مدل‌ها را به‌طور کارآمد، ایمن و در مقیاس بزرگ اجرا کنیم» تبدیل شده است. کسب‌وکارها اکنون به کنترل بسیار بیشتری بر روی LLMهای خود نیاز دارند — برای حاکمیت داده، عیب‌یابی، ارزیابی، انطباق با مقررات و مدیریت هزینه. بسیاری از تیم‌ها دریافته‌اند که سخت‌ترین بخش هوش مصنوعی مولد (GenAI) آموزش یک مدل یا راه‌اندازی یک رابط چت نیست — بلکه همه چیز در بین این دو مرحله است: راه‌اندازی سرویس‌دهی و بهینه‌سازی مدل که بتواند اهداف تجاری را با هزینه‌ای قابل قبول برآورده کند.

ما از نزدیک شاهد این شکاف بوده‌ایم. دیده‌ایم که نمونه‌های اولیه درخشان زیر بار ترافیک واقعی فرو می‌ریزند یا بودجه پردازنده گرافیکی (GPU) را در یک هفته به پایان می‌رسانند. دیده‌ایم سازمان‌هایی که مشتاق بازسازی موارد استفاده کلیدی برای LLMها هستند، اما نگرانی‌هایی درباره هزینه‌های API عمومی و امنیت داده‌ها دارند. دیده‌ایم تیم‌هایی که می‌خواهند LLMها را عمیقاً در محصولات اصلی خود جاسازی کنند، اما از پیچیدگی کار احساس ترس می‌کنند: چطور درباره تأخیر (latency)، توان عملیاتی (throughput) و هزینه استدلال کنیم، یا چگونه بین فروشندگان عمومی، کتابخانه‌های سرویس‌دهی مدل، نقاط پایانی ابری یا سرویس خودمدیریت دیگری یکی را انتخاب کنیم.

در عین حال، دانش مربوط به سرویس‌دهی و بهینه‌سازی LLM در سراسر پست‌های وبلاگ، مقالات تحقیقاتی، مستندات فریم‌ورک‌ها و داستان‌های غیررسمی تولید پراکنده شده است. این حوزه به‌طور هفتگی یا ماهانه تکامل می‌یابد؛ همگام ماندن با آن دشوار است، و دانستن اینکه از کجا شروع کرد سخت‌تر است. چیزی که کم است، یک بنیان سیستماتیک است: یک منبع عملی و سرتاسری که به شما کمک کند ایده‌های اصلی را درک کنید تا بتوانید با تغییر اکوسیستم، به کاوش ادامه دهید.

این کتابی است که ما تصمیم به نوشتن آن گرفتیم.

چرا سرویس‌دهی و بهینه‌سازی LLM؟

از فاصله دور، سرویس‌دهی LLM می‌تواند شبیه به گام بعدی پس از استقرار یادگیری ماشین کلاسیک به نظر برسد. اما در عمل، LLMها موجوداتی غیرعادی هستند. آنها یک مشکل اساساً متفاوت با فیزیک جدید، اقتصاد جدید و مسائل جدید ایجاد می‌کنند — و به همین دلیل است که شایسته رشته تخصصی خود هستند.

مدل‌های یادگیری ماشین سنتی معمولاً بدون حالت (stateless)، محدود و قابل پیش‌بینی هستند. شما یک ورودی می‌فرستید، یک گراف محاسباتی ثابت اجرا می‌شود و نتیجه می‌گیرید. تأخیر پایدار است، نیازهای حافظه مشخص است و مقیاس‌دهی معمولاً فقط به معنای افزودن کپی‌های بیشتر است.

LLMها از هر جهت معناداری متفاوت هستند. آنها خودرگرسیون (autoregressive) و دارای حالت هستند، توکن‌ها را گام به گام تولید می‌کنند و در عین حال حافظه‌ای رو به رشد از مکالمه را حفظ می‌نمایند. آنها در مراحل متمایز پیش‌پردازش (prefill) و رمزگشایی (decode) عمل می‌کنند که سخت‌افزار را به طور متفاوتی تحت فشار قرار می‌دهند و حافظه و پهنای باند عظیم GPU را مطالبه می‌کنند. عملکرد دیگر «اینکه مدل یک بار چقدر سریع اجرا می‌شود» نیست، بلکه این است که چگونه هزاران مکالمه با طول متغیر را به طور موازی زمان‌بندی می‌کنید بدون آنکه انتظارات تأخیر را بشکنید.

میزان استفاده نیز متفاوت است. رتبه‌بندی، طبقه‌بندی یا امتیازدهی ریسک مبتنی بر یادگیری ماشین کلاسیک اغلب از تصمیم‌گیری‌های پس‌زمینه پشتیبانی می‌کند. اما LLMها مستقیماً درون تجارب کاربری تعاملی قرار می‌گیرند: دستیارهای مکالمه‌محور، سیستم‌های استدلال، خطوط لوله تولید با بازیابی اطلاعات (RAG)، و عامل‌های خودمختار. تأخیر برای کاربران قابل مشاهده است. پخش جریانی (streaming) اختیاری نیست. قابلیت اطمینان، اعتماد را تعریف می‌کند. سرویس‌دهی دیگر زیرساخت پشت یک محصول نیست؛ بلکه خود تجربه محصول است.

تأثیر تجاری نیز به همان نسبت بیشتر است. وقتی یک سیستم LLM کند می‌شود، از کار می‌افتد یا غیرقابل پیش‌بینی رفتار می‌کند، کل گردش‌های کاری متوقف می‌شوند. عامل‌ها از اقدام بازمی‌ایستند، کارمندان اعتماد خود را از دست می‌دهند و مشتریان می‌روند. دقت، نرده‌های محافظتی و قابلیت مشاهده (observability) مسائل آکادمیک نیستند — آنها دغدغه‌های عملیاتی، مالی و گاهی قانونی هستند.

و سپس هزینه مطرح است. در یادگیری ماشین کلاسیک، استنتاج معمولاً ارزان است و در بسیاری از موارد اصلاً نیازی به GPU نیست. با LLMها، استنتاج هزینه غالب است. حافظه GPU به یک دارایی استراتژیک تبدیل می‌شود. زمان‌بندی ناکارآمد مستقیماً به هدررفت پول ترجمه می‌شود. رویکردهای صرفاً مبتنی بر API در مقیاس بزرگ گران می‌شوند، با این حال بسیاری از تیم‌ها از میزبانی خود (self-hosting) هراس دارند زیرا نمی‌دانند چگونه توان عملیاتی، تأخیر و هزینه را متعادل کنند.

در نهایت، الگوهای خود سرویس‌دهی نیز جدید هستند. دسته‌بندی پیوسته (continuous batching)، زمان‌بندهای توکن، مدیریت حافظه نهان کلید-مقدار (KV cache)، استراتژی‌های کمّی‌سازی (quantization)، مسیریابی مدل، و خطوط لوله ترکیبی بازیابی، استدلال و اجرای ابزارها به سادگی در نسل‌های قبلی سیستم‌های یادگیری ماشین وجود نداشتند. تیم‌ها اغلب می‌دانند چه چیزی می‌خواهند بسازند، اما نه اینکه چگونه آن را به خوبی بسازند.

به همین دلیل است که سرویس‌دهی و بهینه‌سازی LLM نیازمند برخوردی متمرکز هستند. اگر در حال ساختن سیستم‌های واقعی هستید، به چیزی بیش از آشنایی با API نیاز دارید. شما به یک بنیان برای درک عملکرد، معماری، قابلیت اطمینان و مبادلات هزینه نیاز دارید تا بتوانید سیستم‌های مبتنی بر LLM را با اطمینان طراحی، بهره‌برداری و تکامل دهید.

هدف این کتاب چیست؟

کتاب Hands-On LLM Serving and Optimization با هدف پر کردن شکافی حیاتی در اکوسیستم هوش مصنوعی مولد نوشته شده است: حرکت از داشتن یک LLM به اجرای کارآمد، قابل اعتماد و مقرون‌به‌صرفه LLMها در سیستم‌های واقعی.

هدف ما این است که بنیانی روشن برای موارد زیر به شما ارائه دهیم:

درک اینکه سرویس‌دهی مدل واقعاً چیست و چرا LLMها مسئله سرویس‌دهی را اساساً تغییر می‌دهند
مشاهده نحوه اجرای LLM (توجه، پیش‌پردازش، رمزگشایی) و اینکه چگونه این مکانیک‌ها بر تأخیر، توان عملیاتی و هزینه تأثیر می‌گذارند
ساختن سیستم‌های سرویس‌دهی از صفر تا معماری، حافظه نهان و زمان‌بندی آنها و مبادلات پشت فریم‌ورک‌ها را درک کنید
اندازه‌گیری صحیح عملکرد و تصمیم‌گیری مهندسی آگاهانه به جای حدس و گمان
به کارگیری تکنیک‌های اصلی بهینه‌سازی — از دسته‌بندی، کمّی‌سازی و ادغام هسته (kernel fusion) تا دسته‌بندی پیوسته، حافظه نهان پیشوند (prefix caching) و رمزگشایی تأملی (speculative decoding)
انتخاب و استفاده هوشمندانه از فریم‌ورک‌های مدرن سرویس‌دهی LLM به جای جعبه سیاه فرض کردن آنها
ارتباط دادن سرویس‌دهی با بارهای کاری واقعی: سیستم‌های چت، خطوط لوله RAG، عامل‌ها، استقرارهای سازمانی، و معماری‌های ابری یا خودمیزبانی

اگر شما مسئول کارکرد واقعی سیستم‌های مبتنی بر LLM هستید — در محیط تولید، در مقیاس بزرگ و در چارچوب بودجه — این کتاب به عنوان راهنمای عملی شما در نظر گرفته شده است.

کتاب Hands-On LLM Serving and Optimization برای چه کسانی است؟

این کتاب برای متخصصانی است که باید فراتر از نمونه‌های نمایشی رفته و سیستم‌های مبتنی بر LLM را به طور قابل اعتماد، کارآمد و در مقیاس بزرگ به کار گیرند. احتمالاً عضو یکی یا چند گروه زیر هستید:

مهندسان و محققان یادگیری ماشین/هوش مصنوعی که مدل‌های LLM را آموزش داده یا تنظیم دقیق (fine-tune) کرده‌اند و اکنون نیاز به سرویس‌دهی کارآمد آنها به کاربران واقعی دارند
مهندسان بک‌اند و پلتفرم که ناگهان «مالک سرویس LLM» می‌شوند، چه در محل (on-premises)، چه در ابر و چه در محیط‌های ترکیبی
مهندسان داده و MLOps که نیاز به گسترش پلتفرم‌های یادگیری ماشین موجود برای پشتیبانی از بارهای کاری LLM، عامل‌ها و RAG دارند
رهبران فنی و معمارانی که مسئول انتخاب معماری‌ها، فریم‌ورک‌ها و استراتژی‌های GPU و ارزیابی مبادلات بین ابر و میزبانی شخصی هستند
بنیان‌گذاران استارتاپ و سازندگان کسب‌وکارهای کوچک که پلتفرم‌های عامل یا محصولات هوش مصنوعی توسعه می‌دهند و نیاز به کاهش هزینه‌های میزبانی، بهبود قابلیت اطمینان و بازگرداندن کنترل بر عملکرد و هزینه دارند
دانشجویان و مهندسان نوظهوری که مبانی LLM را درک می‌کنند و می‌خواهند یاد بگیرند که سیستم‌های تولید واقعی چگونه طراحی، بهینه‌سازی و بهره‌برداری می‌شوند

ما فرض می‌کنیم که در خواندن پایتون راحت هستید، با مفاهیم پایه یادگیری عمیق آشنایی دارید و حداقل درک گذرایی از ترنسفورمرها و LLMها دارید. نیازی به متخصص هسته GPU یا محقق سیستم‌های توزیع شده نیست، اما باید آماده کار با معیارهای عملکرد، نمودارهای معماری و طراحی عملی سیستم باشید.

کتاب Hands-On LLM Serving and Optimization چه چیزی نیست؟

این کتاب موارد زیر نیست:

یک مقدمه عمومی برای یادگیری ماشین یا یادگیری عمیق
یک مرور کلی گسترده از «هوش مصنوعی مولد چیست؟» یا «LLMها چه کاری می‌توانند انجام دهند؟»
فهرستی از همه محصولات یا فریم‌ورک‌های LLM موجود در بازار
یک بررسی رسمی از تحقیقات در مورد همه الگوریتم‌های بهینه‌سازی ممکن

ما به طور متمرکز بر روی سرویس‌دهی و بهینه‌سازی LLMها در سیستم‌های واقعی تمرکز می‌کنیم. در جایی که دانش زمینه‌ای لازم است — برای مثال، برای درک مفاهیمی مانند توجه، حافظه نهان KV یا کمّی‌سازی — آن را به اندازه‌ای توضیح می‌دهیم که به تصمیمات سرویس‌دهی و بهینه‌سازی مرتبط شود.

اگر در یادگیری ماشین یا ترنسفورمرها تازه‌کار هستید، شما را تشویق می‌کنیم که این کتاب را با یک مقدمه عمومی‌تر در مورد یادگیری عمیق یا LLMها همراه کنید، مانند کتاب Hands-On Large Learning Models نوشته جی آلامار و مارتن گروتندورست (O’Reilly، ۲۰۲۴)، و با این کتاب به عنوان همراهی برای سرویس‌دهی و سیستم‌ها رفتار کنید.

ساختار کتاب Hands-On LLM Serving and Optimization

این کتاب از مبانی به سمت ساختن سیستم‌ها، بهینه‌سازی و در نهایت فریم‌ورک‌ها، راهنمایی عملی و جهت‌گیری‌های آینده پیش می‌رود.

فصل ۱ کتاب Hands-On LLM Serving and Optimization مقدمه‌ای بر سرویس‌دهی و بهینه‌سازی مدل است. توضیح می‌دهد که مدل و سرویس‌دهی مدل چیست، شیوه‌های صنعتی را مرور می‌کند و اهمیت بهینه‌سازی سرویس‌دهی LLM را بحث می‌کند.
فصل ۲ کتاب Hands-On LLM Serving and Optimization به طور خاص بر سرویس‌دهی LLM تمرکز می‌کند، موارد استفاده رایج، مکانیک‌های اجرا (توجه، پیش‌پردازش و رمزگشایی) و معیارهای اصلی سرویس‌دهی را با پشتیبانی مثال‌های کد توضیح می‌دهد.
فصل ۳ کتاب Hands-On LLM Serving and Optimization به شما می‌آموزد که چگونه سیستم‌های سرویس‌دهی LLM را از صفر طراحی و پیاده‌سازی کنید، از جمله معماری‌های سرویس‌دهی تک‌مدله و چندمدله.

فصل ۴ کتاب Hands-On LLM Serving and Optimization به بهترین شیوه‌های سرویس‌دهی LLM می‌پردازد، از جمله خطوط لوله عامل و RAG، معماری‌های سرویس‌دهی سازمانی، استراتژی‌های میزبانی (خرید سرویس، میزبانی شخصی یا استفاده از پلتفرم‌های فروشنده)، و اندازه‌گیری عملکرد.
فصل ۵ کتاب Hands-On LLM Serving and Optimization چالش‌های اصلی در سرویس‌دهی LLM و اینکه چرا از رفتار مدل، محدودیت‌های سخت‌افزاری و ویژگی‌های بار کاری ناشی می‌شوند را توضیح می‌دهد.
فصل ۶ کتاب Hands-On LLM Serving and Optimization روش‌های بهینه‌سازی ضروری با کاربرد گسترده مانند دسته‌بندی پیوسته، کمّی‌سازی، ادغام هسته، و حافظه نهان پیشوند پرامپت را با مثال‌های عملی معرفی می‌کند.
فصل ۷ کتاب Hands-On LLM Serving and Optimization بر تکنیک‌های پیشرفته بهینه‌سازی LLM مانند رمزگشایی تأملی، موازی‌سازی چند GPU، جداسازی پیش‌پردازش-رمزگشایی (prefill-decode disaggregation) و مدیریت پیشرفته حافظه نهان KV تمرکز دارد.

فصل ۸ کتاب Hands-On LLM Serving and Optimization توضیح می‌دهد که چرا فریم‌ورک‌های تخصصی سرویس‌دهی LLM وجود دارند و گزینه‌های برتر امروزی را بررسی می‌کند، از جمله vLLM، TensorRT-LLM، SGLang و llama.cpp، و راهنمایی برای انتخاب فریم‌ورک مناسب برای بار کاری شما ارائه می‌دهد.
فصل ۹ کتاب Hands-On LLM Serving and Optimization شما را در یک پروژه بهینه‌سازی سرتاسری LLM راهنمایی می‌کند و به شما کمک می‌کند تا بینش عملی برای به کارگیری تکنیک‌های بهینه‌سازی در موارد استفاده خود بسازید.
فصل ۱۰ کتاب Hands-On LLM Serving and Optimization به جهت‌گیری‌های نوظهور مانند مسیریابی معنایی آگاهانه، سرویس‌دهی چند-LoRA در مقیاس بزرگ، سرویس‌دهی چندوجهی، ادغام یادگیری تقویتی و استقرار هوش مصنوعی در لبه (edge AI) می‌پردازد.

نحوه استفاده از کتاب Hands-On LLM Serving and Optimization

می‌توانید این کتاب را از ابتدا تا انتها بخوانید، اما همچنین برای استفاده گزینشی طراحی شده است:

اگر می‌خواهید پایه‌ای محکم در مفاهیم سرویس‌دهی مدل و نحوه عملکرد سرویس‌دهی LLM داشته باشید، با فصل‌های ۱ و ۲ شروع کنید.
اگر می‌خواهید سیستم‌های سرویس‌دهی LLM واقعی را طراحی، بسازید و بهره‌برداری کنید، فصل‌های ۳ و ۴ کتاب Hands-On LLM Serving and Optimization را بخوانید.
اگر تمرکز شما بر عملکرد، مقیاس‌پذیری و بهینه‌سازی هزینه LLM است، از فصل‌های ۵ تا ۷ استفاده کنید.
برای درک فریم‌ورک‌ها و انتخاب فریم‌ورک مناسب به فصل ۸ مراجعه کنید.
برای بهینه‌سازی کاربردی سرتاسری و جهت‌گیری‌های آینده به فصل‌های ۹ و ۱۰ کتاب Hands-On LLM Serving and Optimization مراجعه کنید.

همچنین می‌توانید تمام تمرین‌های فصل و کدهای نمونه را در مخزن GitHub کتاب Hands-On LLM Serving and Optimization پیدا کنید.

از هر نقطه‌ای که شروع می‌کنید، کتاب مثال‌های قابل اجرا، راهنمایی عملی و درس‌هایی از سیستم‌های واقعی ارائه می‌دهد تا به شما کمک کند سرویس‌دهی LLM را با اطمینان بسازید و بهبود دهید.

آنچه نیاز دارید

برای بهره‌مندی بیشتر از بخش‌های عملی کتاب Hands-On LLM Serving and Optimization، موارد زیر را نیاز دارید:

دسترسی به حداقل یک GPU (ابری یا در محل) که قادر به اجرای مدل‌های کوچک تا متوسط LLM باشد (Google Colab گزینه خوبی است)
آشنایی با پایتون و ابزارهای خط فرمان پایه
راحتی با نصب و پیکربندی فریم‌ورک‌های سرویس‌دهی منبع باز، مانند vLLM و NVIDIA Triton
تمایل به آزمایش: برای مثال، تغییر اندازه دسته‌ها، اندازه مدل‌ها، طول توالی‌ها و زمان‌بندی‌ها، و سپس اندازه‌گیری تفاوت‌ها

اگر دسترسی مستقیم به GPU ندارید، همچنان می‌توانید از بحث‌های مفهومی و معماری، نتایج آزمایش‌های از پیش اجرا شده ما و بینش ما در مورد چگونگی انجام مبادلات در سیستم‌های سرویس‌دهی LLM واقعی بهره‌مند شوید.

در نهایت، امید ما این است که این کتاب به شما کمک کند از «ما یک نقطه پایانی LLM داریم» به «ما یک سیستم سرویس‌دهی LLM مقاوم، کارآمد و قابل درک داریم» حرکت کنید — سیستمی که بتوانید درباره آن استدلال، اشکال‌زدایی و تکامل دهید، همان‌طور که چشم‌انداز هوش مصنوعی مولد به تغییر خود ادامه می‌دهد.

ما مشتاق دیدن آنچه شما می‌سازید هستیم.

سرفصل‌های کتاب Hands-On LLM Serving and Optimization:

Preface
1. Introduction to Model Serving and Optimization
2. Large Language Model Serving
3. Model Serving System Design: A Deep Dive
4. Model Serving Best Practices
5. Challenges When Serving LLMs
6. Essential LLM Optimization Techniques
7. Advanced LLM Optimization Techniques
8. LLM Serving Frameworks
9. LLM Optimization in Practice
10. Advancements in LLM Serving
Index
About the Authors

جهت دانلود کتاب Hands-On LLM Serving and Optimization می‌توانید پس از پرداخت، دریافت کنید.

ASIN	B0G48JRRMF
فرمت کتاب	epub
ویرایش	First
ISBN	979-8-341-62149-7
تعداد صفحات	371
انتشارات	O'Reilly Media
سال انتشار	2026
حجم	10.83 مگابایت
نویسنده	Chi Wang, Peiheng Hu

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Hands-On LLM Serving and Optimization”

کتاب Hands-On LLM Serving and Optimization

خرید کتاب Hands-On LLM Serving and Optimization:

مقدمه‌ای بر کتاب Hands-On LLM Serving and Optimization:

دیدگاهها

خرید کتاب Hands-On LLM Serving and Optimization:

دسته‌یندی کتاب‌ها:

شاید علاقه داشته باشید...

کتاب Pro Oracle GoldenGate 23ai for the DBA

کتاب AI-Native LLM Security

کتاب Privacy and Security for Large Language Models

کتاب Building Natural Language and LLM Pipelines

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: