کتاب Hands-On LLM Serving and Optimization: Hosting LLMs at Scale 1st Edition (کتاب راهنمای عملی خدماترسانی و بهینهسازی مدلهای زبانی بزرگ (LLM): میزبانی مدلهای LLM در مقیاس بزرگ، ویرایش اول) نوشتهی «چی وانگ» و «پیهنگ هو» یک راهنمای کاربردی و جامع برای مهندسان و متخصصان زیرساخت است که به چالشهای استقرار و بهینهسازی مدلهای زبانی بزرگ (LLM) در مقیاس وسیع میپردازد.
در ادامه مقدمهای از کتاب Hands-On LLM Serving and Optimization را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Hands-On LLM Serving and Optimization:
مدلهای زبانی بزرگ (LLM) در مدتی کوتاه و شگفتانگیز — درست مانند انقلاب اینترنت — از کنجکاویهای تحقیقاتی به زیرساخت حیاتی تولید تبدیل شدهاند. جهانی مبتنی بر عاملها (agentic) در راه است، و از بسیاری جهات، از هماکنون نیز وجود دارد: موج جدیدی از «توکنسازی» که در آن برنامههای کاربردی بیشتری بر روی زیرساخت LLM ساخته میشوند تا بر روی APIها و خدمات سنتی.
در عرض تنها چند سال، عبارت «فقط با API تماس بگیرید» از ارائهدهندگان عمومی LLM مانند OpenAI به «ما به مدلهای خود نیاز داریم» و سپس به «باید این مدلها را بهطور کارآمد، ایمن و در مقیاس بزرگ اجرا کنیم» تبدیل شده است. کسبوکارها اکنون به کنترل بسیار بیشتری بر روی LLMهای خود نیاز دارند — برای حاکمیت داده، عیبیابی، ارزیابی، انطباق با مقررات و مدیریت هزینه. بسیاری از تیمها دریافتهاند که سختترین بخش هوش مصنوعی مولد (GenAI) آموزش یک مدل یا راهاندازی یک رابط چت نیست — بلکه همه چیز در بین این دو مرحله است: راهاندازی سرویسدهی و بهینهسازی مدل که بتواند اهداف تجاری را با هزینهای قابل قبول برآورده کند.
ما از نزدیک شاهد این شکاف بودهایم. دیدهایم که نمونههای اولیه درخشان زیر بار ترافیک واقعی فرو میریزند یا بودجه پردازنده گرافیکی (GPU) را در یک هفته به پایان میرسانند. دیدهایم سازمانهایی که مشتاق بازسازی موارد استفاده کلیدی برای LLMها هستند، اما نگرانیهایی درباره هزینههای API عمومی و امنیت دادهها دارند. دیدهایم تیمهایی که میخواهند LLMها را عمیقاً در محصولات اصلی خود جاسازی کنند، اما از پیچیدگی کار احساس ترس میکنند: چطور درباره تأخیر (latency)، توان عملیاتی (throughput) و هزینه استدلال کنیم، یا چگونه بین فروشندگان عمومی، کتابخانههای سرویسدهی مدل، نقاط پایانی ابری یا سرویس خودمدیریت دیگری یکی را انتخاب کنیم.
در عین حال، دانش مربوط به سرویسدهی و بهینهسازی LLM در سراسر پستهای وبلاگ، مقالات تحقیقاتی، مستندات فریمورکها و داستانهای غیررسمی تولید پراکنده شده است. این حوزه بهطور هفتگی یا ماهانه تکامل مییابد؛ همگام ماندن با آن دشوار است، و دانستن اینکه از کجا شروع کرد سختتر است. چیزی که کم است، یک بنیان سیستماتیک است: یک منبع عملی و سرتاسری که به شما کمک کند ایدههای اصلی را درک کنید تا بتوانید با تغییر اکوسیستم، به کاوش ادامه دهید.
این کتابی است که ما تصمیم به نوشتن آن گرفتیم.
چرا سرویسدهی و بهینهسازی LLM؟
از فاصله دور، سرویسدهی LLM میتواند شبیه به گام بعدی پس از استقرار یادگیری ماشین کلاسیک به نظر برسد. اما در عمل، LLMها موجوداتی غیرعادی هستند. آنها یک مشکل اساساً متفاوت با فیزیک جدید، اقتصاد جدید و مسائل جدید ایجاد میکنند — و به همین دلیل است که شایسته رشته تخصصی خود هستند.
مدلهای یادگیری ماشین سنتی معمولاً بدون حالت (stateless)، محدود و قابل پیشبینی هستند. شما یک ورودی میفرستید، یک گراف محاسباتی ثابت اجرا میشود و نتیجه میگیرید. تأخیر پایدار است، نیازهای حافظه مشخص است و مقیاسدهی معمولاً فقط به معنای افزودن کپیهای بیشتر است.
LLMها از هر جهت معناداری متفاوت هستند. آنها خودرگرسیون (autoregressive) و دارای حالت هستند، توکنها را گام به گام تولید میکنند و در عین حال حافظهای رو به رشد از مکالمه را حفظ مینمایند. آنها در مراحل متمایز پیشپردازش (prefill) و رمزگشایی (decode) عمل میکنند که سختافزار را به طور متفاوتی تحت فشار قرار میدهند و حافظه و پهنای باند عظیم GPU را مطالبه میکنند. عملکرد دیگر «اینکه مدل یک بار چقدر سریع اجرا میشود» نیست، بلکه این است که چگونه هزاران مکالمه با طول متغیر را به طور موازی زمانبندی میکنید بدون آنکه انتظارات تأخیر را بشکنید.
میزان استفاده نیز متفاوت است. رتبهبندی، طبقهبندی یا امتیازدهی ریسک مبتنی بر یادگیری ماشین کلاسیک اغلب از تصمیمگیریهای پسزمینه پشتیبانی میکند. اما LLMها مستقیماً درون تجارب کاربری تعاملی قرار میگیرند: دستیارهای مکالمهمحور، سیستمهای استدلال، خطوط لوله تولید با بازیابی اطلاعات (RAG)، و عاملهای خودمختار. تأخیر برای کاربران قابل مشاهده است. پخش جریانی (streaming) اختیاری نیست. قابلیت اطمینان، اعتماد را تعریف میکند. سرویسدهی دیگر زیرساخت پشت یک محصول نیست؛ بلکه خود تجربه محصول است.
تأثیر تجاری نیز به همان نسبت بیشتر است. وقتی یک سیستم LLM کند میشود، از کار میافتد یا غیرقابل پیشبینی رفتار میکند، کل گردشهای کاری متوقف میشوند. عاملها از اقدام بازمیایستند، کارمندان اعتماد خود را از دست میدهند و مشتریان میروند. دقت، نردههای محافظتی و قابلیت مشاهده (observability) مسائل آکادمیک نیستند — آنها دغدغههای عملیاتی، مالی و گاهی قانونی هستند.
و سپس هزینه مطرح است. در یادگیری ماشین کلاسیک، استنتاج معمولاً ارزان است و در بسیاری از موارد اصلاً نیازی به GPU نیست. با LLMها، استنتاج هزینه غالب است. حافظه GPU به یک دارایی استراتژیک تبدیل میشود. زمانبندی ناکارآمد مستقیماً به هدررفت پول ترجمه میشود. رویکردهای صرفاً مبتنی بر API در مقیاس بزرگ گران میشوند، با این حال بسیاری از تیمها از میزبانی خود (self-hosting) هراس دارند زیرا نمیدانند چگونه توان عملیاتی، تأخیر و هزینه را متعادل کنند.
در نهایت، الگوهای خود سرویسدهی نیز جدید هستند. دستهبندی پیوسته (continuous batching)، زمانبندهای توکن، مدیریت حافظه نهان کلید-مقدار (KV cache)، استراتژیهای کمّیسازی (quantization)، مسیریابی مدل، و خطوط لوله ترکیبی بازیابی، استدلال و اجرای ابزارها به سادگی در نسلهای قبلی سیستمهای یادگیری ماشین وجود نداشتند. تیمها اغلب میدانند چه چیزی میخواهند بسازند، اما نه اینکه چگونه آن را به خوبی بسازند.
به همین دلیل است که سرویسدهی و بهینهسازی LLM نیازمند برخوردی متمرکز هستند. اگر در حال ساختن سیستمهای واقعی هستید، به چیزی بیش از آشنایی با API نیاز دارید. شما به یک بنیان برای درک عملکرد، معماری، قابلیت اطمینان و مبادلات هزینه نیاز دارید تا بتوانید سیستمهای مبتنی بر LLM را با اطمینان طراحی، بهرهبرداری و تکامل دهید.
هدف این کتاب چیست؟
کتاب Hands-On LLM Serving and Optimization با هدف پر کردن شکافی حیاتی در اکوسیستم هوش مصنوعی مولد نوشته شده است: حرکت از داشتن یک LLM به اجرای کارآمد، قابل اعتماد و مقرونبهصرفه LLMها در سیستمهای واقعی.
هدف ما این است که بنیانی روشن برای موارد زیر به شما ارائه دهیم:
- درک اینکه سرویسدهی مدل واقعاً چیست و چرا LLMها مسئله سرویسدهی را اساساً تغییر میدهند
- مشاهده نحوه اجرای LLM (توجه، پیشپردازش، رمزگشایی) و اینکه چگونه این مکانیکها بر تأخیر، توان عملیاتی و هزینه تأثیر میگذارند
- ساختن سیستمهای سرویسدهی از صفر تا معماری، حافظه نهان و زمانبندی آنها و مبادلات پشت فریمورکها را درک کنید
- اندازهگیری صحیح عملکرد و تصمیمگیری مهندسی آگاهانه به جای حدس و گمان
- به کارگیری تکنیکهای اصلی بهینهسازی — از دستهبندی، کمّیسازی و ادغام هسته (kernel fusion) تا دستهبندی پیوسته، حافظه نهان پیشوند (prefix caching) و رمزگشایی تأملی (speculative decoding)
- انتخاب و استفاده هوشمندانه از فریمورکهای مدرن سرویسدهی LLM به جای جعبه سیاه فرض کردن آنها
- ارتباط دادن سرویسدهی با بارهای کاری واقعی: سیستمهای چت، خطوط لوله RAG، عاملها، استقرارهای سازمانی، و معماریهای ابری یا خودمیزبانی
اگر شما مسئول کارکرد واقعی سیستمهای مبتنی بر LLM هستید — در محیط تولید، در مقیاس بزرگ و در چارچوب بودجه — این کتاب به عنوان راهنمای عملی شما در نظر گرفته شده است.
کتاب Hands-On LLM Serving and Optimization برای چه کسانی است؟
این کتاب برای متخصصانی است که باید فراتر از نمونههای نمایشی رفته و سیستمهای مبتنی بر LLM را به طور قابل اعتماد، کارآمد و در مقیاس بزرگ به کار گیرند. احتمالاً عضو یکی یا چند گروه زیر هستید:
- مهندسان و محققان یادگیری ماشین/هوش مصنوعی که مدلهای LLM را آموزش داده یا تنظیم دقیق (fine-tune) کردهاند و اکنون نیاز به سرویسدهی کارآمد آنها به کاربران واقعی دارند
- مهندسان بکاند و پلتفرم که ناگهان «مالک سرویس LLM» میشوند، چه در محل (on-premises)، چه در ابر و چه در محیطهای ترکیبی
- مهندسان داده و MLOps که نیاز به گسترش پلتفرمهای یادگیری ماشین موجود برای پشتیبانی از بارهای کاری LLM، عاملها و RAG دارند
- رهبران فنی و معمارانی که مسئول انتخاب معماریها، فریمورکها و استراتژیهای GPU و ارزیابی مبادلات بین ابر و میزبانی شخصی هستند
- بنیانگذاران استارتاپ و سازندگان کسبوکارهای کوچک که پلتفرمهای عامل یا محصولات هوش مصنوعی توسعه میدهند و نیاز به کاهش هزینههای میزبانی، بهبود قابلیت اطمینان و بازگرداندن کنترل بر عملکرد و هزینه دارند
- دانشجویان و مهندسان نوظهوری که مبانی LLM را درک میکنند و میخواهند یاد بگیرند که سیستمهای تولید واقعی چگونه طراحی، بهینهسازی و بهرهبرداری میشوند
ما فرض میکنیم که در خواندن پایتون راحت هستید، با مفاهیم پایه یادگیری عمیق آشنایی دارید و حداقل درک گذرایی از ترنسفورمرها و LLMها دارید. نیازی به متخصص هسته GPU یا محقق سیستمهای توزیع شده نیست، اما باید آماده کار با معیارهای عملکرد، نمودارهای معماری و طراحی عملی سیستم باشید.
کتاب Hands-On LLM Serving and Optimization چه چیزی نیست؟
این کتاب موارد زیر نیست:
- یک مقدمه عمومی برای یادگیری ماشین یا یادگیری عمیق
- یک مرور کلی گسترده از «هوش مصنوعی مولد چیست؟» یا «LLMها چه کاری میتوانند انجام دهند؟»
- فهرستی از همه محصولات یا فریمورکهای LLM موجود در بازار
- یک بررسی رسمی از تحقیقات در مورد همه الگوریتمهای بهینهسازی ممکن
ما به طور متمرکز بر روی سرویسدهی و بهینهسازی LLMها در سیستمهای واقعی تمرکز میکنیم. در جایی که دانش زمینهای لازم است — برای مثال، برای درک مفاهیمی مانند توجه، حافظه نهان KV یا کمّیسازی — آن را به اندازهای توضیح میدهیم که به تصمیمات سرویسدهی و بهینهسازی مرتبط شود.
اگر در یادگیری ماشین یا ترنسفورمرها تازهکار هستید، شما را تشویق میکنیم که این کتاب را با یک مقدمه عمومیتر در مورد یادگیری عمیق یا LLMها همراه کنید، مانند کتاب Hands-On Large Learning Models نوشته جی آلامار و مارتن گروتندورست (O’Reilly، ۲۰۲۴)، و با این کتاب به عنوان همراهی برای سرویسدهی و سیستمها رفتار کنید.
ساختار کتاب Hands-On LLM Serving and Optimization
این کتاب از مبانی به سمت ساختن سیستمها، بهینهسازی و در نهایت فریمورکها، راهنمایی عملی و جهتگیریهای آینده پیش میرود.
- فصل ۱ کتاب Hands-On LLM Serving and Optimization مقدمهای بر سرویسدهی و بهینهسازی مدل است. توضیح میدهد که مدل و سرویسدهی مدل چیست، شیوههای صنعتی را مرور میکند و اهمیت بهینهسازی سرویسدهی LLM را بحث میکند.
- فصل ۲ کتاب Hands-On LLM Serving and Optimization به طور خاص بر سرویسدهی LLM تمرکز میکند، موارد استفاده رایج، مکانیکهای اجرا (توجه، پیشپردازش و رمزگشایی) و معیارهای اصلی سرویسدهی را با پشتیبانی مثالهای کد توضیح میدهد.
- فصل ۳ کتاب Hands-On LLM Serving and Optimization به شما میآموزد که چگونه سیستمهای سرویسدهی LLM را از صفر طراحی و پیادهسازی کنید، از جمله معماریهای سرویسدهی تکمدله و چندمدله.
- فصل ۴ کتاب Hands-On LLM Serving and Optimization به بهترین شیوههای سرویسدهی LLM میپردازد، از جمله خطوط لوله عامل و RAG، معماریهای سرویسدهی سازمانی، استراتژیهای میزبانی (خرید سرویس، میزبانی شخصی یا استفاده از پلتفرمهای فروشنده)، و اندازهگیری عملکرد.
- فصل ۵ کتاب Hands-On LLM Serving and Optimization چالشهای اصلی در سرویسدهی LLM و اینکه چرا از رفتار مدل، محدودیتهای سختافزاری و ویژگیهای بار کاری ناشی میشوند را توضیح میدهد.
- فصل ۶ کتاب Hands-On LLM Serving and Optimization روشهای بهینهسازی ضروری با کاربرد گسترده مانند دستهبندی پیوسته، کمّیسازی، ادغام هسته، و حافظه نهان پیشوند پرامپت را با مثالهای عملی معرفی میکند.
- فصل ۷ کتاب Hands-On LLM Serving and Optimization بر تکنیکهای پیشرفته بهینهسازی LLM مانند رمزگشایی تأملی، موازیسازی چند GPU، جداسازی پیشپردازش-رمزگشایی (prefill-decode disaggregation) و مدیریت پیشرفته حافظه نهان KV تمرکز دارد.
- فصل ۸ کتاب Hands-On LLM Serving and Optimization توضیح میدهد که چرا فریمورکهای تخصصی سرویسدهی LLM وجود دارند و گزینههای برتر امروزی را بررسی میکند، از جمله vLLM، TensorRT-LLM، SGLang و llama.cpp، و راهنمایی برای انتخاب فریمورک مناسب برای بار کاری شما ارائه میدهد.
- فصل ۹ کتاب Hands-On LLM Serving and Optimization شما را در یک پروژه بهینهسازی سرتاسری LLM راهنمایی میکند و به شما کمک میکند تا بینش عملی برای به کارگیری تکنیکهای بهینهسازی در موارد استفاده خود بسازید.
- فصل ۱۰ کتاب Hands-On LLM Serving and Optimization به جهتگیریهای نوظهور مانند مسیریابی معنایی آگاهانه، سرویسدهی چند-LoRA در مقیاس بزرگ، سرویسدهی چندوجهی، ادغام یادگیری تقویتی و استقرار هوش مصنوعی در لبه (edge AI) میپردازد.
نحوه استفاده از کتاب Hands-On LLM Serving and Optimization
میتوانید این کتاب را از ابتدا تا انتها بخوانید، اما همچنین برای استفاده گزینشی طراحی شده است:
- اگر میخواهید پایهای محکم در مفاهیم سرویسدهی مدل و نحوه عملکرد سرویسدهی LLM داشته باشید، با فصلهای ۱ و ۲ شروع کنید.
- اگر میخواهید سیستمهای سرویسدهی LLM واقعی را طراحی، بسازید و بهرهبرداری کنید، فصلهای ۳ و ۴ کتاب Hands-On LLM Serving and Optimization را بخوانید.
- اگر تمرکز شما بر عملکرد، مقیاسپذیری و بهینهسازی هزینه LLM است، از فصلهای ۵ تا ۷ استفاده کنید.
- برای درک فریمورکها و انتخاب فریمورک مناسب به فصل ۸ مراجعه کنید.
- برای بهینهسازی کاربردی سرتاسری و جهتگیریهای آینده به فصلهای ۹ و ۱۰ کتاب Hands-On LLM Serving and Optimization مراجعه کنید.
همچنین میتوانید تمام تمرینهای فصل و کدهای نمونه را در مخزن GitHub کتاب Hands-On LLM Serving and Optimization پیدا کنید.
از هر نقطهای که شروع میکنید، کتاب مثالهای قابل اجرا، راهنمایی عملی و درسهایی از سیستمهای واقعی ارائه میدهد تا به شما کمک کند سرویسدهی LLM را با اطمینان بسازید و بهبود دهید.
آنچه نیاز دارید
برای بهرهمندی بیشتر از بخشهای عملی کتاب Hands-On LLM Serving and Optimization، موارد زیر را نیاز دارید:
- دسترسی به حداقل یک GPU (ابری یا در محل) که قادر به اجرای مدلهای کوچک تا متوسط LLM باشد (Google Colab گزینه خوبی است)
- آشنایی با پایتون و ابزارهای خط فرمان پایه
- راحتی با نصب و پیکربندی فریمورکهای سرویسدهی منبع باز، مانند vLLM و NVIDIA Triton
- تمایل به آزمایش: برای مثال، تغییر اندازه دستهها، اندازه مدلها، طول توالیها و زمانبندیها، و سپس اندازهگیری تفاوتها
اگر دسترسی مستقیم به GPU ندارید، همچنان میتوانید از بحثهای مفهومی و معماری، نتایج آزمایشهای از پیش اجرا شده ما و بینش ما در مورد چگونگی انجام مبادلات در سیستمهای سرویسدهی LLM واقعی بهرهمند شوید.
در نهایت، امید ما این است که این کتاب به شما کمک کند از «ما یک نقطه پایانی LLM داریم» به «ما یک سیستم سرویسدهی LLM مقاوم، کارآمد و قابل درک داریم» حرکت کنید — سیستمی که بتوانید درباره آن استدلال، اشکالزدایی و تکامل دهید، همانطور که چشمانداز هوش مصنوعی مولد به تغییر خود ادامه میدهد.
ما مشتاق دیدن آنچه شما میسازید هستیم.
سرفصلهای کتاب Hands-On LLM Serving and Optimization:
- Preface
- 1. Introduction to Model Serving and Optimization
- 2. Large Language Model Serving
- 3. Model Serving System Design: A Deep Dive
- 4. Model Serving Best Practices
- 5. Challenges When Serving LLMs
- 6. Essential LLM Optimization Techniques
- 7. Advanced LLM Optimization Techniques
- 8. LLM Serving Frameworks
- 9. LLM Optimization in Practice
- 10. Advancements in LLM Serving
- Index
- About the Authors
جهت دانلود کتاب Hands-On LLM Serving and Optimization میتوانید پس از پرداخت، دریافت کنید.




دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.