کتاب Building Large Language Models from Scratch: Design, Train, and Deploy LLMs with PyTorch First Edition (ساخت مدلهای زبانی بزرگ از صفر: طراحی، آموزش و استقرار مدلهای زبانی بزرگ با پایتورچ – چاپ اول) نوشتهی دیلین گریگروف (Dilyan Grigorov) یک راهنمای کاملاً عملی برای توسعهدهندگان و متخصصان داده است تا بتوانند مدلهای زبانی بزرگ (LLM) را از پایهترین سطوح طراحی، آموزش و استقرار دهند.
در ادامه مقدمهای از کتاب Building Large Language Models from Scratch را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Building Large Language Models from Scratch:
مدلهای زبانی بزرگ روش تعامل ما با فناوری را دگرگون کردهاند و از چتباتها گرفته تا تولیدکنندههای کد را تغذیه میکنند. با این حال برای بسیاری از توسعهدهندگان، این مدلها جعبههای سیاه مرموزی باقی میمانند – از نظر قابلیتها چشمگیر، اما از نظر ساختار مبهم.
این کتاب آن فرایند را شفافسازی میکند. به جای اینکه مدلهای زبانی بزرگ را مفاهیمی انتزاعی در نظر بگیریم یا صرفاً به کتابخانههای از پیش ساخته شده تکیه کنیم، یکی را از پایه میسازیم. شما خودتان هر مؤلفه را پیادهسازی خواهید کرد: توکنسازی، درونسازیها (Embeddings)، مکانیزمهای توجه و معماریهای ترنسفورمر. در طول مسیر، درکی شهودی به دست خواهید آورد از اینکه چرا این مدلها کار میکنند و چگونه میتوان آنها را برای کاربردهای خودتان تطبیق داد.
چه یک مهندس نرمافزار باشید که به دنبال عمق بخشیدن به تخصص خود در هوش مصنوعی است، چه یک پژوهشگر که میخواهد با معماریهای نوین آزمایش کند، این رویکرد عملی پایهای به شما میدهد که نه فقط از مدلهای زبانی بزرگ استفاده کنید، بلکه واقعاً آنها را درک کرده و با آنها نوآوری کنید.
بیایید ساختن را شروع کنیم!
سرفصلهای کتاب Building Large Language Models from Scratch:
- Building Large Language Models from Scratch
- Introduction
- Table of Contents
- About the Author
- About the Technical Reviewer
- 1. What Is a Large Language Model? Getting Started with Libraries and Environment Setup for Building an LLM from Scratch
- 2. Foundational Concepts in LLM Development
- 3. Building a Tokenizer for the Transformers Architecture Model
- 4. RMS Normalization and Model Configuration
- 5. Rotary Positional Embeddings: Integrating NTK and YaRN Scaling
- 6. Scaled Dot-Product Attention Core-Sliding Window and Grouped Query Attention-The Core Behind All Transformer Models
- 7. AttentionBlock with Rotary Embedding, GQA, Sliding Window, and Sink Tokens
- 8. Multilayer Perceptron Block with Mixture of Experts (MoE) and SwiGLU
- 9. Transformer Block and Full Transformer Model-It’s Time to Put the Puzzle Together
- 10. Dataset Preparation, Model Training, Token Generator for Inference and Prompting-The BIG Moment
- 11. Advanced Training and CUDA Kernels
- Index
جهت دانلود کتاب Building Large Language Models from Scratch میتوانید پس از پرداخت، دریافت کنید.

دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.