کتاب 50 ML projects to understand LLMs: Investigate transformer mechanisms through data analysis, visualization, and experimentation (۵۰ پروژه یادگیری ماشین برای درک مدلهای بزرگ زبانی (LLMs): بررسی سازوکارهای ترنسفورمر از طریق تحلیل داده، مصورسازی و آزمایش) یک منبع عملی و پروژهمحور برای برنامهنویسان، دانشمندان داده و علاقهمندان به یادگیری ماشین است که میخواهند به جای استفادهٔ سطحی از مدلهای بزرگ زبانی (LLMs)، درک عمیقی از معماری ترنسفورمر (Transformer) و سازوکارهای داخلی آن پیدا کنند.
در ادامه مقدمهای از کتاب 50 ML Projects To Understand LLMs را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب 50 ML Projects To Understand LLMs:
کتابهای زیادی دربارهٔ مدلهای بزرگ زبانی (LLM) به شما یاد میدهند که چگونه این مدلها را از صفر بسازید یا از طریق API آنها را پیادهسازی کنید. کتاب 50 ML Projects To Understand LLMs کاری متفاوت انجام میدهد: از پروژههای هدایتشده در یادگیری ماشین استفاده میکند تا به شما بیاموزد چگونه مدلهای بزرگ زبانی از جمله GPT و BERT را درک کنید، مصورسازی (تجسم) کنید و بررسی نمایید.
از طریق ۵۰ پروژهٔ عملی و هدایتشده که در پایتون حل شدهاند، شما سازوکارهای داخلی مدلهای بزرگ زبانی را بررسی خواهید کرد، با این کار که حالات پنهان (hidden states)، الگوهای توجه (attention patterns) و تعبیهها (embeddings) آنها را به عنوان دادهای برای تحلیل در نظر میگیرید. به جای پذیرفتن مدلهای بزرگ زبانی به عنوان جعبههای سیاه (black boxes)، آنها را باز میکنید، درونشان را بررسی میکنید و آزمایشهایی را اجرا میکنید تا بفهمید چرا آنگونه که رفتار میکنند، رفتار میکنند.
همهٔ پروژهها مبتنی بر پایتون هستند (با استفاده از کتابخانههایی نظیر NumPy، PyTorch، statsmodels، scikit-learn، Matplotlib، Pandas و Seaborn) و همراه با فایلهای حل کامل و فایلهای نوتبوک راهنما ارائه میشوند، بنابراین میتوانید تمرین کنید و مهارتهای خود را در علم داده، یادگیری عمیق، مصورسازی دادهها و کدنویسی علمی و آماری بهبود ببخشید.
آنچه کتاب 50 ML Projects To Understand LLMs را منحصربهفرد میکند:
هر پروژه حول سه هدف یادگیری ساخته شده است: تکنیکهای یادگیری ماشین، سازوکارهای مدل بزرگ زبانی، و کدنویسی پایتون همراه با مصورسازی دادهها. این یک کتاب درسی نظری و فشرده نیست؛ کتاب 50 ML Projects To Understand LLMs عملی و پروژهمحور است. شما یاد خواهید گرفت که چگونه مؤلفههای داخلی مدلهای بزرگ زبانی (از جمله تعبیهها، خروجیهای ترنسفورمر، حالات پنهان، توجه، و لایههای MLP) را به طور مستقیم اندازهگیری، مصورسازی و دستکاری کنید.
پروژهها از تحلیل نشانهگذاری (tokenization) و هندسهٔ فضای تعبیه گرفته تا تشریح سرهای توجه (attention heads)، کاوش نورونهای MLP و اجرای آزمایشهای علّی (causal experiments) که نشان میدهند اطلاعات چگونه در طی استنتاج (inference) در مدل جریان مییابد، متغیر هستند.
موضوعات تحت پوشش کتاب 50 ML Projects To Understand LLMs عبارتند از:
- طرحهای نشانهگذاری (Tokenization) و ویژگیهای آماری آنها
- فضاهای تعبیه (Embedding spaces): شباهت کسینوسی (cosine similarity)، محورهای معنایی و بردارهای قیاس (analogy vectors)
- خروجی لجیتها (logits)، توزیعهای سافتمکس (softmax distributions)، پِرپلکسیتی (perplexity) و سوگیریهای زبانی
- پویاییشناسی (dynamics) لایه به لایه ترنسفورمر و ابعاد آن
- سازوکارهای توجه (Attention mechanisms): وزنهای QKV، نمرات توجه (attention scores)، حذف سر (head ablation) و پَچینگ فعالسازی (activation patching)
- زیربلوکهای MLP: تنظیم نورون (neuron tuning)، اطلاعات متقابل (mutual information)، تحلیل زیرفضا (subspace analysis) و دستکاریهای علّی مبتنی بر آمار
- لنز لجیت (Logit lens)، شناسایی مفعول غیرمستقیم (indirect object identification) و ردیابی علّی (causal tracing)
کتاب 50 ML Projects To Understand LLMs برای چه کسانی است:
کتاب 50 ML Projects To Understand LLMs برای دانشمندان داده، مهندسان یادگیری ماشین و پژوهشگرانی است که میخواهند فراتر از درک سطحی مدلهای بزرگ زبانی بروند. تجربهٔ قبلی در پایتون الزامی است. آشنایی با یادگیری ماشین یا یادگیری عمیق مفید است اما الزامی نیست — تکنیکها در طول پروژهها و هنگام نیاز معرفی میشوند.
سرفصلهای کتاب 50 ML Projects To Understand LLMs:
- 1 Introductions
- 1.1 Why study LLM mechanisms?
- 1.2 Why use machine learning to learn about LLMs?
- 1.3 Prerequisites
- 1.4 Hardware and software requirements
- 1.5 How to solve the projects
- 1.6 Getting and using the book code
- 1.7 AI assistance
- 2 Tokenization
- 2.1 Project 1: Three tokenization schemes
- 2.2 Project 2: Book lengths in characters, words, and tokens
- 2.3 Project 3: Pandas frequency tables of token lengths
- 2.4 Project 4: Token lengths in characters and bytes
- 2.5 Project 5: Is tokenization compression?
- 2.6 Project 6: Tokenization and compression in different languages
- 2.7 Project 7: Translating between tokenizers
- 3 Embeddings
- 3.8 Project 8: Distribution of cosine similarities
- 3.9 Project 9: Sequential cosine similarity
- 3.10 Project 10: Sequential number cosine similarity
- 3.11 Project 11: Network graphs of cosine similarities
- 3.12 Project 12: RSA to compare GPT-2 & BERT embeddings
- 3.13 Project 13: Word similarity via distance and cosine
- 3.14 Project 14: Linear semantic axes
- 3.15 Project 15: Analogy vectors
- 4 Output logits
- 4.16 Project 16: Softmax probability distributions
- 4.17 Project 17: Probabilistic token selection
- 4.18 Project 18: Token prediction accuracy
- 4.19 Project 19: LLM loss function
- 4.20 Project 20: Perplexity over sequences, texts, and models
- 4.21 Project 21: Predict token position with linear and logistic regressions
- 4.22 Project 22: Evaluating models with HellaSwag
- 4.23 Project 23: Measuring language biases
- 5 Transformer outputs
- 5.24 Project 24: Cosine similarities within and across layers
- 5.25 Project 25: Category selectivity via cosine similarity
- 5.26 Project 26: Current layer = previous layer + adjustments
- 5.27 Project 27: Impact of layer-specific noise and scaling
- 5.28 Project 28: Effective dimensionality of hidden layers
- 5.29 Project 29: Hidden state dimensionality reduction
- 5.30 Project 30: Sentiment analysis with decision trees
- 5.31 Project 31: Logit lens
- 5.32 Project 32: Patching hidden states in indirect object identification
- 6 Attention
- 6.33 Project 33: QKV weights characteristics
- 6.34 Project 34: QKV activation characteristics
- 6.35 Project 35: Raw and softmax attention scores
- 6.36 Project 36: Characteristics of attention adjustment magnitudes
- 6.37 Project 37: Token prediction and attention KL divergences
- 6.38 Project 38: Laminar profile of RSA and category selectivity
- 6.39 Project 39: Token frequency, attention adjustments, QKT
- 6.40 Project 40: Downstream impacts of head silencing
- 6.41 Project 41: Patching heads in IOI
- 7 MLP
- 7.42 Project 42: MLP weights and activations characteristics
- 7.43 Project 43: Characterizing the MLP progression
- 7.44 Project 44: Grammar tuning in MLP projections
- 7.45 Project 45: Minkowski distance, mutual information, and token positions
- 7.46 Project 46: Statistics-based lesioning in MLP neurons
- 7.47 Project 47: Supervised probing with XGBoost
- 7.48 Project 48: “Can” vs. “can’t” classification via logistic regression
- 7.49 Project 49: Successive median-replacement of MLP activations
- 7.50 Project 50: Recommender systems with MLP projections
جهت دانلود کتاب 50 ML Projects To Understand LLMs میتوانید پس از پرداخت، دریافت کنید.









دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.