کتاب How Large Language Models Work (نحوه عملکرد مدلهای زبانی بزرگ) به زبانی ساده و قابلفهم، سازوکار درونی مدلهای زبانی بزرگ (LLMها) مانند ChatGPT را برای خوانندگان با هر سطحی از دانش فنی توضیح میدهد. نویسندگان، مفاهیم بنیادین مربوط به پردازش زبان طبیعی، یادگیری ماشین، ساختار مدلها، آموزش با دادههای عظیم، و سازوکارهایی مانند ترنسفورمر و توجه (attention) را به شکلی روشن و بدون ریاضیات پیچیده ارائه میکنند. این کتاب همچنین به چالشها، محدودیتها، کاربردهای عملی، مسائل اخلاقی و پیامدهای اجتماعی LLMها میپردازد و به خواننده کمک میکند تا درک عمیقتری از فرصتها و خطرات این فناوری نوظهور به دست آورد.
در ادامه مقدمهای از کتاب How Large Language Models Work را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب How Large Language Models Work:
اسکلت این کتاب در اواخر دهه ۲۰۱۰ شکل گرفت، زمانی که شاهد چندین پیشرفت مهم در زمینه هوش مصنوعی (AI) بودیم که میدانستیم بهزودی میتواند به یک جهش بزرگ منجر شود. همگرایی انواع جدید سختافزارهای رایانهای، در دسترس بودن حجم عظیمی از دادهها، و رشد شبکههای عصبی، همگی به سرعت به نقطه عطفی نزدیک میشدند که در آن، الگوریتمهای یادگیری ماشین قادر بودند با دقتی شگفتانگیز، ظرافتهای زبان و معنا را درک و بازنمایی کنند.
با ترکیب مناسبی از این پیشرفتها، میدانستیم که یک دسته کاملاً جدید از کاربردها امکانپذیر خواهد شد. ما تحقیق کردیم، نمونههای اولیه ساختیم، با همکاران، مشتریان و خانوادههایمان گفتگو کردیم و تلاش کردیم داستان چگونگی تغییر جهان توسط این پیشرفتها و تکنیکهای زیربنایی آنها را روایت کنیم.
سپس، در پایان نوامبر ۲۰۲۲، شرکت OpenAI، مدل ChatGPT را منتشر کرد، و ناگهان، این پتانسیل به واقعیت تبدیل شد. با در اختیار قرار گرفتن این فناوری به دست عموم، هر کسی میتوانست از طریق تعامل با یک چتبات مبتنی بر مدل زبانی بزرگ (LLM)، تجربهای مستقیم به دست آورد. مانند هر فناوری جدیدی، گمانهزنیهای فراوانی درباره اینکه چگونه ChatGPT قادر است با چنین دقتی تعامل کند و خروجیهایی با کیفیت بالا تولید نماید، مطرح شد.
ما مشاهده کردیم که براساس تعاملات کاربران با ChatGPT، بسیاری از مردم تصور میکردند چیزی بسیار پیشرفتهتر در پشت پرده وجود دارد، و گاهی حتی باور داشتند که ما واقعاً در آستانهی دستیابی به هوش عمومی مصنوعی هستیم که میتواند هر کاری انجام دهد. دریافتیم که گفتگوهای ما به سمت آنچه واقعاً میتوان با کاربرد LLMها محقق کرد تغییر یافته است: مدیریت انتظارات، شناسایی ریسکها، اعتبارسنجی رفتارها، و بررسی مرز میان آنچه واقعگرایانه است با آنچه ایمن یا مسئولانه نیست که امتحان شود.
به سال ۲۰۲۵ میرسیم، و اکنون بهروشنی وارد عصر هوش مصنوعی مولد و عاملی (agentic) شدهایم. شاهد گسترش چشمگیر مدلها، برنامهها و قابلیتها بودهایم و همچنین انفجار در انواع دادههایی که میتوانیم با آنها کار کنیم. هر ارائهدهنده بزرگ فناوری، نوعی از مدلهای زبانی بزرگ را در محصولات خود دارد؛ چه چتباتهایی برای گفتگو، چه عاملهایی برای بررسی نوشتههایمان، کمک در برنامهنویسی، یا تولید تصویر.
بسیاری از اینها بحثبرانگیز هستند، که منجر به گفتوگوهای جدیدی درباره استفاده از دادهها شده و ما را وادار کردهاند که در فرضیات خود درباره رابطه میان فناوری و خلاقیت بازنگری کنیم. با این حال، اصول بنیادیای وجود دارد که این کاربردها را ممکن میسازد، و هدف ما از نگارش این کتاب، توصیف این اصول به شکلی است که برای خوانندگانی از هر زمینهای قابل فهم باشد.
چه شما یک مدیرعامل باشید، یا یک مهندس یادگیری ماشین، یک برنامهنویس آماتور، یا فقط فردی معمولی که به دنبال استفاده از این فناوری است، امیدواریم چیزی مفید در این کتاب بیابید که الگوریتمها و تکنیکهایی که LLMها را ممکن میسازند، برایتان توضیح دهد. این کتاب مجموعهای از تجربیات ما در حوزه پردازش زبان طبیعی، یادگیری ماشین و تحقیقات الگوریتمی است؛ جایی که تلاش کردهایم دانش خود را به گونهای به اشتراک بگذاریم که برای تقریباً همه قابلدسترس باشد. در این مسیر، برخی از رمز و رازها را برطرف خواهیم کرد، محدودیتها را توضیح خواهیم داد و به بررسی پیامدهای این فناوری جدید و شگفتانگیز خواهیم پرداخت. امیدواریم در این سفر با ما همراه شوید.
درباره کتاب How Large Language Models Work
کتاب How Large Language Models Work حاصل ساعتها تحقیق، کاوش، گفتگو، و ساخت و ارزیابی مدلهای زبانی بزرگ و سامانههایی است که از آنها برای حل مسائل استفاده میکنند. این کتاب چکیدهای از سالها تجربه ما نویسندگان در حوزههای یادگیری ماشین، پردازش زبان طبیعی و مهندسی نرمافزار است. برای ما مهم بود که آنچه آموختهایم را به اشتراک بگذاریم و پیچیدگیهای این حوزه را به یک گفتوگوی ساده تبدیل کنیم که جزئیات پایهای در مورد نحوه عملکرد LLMها را توضیح داده و از آن نقطه به موضوعاتی بپردازد که بهطور گسترده شناختهشده نیستند. ما تلاش کردهایم برخی از باورهای غلط را برطرف کرده و واقعیتها را روشن کنیم.
کتاب How Large Language Models Work به شما آموزش نمیدهد که چگونه با کدنویسی مدلهایی مانند ChatGPT را پیادهسازی کنید. در عوض، مفاهیم پایهایای که موجب عملکرد این مدلها میشود را پوشش میدهد، همچنین فرصتها و محدودیتهای این فناوری را بررسی میکند. ما درک روشنی از نحوه عملکرد الگوریتمهای زیربنایی در اختیارتان قرار میدهیم. در نتیجه، بهتر درک خواهید کرد که چرا LLMها به این شکل پیادهسازی میشوند و چگونه میتوان از آنها برای حل طیف گستردهای از مسائل استفاده کرد. هدف ما این است که سالها پژوهش در زمینه LLMها را به چیزی قابلفهم برای تازهواردان به این حوزه تبدیل کنیم.
برای این منظور، با اصول اولیه شروع میکنیم تا درک پایهای از درونمایه LLMها ایجاد کنیم و سپس به موضوعات پیشرفتهتر و ملاحظات جانبی میپردازیم که فراتر از عملکرد LLM هستند. در طول مسیر، با باورهای نادرست، محدودیتها و پیامدهای اخلاقی ساخت و استفاده از LLMها روبرو میشویم و همچنین راههای مختلفی را بررسی میکنیم که LLMها میتوانند بهعنوان راهحلهای فنی برای مسائل دشوار به کار روند.
چه کسانی باید کتاب How Large Language Models Work را بخوانند؟
این کتاب برای طیف گستردهای از خوانندگان نوشته شده است: از افرادی که بهتازگی کار با LLMها را آغاز کردهاند، توسعهدهندگان نرمافزار با تجربه، و دانشمندان داده گرفته تا مدیران فنی، تصمیمگیران و مدیران ارشد اجرایی که با چالش تدوین استراتژی برای بهکارگیری LLMها و هوش مصنوعی مولد در کسبوکار خود روبرو هستند. هدف ما از نوشتن کتاب How Large Language Models Work، خلق اثری بوده که هم قابلفهم و هم جذاب برای مخاطب عمومی باشد و درعینحال به شکلی غیرسطحی به LLMها بپردازد.
شاید شما پیشتر با یادگیری ماشین برخورد داشتهاید—چه بهعنوان یک دانشجو یا علاقهمند که دورهی مقدماتی یادگیری ماشین را گذرانده، اما هنوز پایهای محکم در این حوزه ندارد. شاید هم کاربر ابزاری مانند ChatGPT از OpenAI، Gemini از گوگل، Claude از Anthropic یا Copilot از مایکروسافت هستید—چه در کار و چه برای سرگرمی—و کنجکاوید که این ابزارها چگونه نتایج خود را تولید میکنند. فرقی ندارد پیشزمینه یا تجربهتان چیست؛ ما باور داریم در این کتاب چیزهایی برای شما وجود دارد.
پس از مطالعه کتاب How Large Language Models Work، خواهید دانست:
- LLMها چگونه دادههای زبانی انسانی را پردازش میکنند و چه وظایفی ممکن است هنگام استفاده از آنها با شکست مواجه شوند
- دادهها چگونه درون LLM جریان پیدا میکنند، نقش ترنسفورمرها و مکانیزم توجه (attention) چیست، چگونه در سطوح بالا عمل میکنند، چرا مهم هستند و چه ارتباطی با دیگر الگوریتمهای یادگیری ماشین دارند
- LLMها چگونه آموزش داده میشوند، شامل مفاهیمی چون پارامترها، نزول گرادیان (gradient descent)، پیشآموزش (pretraining)، و اینکه چرا اندازه مدل اهمیت دارد
- چگونه استراتژی مناسبی برای استقرار LLMها در برنامهها و کسبوکار خود انتخاب کنید
- چگونه وظایف و سناریوهایی را شناسایی کنید که LLMها واقعبینانه قادر به حل آنها نیستند
- خطرات و نگرانیهای اخلاقی مرتبط با استفاده و ساخت LLMها چیست و در چه مواردی استفاده از آنها مناسب یا نامناسب است
ساختار کتاب How Large Language Models Work: نقشه راه
در این کتاب، ابتدا با اصول اولیه شروع میکنیم—اینکه LLMها چگونه زبان انسانی را پردازش میکنند، چه الگوریتمهایی آنها را ممکن میسازند، و چگونه از دادهها میآموزند. سپس بررسی میکنیم که فناوری LLM چگونه میتواند فراتر از متن به کار گرفته شود، و در نهایت، بحثی درباره کاربردها و پیامدهای این فناوری خواهیم داشت.
- فصل ۱ کتاب How Large Language Models Work درکی کلی از LLMها و هوش مصنوعی مولد به زبان ساده ارائه میدهد. تفاوت بین نحوه کار انسان و ماشین با زبان را بررسی میکنیم و نگاهی سطحی به تواناییها، محدودیتها و نگرانیهای LLMها میاندازیم.
- فصول ۲ تا ۵ کتاب How Large Language Models Work بهطور عمیق وارد درونمایه عملکرد LLMها میشوند و بر سازوکارها تمرکز میکنند، نه ریاضیات.
- در فصل ۲ توضیح میدهیم که LLMها چگونه متن را پردازش میکنند تا بتوانند با آن کار کنند.
- در فصل ۳ کتاب How Large Language Models Work وارد جزئیات میشویم که چگونه ورودیهای ما در نهایت منجر به خروجیهای مولد LLM میشوند.
-
-
- فصل ۴ فرآیند آموزش LLMها روی حجم عظیمی از متن و دلایل احتمالی شکست این آموزش را شرح میدهد.
- فصل ۵ کتاب How Large Language Models Work درباره نحوه کنترل و محدودسازی خروجیهای یک LLM برای کاربردهای خاص است.
-
- فصل ۶ فراتر از زبان رفته و کاربرد LLMها در توسعه نرمافزار، ریاضیات رسمی و حوزههایی نظیر متن، تصویر، صوت و ویدئو را بررسی میکند.
- اکنون که جنبههای فنی را پوشش دادهایم، فصول ۷ تا ۹ به ملاحظات مربوط به استفاده عملی LLMها در دنیای واقعی میپردازند:
- در فصل ۷ کتاب How Large Language Models Work، با باورهای غلط، محدودیتها و قابلیتهای LLMها روبرو میشویم.
- فصل ۸ کتاب How Large Language Models Work به بررسی سناریوهای مختلف طراحی راهحل با استفاده از LLMها و شناسایی موقعیتهایی میپردازد که انتخابهای ظاهراً بدیهی ممکن است بهترین گزینه نباشند.
- در فصل ۹، به پیامدهای اخلاقی استفاده از LLMها میپردازیم: آیا LLMها تهدیدی وجودی برای بشر هستند؟ آموزش آنها بر اساس دادههای نامحدود از اینترنت چه پیامدهایی دارد؟
همراه ما در این مسیر باشید، و در پایان، مجهز به دانشی خواهید شد که شما را برای تفکر انتقادی درباره این فناوری جذاب آماده میسازد.
در سراسر کتاب، ارجاعات متعددی به منابع دیگر خواهیم داشت که جنبههای مختلف LLMها را عمیقتر بررسی میکنند. ما همهی این منابع را در بخش منابع در پایان کتاب جمعآوری کردهایم تا دسترسی آسان به همهی آنها در یکجا فراهم باشد. شما را تشویق میکنیم که به کاوش خود درباره LLMها ادامه دهید و در موضوعاتی که برایتان جذابتر است، عمیقتر شوید.
سرفصلهای کتاب How Large Language Models Work:
- How Large Language Models Work
- brief contents
- contents
- preface
- acknowledgments
- about this book
- about the authors
- about the cover illustration
- 1 Big picture: What are LLMs?
- 2 Tokenizers: How large language models see the world
- 3 Transformers: How inputs become outputs
- 4 How LLMs learn
- 5 How do we constrain the behavior of LLMs?
- 6 Beyond natural language processing
- 7 Misconceptions, limits, and eminent abilities of LLMs
- 8 Designing solutions with large language models
- 9 Ethics of building and using LLMs
- References
- index
جهت دانلود کتاب How Large Language Models Work میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.