۲۰۲۴
کتاب Vision Language Models
اثر Andrés Marafioti, Merve Noyan, Miquel Farré, Orr Zohar
نوع محتوای کتاب
مطالعه موردی
هدف یادگیری
ارتقای شغلی
نوع مسیر
مرجع / کتابچه راهنما
بر اساس تکنولوژی
یادگیری ماشین
مورد استفاده
هوش مصنوعی / یادگیری ماشین
بر اساس سطح علمی
پیشرفته
info نکات مهم قبل از خرید:
- نسخه کتاب فعلی به زبان لاتین میباشد.
- کتاب به صورت محصول میباشد و پس از خرید بلافاصله در دسترس شما قرار میگیرد.
- قبل از خرید، قسمت توضیحات تکمیلی مربوط به هر کتاب را مطالعه کنید.
- در صورت هرگونه سؤال با ایمیل و یا شماره پشتیبانی سایت در تماس باشید.
- درگاه پرداخت رمزارز نیز برای هموطنان خارج از کشور فعال است.
درباره این کتاب
کتاب Vision Language Models: Building VLMs with Hugging Face (مدلهای زبان بصری: ساخت مدلهای زبان بصری با هاگینگ فیس) که توسط متخصصان هاگینگ فیس شامل Merve Noyan، Andrés Marafioti، Miquel Farré و Orr Zohar نوشته شده است، یک راهنمای کاملاً عملی برای ساخت مدلهای زبان بصری (VLM) با استفاده از جدیدترین ابزارهای متنباز مانند Transformers و PyTorch است. کتاب Vision Language Models که توسط انتشارات O’Reilly منتشر شده، کل چرخه…
کتابهای پیشنهادی سردبیر
کتابهای پیشنهادی Cross-sell
نظرات کاربران
تجربیات خود را از خواندن این کتاب با دیگران به اشتراک بگذارید.
ثبت نظر جدید
هنوز دیدگاهی ثبت نشده است.
کتاب Vision Language Models: Building VLMs with Hugging Face (مدلهای زبان بصری: ساخت مدلهای زبان بصری با هاگینگ فیس) که توسط متخصصان هاگینگ فیس شامل Merve Noyan، Andrés Marafioti، Miquel Farré و Orr Zohar نوشته شده است، یک راهنمای کاملاً عملی برای ساخت مدلهای زبان بصری (VLM) با استفاده از جدیدترین ابزارهای متنباز مانند Transformers و PyTorch است.
کتاب Vision Language Models که توسط انتشارات O’Reilly منتشر شده، کل چرخه توسعه مدلهای چندوجهی را پوشش میدهد و خواننده را از مرحله آمادهسازی دیتاست و انتخاب معماری مناسب تا آموزش دقیق، استقرار و پیادهسازی استراتژیهای پیشرفته Inference مانند Retrieval-Augmented Generation (RAG) و سیستمهای عاملمحور (Agentic) همراهی میکند.
در ادامه مقدمهای از کتاب The Future of Sales را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Vision Language Models:
امروز میتوانید در یک موزه گوشیتان را بیرون بیاورید، از یک نقاشی عکس بگیرید و از یک مدل بپرسید هنرمند از چه تأثیراتی الهام گرفته و این اثر احتمالاً میخواهد چه مفهومی را منتقل کند. همان مدل میتواند ویدیوهای موجود در گوشی شما را هم ببیند و خلاصههای سریعی به شما بدهد تا بعداً راحتتر آنها را پیدا کنید.
مدلهای بینایی-زبان (VLM) همه اینها را با پیوند دادن ادراک بصری و زبان ممکن میکنند. این مدلها با سرعت زیادی از نمونههای پژوهشی به محصولاتی واقعی تبدیل شدهاند که مردم هر روز از آنها استفاده میکنند.
اما ساختن چیزهای جدید با این مدلها بسیار دشوارتر از چیزی است که تجربه کاربری نشان میدهد. این حوزه با سرعت زیادی پیش میرود، هر روز مقالههای تازهای منتشر میشود، و راهنماییهای عملی میان نوشتههای وبلاگی، مستندات کتابخانهها و دانستههای غیررسمیای که در رویدادهای شبکهسازی دستبهدست میشوند پراکنده است.
اگر بخواهید از یک VLM استفاده کنید، آن را آموزش دهید یا ریزتنظیم (fine-tune) کنید، مشخص نیست که چطور باید معماری مناسب را انتخاب کنید، مجموعهدادههای خود را چگونه گردآوری کنید، یا مدل را چگونه بهصورت بهینه استقرار دهید. در نهایت، ناچار میشوید خودتان این دانش را تکهتکه کنار هم بگذارید.
کتاب Vision Language Models تلاش ما برای تغییر همین وضعیت است. این همان کتابی است که آرزو میکردیم زمانی در اختیار داشتیم که کار چندوجهی دیگر فقط یک کنجکاوی پژوهشی نبود و به یک مسئله مهندسی تبدیل شده بود.
ما کتاب Vision Language Models را بهعنوان تیمی نوشتهایم که سالها صرف ساخت، مستندسازی و عرضه سامانههای چندوجهی متنباز در Hugging Face کرده است. در میان ما، مدلهای VLMی مانند SmolVLM آموزش داده و منتشر شدهاند، دهها مدل چندوجهی در اکوسیستم متنباز ادغام شدهاند، ابزارها و دموهایی ساخته شدهاند که این مدلها را برای کاربران فنی در دسترستر میکنند، و مطالب زیادی درباره ایدههای پشت آنها نوشته شده است.
همین تجربه، شکل کتاب Vision Language Models را تعیین کرده است: ما با کد و مثالهای ملموس شروع میکنیم، و از نظریه برای توضیح اینکه چرا چیزها کار میکنند (یا نمیکنند) استفاده میکنیم، نه برای تحت تأثیر قرار دادن خواننده.
کتاب Vision Language Models از یک مسیر هدفمند پیروی میکند. نیمه اول شما را از مبانی شروع میکند و تا آموزش یک VLM از صفر، پالایش دادههای دنیای واقعی، پسآموزش، معماریهای اصلی و استقرار در مقیاس بزرگ پیش میبرد. نیمه دوم وارد حوزههای تخصصیتر میشود: هوش مصنوعی اسناد، مدلهای ویدیو-زبان، سامانههای any-to-any، و VLMهای عاملمحور که از درک منفعل به تصمیمگیری و عمل حرکت میکنند.
کتاب Vision Language Models برای چه کسانی است؟
این کتاب برای مهندسان یادگیری ماشین، پژوهشگران و سازندگان فنینگری نوشته شده است که میخواهند در عمل با سامانههای مدرن بینایی-زبان کار کنند. ممکن است شما همین حالا هم از مدلهای چندوجهی از طریق APIها یا چکپوینتهای دارای وزن باز استفاده کنید، اما بخواهید بفهمید در پشت صحنه چه میگذرد و سامانههای خودتان را بسازید.
کتاب Vision Language Models یک مقدمه کامل بر یادگیری ماشین از اصول اولیه نیست. ما فرض میکنیم که با پایتون، نوتبوکها و برخی مفاهیم پایه یادگیری ماشین راحت هستید. بیشتر مثالها از PyTorch و اکوسیستم Hugging Face استفاده میکنند، بنابراین آشنایی قبلی با این ابزارها مفید است، اما الزامی نیست. آشنایی با GPUها یا نوتبوکهای ابری نیز بخشهای عملی را آسانتر میکند.
فصلهای مختلف کتاب Vision Language Models اهداف متفاوتی را دنبال میکنند. برخی خوانندگان بیشتر به آموزش مدل و پسآموزش علاقهمند خواهند بود؛ برخی دیگر برای استقرار، هوش مصنوعی اسناد، ویدیو یا عاملها سراغ کتاب میآیند. کتاب Vision Language Models طوری طراحی شده است که فصلهای بعدی تا حد زیادی بتوانند مستقل خوانده شوند، اما فصلهای ابتدایی واژگان و شهود لازم را فراهم میکنند تا ادامه مسیر بسیار آسانتر شود.
چه چیزهایی یاد خواهید گرفت؟
هدف کتاب Vision Language Models این است که به شما کمک کند سامانههای چندوجهی را با اطمینان بسازید، تطبیق دهید و درباره آنها بهدرستی استدلال کنید. ما بحث را عملی نگه میداریم و از نظریه برای روشن کردن تصمیمهای طراحی استفاده میکنیم، نه برای گیج کردن یا تحت فشار گذاشتن خواننده.
در پایان، باید بتوانید یک مقاله VLM را با نگاه انتقادی بخوانید، یک model card را بررسی کنید، و برای کاربرد خاص خود درباره معماری، داده، پسآموزش و استقرار تصمیمهای آگاهانه بگیرید. مهمتر از آن، باید یک مدل ذهنی روشن از نحوه کنار هم قرار گرفتن این سامانهها داشته باشید، بهطوریکه موج بعدی مقالهها و انتشارها را هم بتوانید در چارچوبی قرار دهید که از قبل میشناسید:
فصل ۱، «مقدمهای بر بینایی و زبان»
زمینه را فراهم میکند؛ با مرور ایدههایی که به VLMهای مدرن منجر شدند، و نشان میدهد که چگونه تصویر و متن بهصورت مشترک مدلسازی شدند.
فصل ۲، «کاربردهای مدلهای بینایی-زبان»
مهمترین وظایفی را مرور میکند که برای کاربران عملی اهمیت دارند؛ از جمله کپشننویسی، پاسخگویی به پرسشهای بصری، استدلال، بازیابی، درک اسناد، درک ویدیو، و کاربردهای مبتنی بر مکانیابی.
فصل ۳، «آموزش مدلهای بینایی-زبان»
فرایند آموزش یک VLM کوچک از صفر را گامبهگام توضیح میدهد تا ببینید مدل واقعاً چه چیزی یاد میگیرد، دستهبندی (batching) و بستهبندی (packing) چگونه کار میکنند، و تصاویر و متن در طول آموزش چگونه نمایش داده میشوند.
فصل ۴، «دادههای آموزشی و پیشپردازش برای VLMها»

از مثالهای ساده به مقیاس دنیای واقعی حرکت میکند و نشان میدهد چگونه مجموعهدادههای چندوجهی را گردآوری، پالایش، برچسبگذاری، ترکیب و بستهبندی کنید.
فصل ۵، «پسآموزش مدلهای بینایی-زبان»
ریزتنظیم نظارتشده، تطبیق کارآمد از نظر پارامتر، جریانهای کاری آگاه از کمّیسازی، و تکنیکهای همترازسازی را پوشش میدهد؛ روشهایی که مدلها را مفیدتر و برای وظایف خاص مناسبتر میکنند.
فصل ۶، «معماریهای اصلی مدلهای بینایی-زبان»
درون مدل را باز میکند و الگوهای طراحی اصلی پشت توجه چندوجهی، همجوشی، و طرحهای مدرن VLM را بررسی میکند.
فصل ۷، «استقرار مدلها برای استنتاج در مقیاس بزرگ»
بر جنبه مهندسی استنتاج تمرکز دارد: پروفایلگیری، رفتار KV-cache، بهینهسازیهای attention، کمّیسازی، خروجی گرفتن (export)، و چارچوبهای سروینگ.
فصل ۸، «هوش مصنوعی اسناد»

نشان میدهد مدلهای چندوجهی چگونه OCR، پرسشپاسخ درباره اسناد، پارسکردن، بازیابی، و دیگر جریانهای کاری سندمحور را انجام میدهند.
فصل ۹، «مدلهای ویدیو-زبان»
بحث را به بُعد زمان گسترش میدهد و مدلسازی زمانی، بازیابی ویدیو، Video-RAG، و ملاحظات عملی ریزتنظیم را پوشش میدهد.
فصل ۱۰، «مدلهای Any-to-Any»
سامانههای چندوجهی یکپارچهای را بررسی میکند که میتوانند در متن، تصویر، صدا و ویدیو هم درک و هم تولید انجام دهند، همراه با خانوادههای اصلی معماریِ پشت آنها.
فصل ۱۱، «موضوعات پیشرفته و پژوهشهای مرزی»

به آینده نگاه میکند و VLMهای عاملمحور و سامانههای بینایی-زبان-عمل را بررسی میکند؛ سامانههایی که از درک منفعل به تصمیمگیری و عمل میرسند.
با اینکه فصلها بهطور کلی تا حد زیادی مستقل هستند، کتاب از مبانی بهسوی سامانههای تخصصیتر پیش میرود. خوانندگانی که در این حوزه تازهکار هستند، اگر پیش از رفتن به سراغ حوزههای کاربردیِ متأخرتر، از فصلهای ابتدایی شروع کنند، بیشترین بهره را از کتاب خواهند برد.
سرفصلهای کتاب Vision Language Models:
- Cover
- Copyright
- Table of Contents
- Foreword
- Preface
- Chapter 1. Introduction to Vision and Language
- Chapter 2. Vision Language Model Applications
- Chapter 3. Vision Language Model Training
- Chapter 4. Training Data and Preprocessing for VLMs
- Chapter 5. Post-Training Vision Language Models
- Chapter 6. Core Architectures of Vision Language Models
- Chapter 7. Deploying Models for Inference at Scale
- Chapter 8. Document AI
- Chapter 9. Video-Language Models
- Chapter 10. Any-to-Any Models
- Chapter 11. Advanced Topics and Cutting-Edge Research
- Index
- About the Authors
- Colophon
جهت دانلود کتاب Vision Language Models میتوانید پس از پرداخت، دریافت کنید.
