military_tech پرفروش‌ترین
۲۰۲۴
پیشنهاد سردبیر
انتخاب متخصصین

کتاب Vision Language Models

اثر Andrés Marafioti, Merve Noyan, Miquel Farré, Orr Zohar

category

نوع محتوای کتاب

مطالعه موردی

category

هدف یادگیری

حل مسئله عملی

category

نوع مسیر

مرجع / کتابچه راهنما

category

بر اساس تکنولوژی

یادگیری ماشین

category

مورد استفاده

هوش مصنوعی / یادگیری ماشین

category

بر اساس سطح علمی

پیشرفته

info نکات مهم قبل از خرید:

  • نسخه کتاب فعلی به زبان لاتین می‌باشد.
  • کتاب به صورت محصول می‌باشد و پس از خرید بلافاصله در دسترس شما قرار می‌گیرد.
  • قبل از خرید، قسمت توضیحات تکمیلی مربوط به هر کتاب را مطالعه کنید.
  • در صورت هرگونه سؤال با ایمیل و یا شماره پشتیبانی سایت در تماس باشید.
  • درگاه پرداخت رمزارز نیز برای هموطنان خارج از کشور فعال است.

درباره این کتاب

کتاب Vision Language Models: Building VLMs with Hugging Face (مدل‌های زبان بصری: ساخت مدل‌های زبان بصری با هاگینگ فیس) که توسط متخصصان هاگینگ فیس شامل Merve Noyan، Andrés Marafioti، Miquel Farré و Orr Zohar نوشته شده است، یک راهنمای کاملاً عملی برای ساخت مدل‌های زبان بصری (VLM) با استفاده از جدیدترین ابزارهای متن‌باز مانند Transformers و PyTorch است. کتاب Vision Language Models که توسط انتشارات O’Reilly منتشر شده، کل چرخه…

۶۰,۰۰۰ تومان

کتاب‌های پیشنهادی سردبیر

کتاب‌های پیشنهادی Cross-sell

نظرات کاربران

تجربیات خود را از خواندن این کتاب با دیگران به اشتراک بگذارید.

امتیاز کل
star star star star star
از 0 نظر

ثبت نظر جدید

دیدگاهتان را بنویسید

هنوز دیدگاهی ثبت نشده است.

کتاب Vision Language Models: Building VLMs with Hugging Face (مدل‌های زبان بصری: ساخت مدل‌های زبان بصری با هاگینگ فیس) که توسط متخصصان هاگینگ فیس شامل Merve Noyan، Andrés Marafioti، Miquel Farré و Orr Zohar نوشته شده است، یک راهنمای کاملاً عملی برای ساخت مدل‌های زبان بصری (VLM) با استفاده از جدیدترین ابزارهای متن‌باز مانند Transformers و PyTorch است.

کتاب Vision Language Models که توسط انتشارات O’Reilly منتشر شده، کل چرخه توسعه مدل‌های چندوجهی را پوشش می‌دهد و خواننده را از مرحله آماده‌سازی دیتاست و انتخاب معماری مناسب تا آموزش دقیق، استقرار و پیاده‌سازی استراتژی‌های پیشرفته Inference مانند Retrieval-Augmented Generation (RAG) و سیستم‌های عامل‌محور (Agentic) همراهی می‌کند.

در ادامه مقدمه‌ای از کتاب The Future of Sales را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Vision Language Models:

امروز می‌توانید در یک موزه گوشی‌تان را بیرون بیاورید، از یک نقاشی عکس بگیرید و از یک مدل بپرسید هنرمند از چه تأثیراتی الهام گرفته و این اثر احتمالاً می‌خواهد چه مفهومی را منتقل کند. همان مدل می‌تواند ویدیوهای موجود در گوشی شما را هم ببیند و خلاصه‌های سریعی به شما بدهد تا بعداً راحت‌تر آن‌ها را پیدا کنید.

مدل‌های بینایی-زبان (VLM) همه این‌ها را با پیوند دادن ادراک بصری و زبان ممکن می‌کنند. این مدل‌ها با سرعت زیادی از نمونه‌های پژوهشی به محصولاتی واقعی تبدیل شده‌اند که مردم هر روز از آن‌ها استفاده می‌کنند.

اما ساختن چیزهای جدید با این مدل‌ها بسیار دشوارتر از چیزی است که تجربه کاربری نشان می‌دهد. این حوزه با سرعت زیادی پیش می‌رود، هر روز مقاله‌های تازه‌ای منتشر می‌شود، و راهنمایی‌های عملی میان نوشته‌های وبلاگی، مستندات کتابخانه‌ها و دانسته‌های غیررسمی‌ای که در رویدادهای شبکه‌سازی دست‌به‌دست می‌شوند پراکنده است.

اگر بخواهید از یک VLM استفاده کنید، آن را آموزش دهید یا ریزتنظیم (fine-tune) کنید، مشخص نیست که چطور باید معماری مناسب را انتخاب کنید، مجموعه‌داده‌های خود را چگونه گردآوری کنید، یا مدل را چگونه به‌صورت بهینه استقرار دهید. در نهایت، ناچار می‌شوید خودتان این دانش را تکه‌تکه کنار هم بگذارید.

کتاب Vision Language Models تلاش ما برای تغییر همین وضعیت است. این همان کتابی است که آرزو می‌کردیم زمانی در اختیار داشتیم که کار چندوجهی دیگر فقط یک کنجکاوی پژوهشی نبود و به یک مسئله مهندسی تبدیل شده بود.

ما کتاب Vision Language Models را به‌عنوان تیمی نوشته‌ایم که سال‌ها صرف ساخت، مستندسازی و عرضه سامانه‌های چندوجهی متن‌باز در Hugging Face کرده است. در میان ما، مدل‌های VLMی مانند SmolVLM آموزش داده و منتشر شده‌اند، ده‌ها مدل چندوجهی در اکوسیستم متن‌باز ادغام شده‌اند، ابزارها و دموهایی ساخته شده‌اند که این مدل‌ها را برای کاربران فنی در دسترس‌تر می‌کنند، و مطالب زیادی درباره ایده‌های پشت آن‌ها نوشته شده است.

همین تجربه، شکل کتاب Vision Language Models را تعیین کرده است: ما با کد و مثال‌های ملموس شروع می‌کنیم، و از نظریه برای توضیح اینکه چرا چیزها کار می‌کنند (یا نمی‌کنند) استفاده می‌کنیم، نه برای تحت تأثیر قرار دادن خواننده.

کتاب Vision Language Models از یک مسیر هدفمند پیروی می‌کند. نیمه اول شما را از مبانی شروع می‌کند و تا آموزش یک VLM از صفر، پالایش داده‌های دنیای واقعی، پس‌آموزش، معماری‌های اصلی و استقرار در مقیاس بزرگ پیش می‌برد. نیمه دوم وارد حوزه‌های تخصصی‌تر می‌شود: هوش مصنوعی اسناد، مدل‌های ویدیو-زبان، سامانه‌های any-to-any، و VLMهای عامل‌محور که از درک منفعل به تصمیم‌گیری و عمل حرکت می‌کنند.

کتاب Vision Language Models برای چه کسانی است؟

این کتاب برای مهندسان یادگیری ماشین، پژوهشگران و سازندگان فنی‌نگری نوشته شده است که می‌خواهند در عمل با سامانه‌های مدرن بینایی-زبان کار کنند. ممکن است شما همین حالا هم از مدل‌های چندوجهی از طریق APIها یا چک‌پوینت‌های دارای وزن باز استفاده کنید، اما بخواهید بفهمید در پشت صحنه چه می‌گذرد و سامانه‌های خودتان را بسازید.

کتاب Vision Language Models یک مقدمه کامل بر یادگیری ماشین از اصول اولیه نیست. ما فرض می‌کنیم که با پایتون، نوت‌بوک‌ها و برخی مفاهیم پایه یادگیری ماشین راحت هستید. بیشتر مثال‌ها از PyTorch و اکوسیستم Hugging Face استفاده می‌کنند، بنابراین آشنایی قبلی با این ابزارها مفید است، اما الزامی نیست. آشنایی با GPUها یا نوت‌بوک‌های ابری نیز بخش‌های عملی را آسان‌تر می‌کند.

فصل‌های مختلف کتاب Vision Language Models اهداف متفاوتی را دنبال می‌کنند. برخی خوانندگان بیشتر به آموزش مدل و پس‌آموزش علاقه‌مند خواهند بود؛ برخی دیگر برای استقرار، هوش مصنوعی اسناد، ویدیو یا عامل‌ها سراغ کتاب می‌آیند. کتاب Vision Language Models طوری طراحی شده است که فصل‌های بعدی تا حد زیادی بتوانند مستقل خوانده شوند، اما فصل‌های ابتدایی واژگان و شهود لازم را فراهم می‌کنند تا ادامه مسیر بسیار آسان‌تر شود.

چه چیزهایی یاد خواهید گرفت؟

هدف کتاب Vision Language Models این است که به شما کمک کند سامانه‌های چندوجهی را با اطمینان بسازید، تطبیق دهید و درباره آن‌ها به‌درستی استدلال کنید. ما بحث را عملی نگه می‌داریم و از نظریه برای روشن کردن تصمیم‌های طراحی استفاده می‌کنیم، نه برای گیج کردن یا تحت فشار گذاشتن خواننده.

در پایان، باید بتوانید یک مقاله VLM را با نگاه انتقادی بخوانید، یک model card را بررسی کنید، و برای کاربرد خاص خود درباره معماری، داده، پس‌آموزش و استقرار تصمیم‌های آگاهانه بگیرید. مهم‌تر از آن، باید یک مدل ذهنی روشن از نحوه کنار هم قرار گرفتن این سامانه‌ها داشته باشید، به‌طوری‌که موج بعدی مقاله‌ها و انتشارها را هم بتوانید در چارچوبی قرار دهید که از قبل می‌شناسید:

فصل ۱، «مقدمه‌ای بر بینایی و زبان»
زمینه را فراهم می‌کند؛ با مرور ایده‌هایی که به VLMهای مدرن منجر شدند، و نشان می‌دهد که چگونه تصویر و متن به‌صورت مشترک مدل‌سازی شدند.

فصل ۲، «کاربردهای مدل‌های بینایی-زبان»
مهم‌ترین وظایفی را مرور می‌کند که برای کاربران عملی اهمیت دارند؛ از جمله کپشن‌نویسی، پاسخ‌گویی به پرسش‌های بصری، استدلال، بازیابی، درک اسناد، درک ویدیو، و کاربردهای مبتنی بر مکان‌یابی.

فصل ۳، «آموزش مدل‌های بینایی-زبان»
فرایند آموزش یک VLM کوچک از صفر را گام‌به‌گام توضیح می‌دهد تا ببینید مدل واقعاً چه چیزی یاد می‌گیرد، دسته‌بندی (batching) و بسته‌بندی (packing) چگونه کار می‌کنند، و تصاویر و متن در طول آموزش چگونه نمایش داده می‌شوند.

فصل ۴، «داده‌های آموزشی و پیش‌پردازش برای VLMها»

فصل 4 کتاب Vision Language Models
از مثال‌های ساده به مقیاس دنیای واقعی حرکت می‌کند و نشان می‌دهد چگونه مجموعه‌داده‌های چندوجهی را گردآوری، پالایش، برچسب‌گذاری، ترکیب و بسته‌بندی کنید.

فصل ۵، «پس‌آموزش مدل‌های بینایی-زبان»
ریزتنظیم نظارت‌شده، تطبیق کارآمد از نظر پارامتر، جریان‌های کاری آگاه از کمّی‌سازی، و تکنیک‌های هم‌ترازسازی را پوشش می‌دهد؛ روش‌هایی که مدل‌ها را مفیدتر و برای وظایف خاص مناسب‌تر می‌کنند.

فصل ۶، «معماری‌های اصلی مدل‌های بینایی-زبان»
درون مدل را باز می‌کند و الگوهای طراحی اصلی پشت توجه چندوجهی، همجوشی، و طرح‌های مدرن VLM را بررسی می‌کند.

فصل ۷، «استقرار مدل‌ها برای استنتاج در مقیاس بزرگ»
بر جنبه مهندسی استنتاج تمرکز دارد: پروفایل‌گیری، رفتار KV-cache، بهینه‌سازی‌های attention، کمّی‌سازی، خروجی گرفتن (export)، و چارچوب‌های سروینگ.

فصل ۸، «هوش مصنوعی اسناد»

فصل 8 کتاب Vision Language Models
نشان می‌دهد مدل‌های چندوجهی چگونه OCR، پرسش‌پاسخ درباره اسناد، پارس‌کردن، بازیابی، و دیگر جریان‌های کاری سندمحور را انجام می‌دهند.

فصل ۹، «مدل‌های ویدیو-زبان»
بحث را به بُعد زمان گسترش می‌دهد و مدل‌سازی زمانی، بازیابی ویدیو، Video-RAG، و ملاحظات عملی ریزتنظیم را پوشش می‌دهد.

فصل ۱۰، «مدل‌های Any-to-Any»
سامانه‌های چندوجهی یکپارچه‌ای را بررسی می‌کند که می‌توانند در متن، تصویر، صدا و ویدیو هم درک و هم تولید انجام دهند، همراه با خانواده‌های اصلی معماریِ پشت آن‌ها.

فصل ۱۱، «موضوعات پیشرفته و پژوهش‌های مرزی»

فصل 11 کتاب Vision Language Models
به آینده نگاه می‌کند و VLMهای عامل‌محور و سامانه‌های بینایی-زبان-عمل را بررسی می‌کند؛ سامانه‌هایی که از درک منفعل به تصمیم‌گیری و عمل می‌رسند.

با اینکه فصل‌ها به‌طور کلی تا حد زیادی مستقل هستند، کتاب از مبانی به‌سوی سامانه‌های تخصصی‌تر پیش می‌رود. خوانندگانی که در این حوزه تازه‌کار هستند، اگر پیش از رفتن به سراغ حوزه‌های کاربردیِ متأخرتر، از فصل‌های ابتدایی شروع کنند، بیشترین بهره را از کتاب خواهند برد.

سرفصل‌های کتاب Vision Language Models:

  • Cover
  • Copyright
  • Table of Contents
  • Foreword
  • Preface
  • Chapter 1. Introduction to Vision and Language
  • Chapter 2. Vision Language Model Applications
  • Chapter 3. Vision Language Model Training
  • Chapter 4. Training Data and Preprocessing for VLMs
  • Chapter 5. Post-Training Vision Language Models
  • Chapter 6. Core Architectures of Vision Language Models
  • Chapter 7. Deploying Models for Inference at Scale
  • Chapter 8. Document AI
  • Chapter 9. Video-Language Models
  • Chapter 10. Any-to-Any Models
  • Chapter 11. Advanced Topics and Cutting-Edge Research
  • Index
  • About the Authors
  • Colophon

جهت دانلود کتاب Vision Language Models می‌توانید پس از پرداخت، دریافت کنید.