کتاب The Handbook of NLP with Gensim: Leverage topic modeling to uncover hidden patterns, themes, and valuable insights within textual data (کتاب راهنمای NLP با Gensim: از مدل‌سازی موضوع برای کشف الگوهای پنهان، مضامین و بینش‌های ارزشمند در داده‌های متنی استفاده کنید.) مفاهیم مربوط به پردازش زبان طبیعی یا NLP را با استفاده از Gensim شرح خواهد داد.

در ادامه مقدمه‌ای از The Handbook of NLP with Gensim را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر The Handbook of NLP with Gensim:

با ورود ChatGPT در اواخر سال 2022 و GPT-4 در اوایل سال 2023، علاقه به پردازش زبان طبیعی (NLP) از جمله مدل‌های زبان بزرگ (LLM) افزایش یافت. اگر به امید شروع کار با NLP، یادگیری و ساخت تکنیک‌های NLP که در چند دهه گذشته به بلوغ رسیده اند، یا درک تفاوت‌های بین تکنیک‌های قبل از LLM و LLM، این کتاب بسیار مفید خواهد بود.

با توسعه NLP در چهار دهه گذشته، بسیاری از محصولات تجاری NLP بر اساس تکنیک‌های قبل از LLM ساخته شده اند، مانند Word2Vec، Doc2Vec، تجزیه و تحلیل معنایی پنهان (LSA) یا به نام نمایه‌سازی معنایی پنهان (LSI)، تخصیص دیریکله پنهان (LDA) و گروه LDA.

با کمک این کتاب، شما نه تنها با NLP برای ساخت مدل‌های NLP شروع می‌کنید، بلکه به دانش پیش‌زمینه LLM نیز مجهز می‌شوید. ما معتقدیم که مفاهیم پوشش داده شده در این کتاب، پل لازم برای هر فردی که تازه وارد NLP می‌شود، می‌خواهد محصولات NLP بسازد و می‌خواهد LLM را یاد بگیرد، خواهد بود.

بیشتر بخوانید: کتاب Getting Started with Natural Language Processing

چرا کتاب The Handbook of NLP with Gensim را بخوانید؟

برای کمک به شما در یادگیری مفاهیم اساسی NLP و ایجاد برنامه‌های کاربردی NLP، ما با مفاهیم و تکنیک‌های NLP که برنامه‌های NLP تجاری را فعال می‌کنند، شروع می‌کنیم. این راهنما هم نظریه‌ها و هم شیوه‌های کد را پوشش می‌دهد. این موضوعات NLP را ارائه می‌دهد، بنابراین مبتدیان و همچنین دانشمندان داده با تجربه می‌توانند از آن بهره ببرند.

بسیاری از تکنیک‌هایی که قبلا ذکر شد، مانند Word2Vec، Doc2Vec، LSA، LDA، و Ensemble LDA، در ماژول Python Gensim گنجانده شده اند. Gensim یک کتابخانه Python منبع باز است که به طور گسترده توسط محققان و توسعه‌دهندگان NLP به همراه سایر ماژول‌های منبع باز NLP از جمله NLTK، Scikit-learn و spaCy استفاده می‌شود.

ما یاد خواهیم گرفت که چگونه با استفاده از این ماژول‌ها مدل بسازیم. علاوه بر این، شما همچنین در مورد مدل سازی مبحث مبتنی بر ترانسفورماتور BERTopic در یک فصل جداگانه و یک مورد استفاده BERTopic در فصل آخر برای موارد استفاده NLP خواهید آموخت.

همچنین می‌توانید پیاده‌سازی مدل خود را برای امتیازدهی و پیش‌بینی تمرین کنید. این دیدگاه پیاده‌سازی شما را قادر می‌سازد تا در استقرار مدل از نزدیک با مهندسان داده کار کنید. ما کتاب را با مطالعه موارد منتخب استفاده از NLP در مقیاس بزرگ به پایان خواهیم رساند. ما معتقدیم که این موارد استفاده می‌تواند شما را برای ساخت برنامه‌های NLP خود الهام بخشد.

جنسیم چیست؟

یادگیرندگان جدید NLP ممکن است کتابخانه Gensim را که در بسیاری از آموزش‌ها ذکر شده است بیابند. Gensim یک کتابخانه پایتون منبع باز برای پردازش متون بدون ساختار با استفاده از الگوریتم‌های یادگیری ماشینی بدون نظارت است.

اولین بار توسط Radim Řehůřek در سال 2011 ایجاد شد و اکنون به طور مداوم توسط بیش از 400 مشارکت کننده توسعه و نگهداری می‌شود. در بیش از 2000 مقاله پژوهشی و پایان نامه دانشجویی استفاده شده است.

یکی از امتیازات Gensim سرعت اجرای سریع آن است. Gensim این مزیت را به استفاده از کتابخانه‌های سطح پایین BLAS از طریق NumPy، Fortran/C بسیار بهینه‌شده و چند رشته‌ای در زیر هود نسبت می‌دهد. استقلال حافظه نیز یکی از اهداف طراحی آن‌هاست. Gensim جریان داده را قادر می‌سازد تا اجسام بزرگ را بدون نیاز به بارگیری کل مجموعه آموزشی در RAM پردازش کند.

کتاب The Handbook of NLP with Gensim برای چه کسی است؟

این کتاب هیچ دانش زبانی قبلی یا تکنیک‌های NLP را در نظر نمی‌گیرد، بنابراین برای هر کسی که می‌خواهد NLP را یاد بگیرد مناسب است. دانشمندان داده و متخصصانی که می‌خواهند برنامه‌های NLP را توسعه دهند نیز آن را مفید خواهند یافت.

اگر شما یک متخصص NLP هستید، می‌توانید این کتاب را به عنوان مرجع کد در هنگام کار بر روی پروژه‌های خود در نظر بگیرید. کسانی که برای دوره NLP سطح بالا تمرین می‌کنند نیز می‌توانند از این کتاب استفاده کنند.

آنچه کتاب The Handbook of NLP with Gensim پوشش می‌دهد:

فصل 1، مقدمه‌ای بر NLP، یک فصل مقدماتی است که توسعه از درک زبان طبیعی (NLU) و تولید زبان طبیعی (NLG) به NLP را توضیح می‌دهد. این تکنیک‌های اصلی از جمله پیش‌پردازش متن، LSA/LSI، Word2Vec، Doc2Vec، LDA، Ensemble LDA و BERTopic را خلاصه می‌کند. این ماژول‌های منبع باز NLP Gensim، Scikit-learn و Spacy را ارائه می‌دهد.

فصل 2، بازنمایی متن، با مرحله اصلی نمایش متن شروع می‌شود. این انگیزه را از رمزگذاری یک‌طرفه تا کیسه کلمات (BoW) و فرکانس فرکانس معکوس سند (TF-IDF) توضیح می‌دهد. نحوه اجرای BoW و TF-IDF با Gensim، Scikit-learn و NLTK را نشان می‌دهد.

فصل 3 کتاب The Handbook of NLP with Gensim، مشاجره و پیش پردازش متن، وظایف ضروری پیش پردازش متن را ارائه می‌کند: (الف) نشانه گذاری، (ب) تبدیل حروف کوچک، (ج) حذف کلمات توقف، (د) حذف علائم نقطه گذاری، (ه) پایه گذاری، و (و) ریشه‌یابی این شما را راهنمایی می‌کند تا وظایف پیش پردازش را با Gensim، spaCy و NLTK انجام دهید.

فصل 4، تحلیل معنایی نهفته با scikit-learn، نظریه LSA/LSI را ارائه می‌کند. این فصل به معرفی Singular Vector Decomposition (SVD)، Truncated SVD و Truncated SVD’s برای LSA/LSI می‌پردازد. این فصل کتاب The Handbook of NLP with Gensim، از Scikit-learn برای نشان دادن انتقال SVD کوتاه شده به LSA/LSI به طور صریح استفاده می‌کند.

فصل 5، شباهت کسینوس، به توضیح این معیار اساسی در NLP اختصاص دارد. شباهت کسینوس، در میان معیارهای دیگر مانند فاصله اقلیدسی یا فاصله منهتن، شباهت بین داده‌های تعبیه شده در فضای برداری را اندازه می‌گیرد. این فصل از کتاب The Handbook of NLP with Gensim همچنین کاربردهای شباهت کسینوس را برای مقایسه تصویر و پرس و جو نشان می‌دهد.

فصل 6 کتاب The Handbook of NLP with Gensim، نمایه‌سازی معنایی پنهان با Gensim، یک مدل LSA/LSI با Gensim می‌سازد. این فصل از کتاب The Handbook of NLP with Gensim مفهوم نمره انسجام را معرفی می‌کند که تعداد بهینه موضوعات را تعیین می‌کند. این نشان می‌دهد که چگونه می‌توان اسناد جدید را با استفاده از شباهت کسینوس برای افزودن به ابزار بازیابی اطلاعات به دست آورد.

فصل 7 کتاب The Handbook of NLP with Gensim، با استفاده از Word2Vec، تکنیک نقطه عطف Word2Vec و دو تغییر معماری شبکه عصبی آن: Continuous Bag-of-Word (CBOW) و Skip Gram (SG) را معرفی می‌کند.

این مفهوم و عملیات برای جاسازی کلمه در فضای برداری را نشان می‌دهد. شما را راهنمایی می‌کند تا یک مدل word2Vec بسازید و آن را به عنوان بخشی از یک ابزار بازیابی اطلاعاتی آماده می‌کند.

این بردارهای کلمه یک مدل Word2Vec را با t-SNE و TensorBoard (توسط TensorFlow) تجسم می‌کند. این فصل از کتاب The Handbook of NLP with Gensim با مقایسه Word2Vec با Doc2Vec، GloVe و FastText به پایان می‌رسد.

فصل 8، Doc2Vec با Gensim، تکامل از Word2Vec به Doc2Vec را ارائه می‌دهد. این دو تغییر معماری شبکه عصبی را شرح می‌دهد: بردار پاراگراف با کیسه کلمات توزیع شده (PV-DBOW) و بردار پاراگراف با حافظه توزیع شده (PV-DM). شما را راهنمایی می‌کند تا یک مدل Doc2Vec بسازید و آن را به عنوان بخشی از ابزار بازیابی اطلاعات آماده می‌کند.

فصل 9 کتاب The Handbook of NLP with Gensim، درک توزیع‌های گسسته، خانواده توزیع گسسته شامل توزیع برنولی، دو جمله ای، چند جمله ای، بتا و دیریکله را معرفی می‌کند. از آنجا که توزیع‌های پیچیده تعمیم توزیع‌های ساده هستند، این دنباله به شما کمک می‌کند تا توزیع دیریکله را درک کنید. این واقعیت که «دریکله» در عنوان LDA قرار دارد، اهمیت آن را به ما می‌گوید. این فصل از کتاب The Handbook of NLP with Gensim به شما در درک LDA در فصل بعدی کمک می‌کند.

فصل 10 کتاب The Handbook of NLP with Gensim، تخصیص دیریکله نهفته، الگوریتم LDA را شامل طراحی ساختاری LDA، مدل‌سازی تولیدی و بیشینه‌سازی انتظارات متغیر ارائه می‌کند.

فصل 11 کتاب The Handbook of NLP with Gensim، مدل سازی LDA، نحوه ساخت یک مدل LDA، انجام چرخش هایپرپارامتر و تعیین تعداد بهینه موضوعات را نشان می‌دهد. شما مراحل اعمال یک مدل LDA را برای امتیازدهی به اسناد جدید به عنوان بخشی از ابزار بازیابی اطلاعاتی خواهید آموخت.

فصل 12 کتاب The Handbook of NLP with Gensim، تجسم LDA، تجسم LDA را ارائه می‌دهد. این فصل از کتاب The Handbook of NLP with Gensim با یک تفکر طراحی برای محتوای غنی یک مدل موضوع شروع می‌شود. سپس نحوه استفاده از pyLADviz برای تجسم را نشان می‌دهد.

فصل 13، مجموعه LDA برای پایداری مدل، علل ریشه ای ناپایداری LDA را بررسی می‌کند. این رویکرد Ensemble برای LDA و استفاده از Checkback DBSCAN، یک الگوریتم خوشه‌بندی، برای ارائه مجموعه‌ای پایدار از موضوعات را توضیح می‌دهد.

فصل 14، LDA و BERTopic، تکنیک مدل‌سازی BERTopic را ارائه می‌کند که از الگوریتم BERT مبتنی بر LLM برای جاسازی کلمات، UMAP برای کاهش ابعاد برای جاسازی کلمات، HDBSCAN برای خوشه‌بندی موضوع، c-TFIDF برای ارائه کلمات برای موضوعات، و MMR برای موارد دقیق استفاده می‌کند. نمایش کلمه را برای موضوعات تنظیم کنید. این شما را از طریق مدل سازی BERT، تجسم، و امتیازدهی اسناد جدید برای موضوعات راهنمایی می‌کند.

فصل 15 کتاب The Handbook of NLP with Gensim، موارد استفاده در دنیای واقعی، هفت پروژه NLP در مراقبت‌های بهداشتی، پزشکی، حقوقی، مالی و رسانه‌های اجتماعی را ارائه می‌دهد. با یادگیری این راه حل‌های NLP، انگیزه خواهید داشت که از دفترچه‌های کد این کتاب برای انجام کارهای مشابه یا درخواست برای برنامه‌های آینده خود استفاده کنید.

سرفصل‌های The Handbook of NLP with Gensim:

The Handbook of NLP with Gensim
Contributors
About the author
About the reviewers
Preface
Part 1: NLP Basics
- Chapter 1: Introduction to NLP
- Chapter 2: Text Representation
- Chapter 3: Text Wrangling and Preprocessing
Part 2: Latent Semantic Analysis/Latent Semantic Indexing
- Chapter 4: Latent Semantic Analysis with scikit-learn
- Chapter 5: Cosine Similarity
- Chapter 6: Latent Semantic Indexing with Gensim
Part 3: Word2Vec and Doc2Vec
- Chapter 7: Using Word2Vec
- Chapter 8: Doc2Vec with Gensim
Part 4: Topic Modeling with Latent Dirichlet Allocation
- Chapter 9: Understanding Discrete Distributions
- Chapter 10: Latent Dirichlet Allocation
- Chapter 11: LDA Modeling
- Chapter 12: LDA Visualization
- Chapter 13: The Ensemble LDA for Model Stability
Part 5: Comparison and Applications
- Chapter 14: LDA and BERTopic
- Chapter 15: Real-World Use Cases
Assessments
Index
Other Books You May Enjoy

جهت دانلود کتاب The Handbook of NLP with Gensim می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub
ویرایش	First
ISBN	978-1-80324-494-5
تعداد صفحات	310
انتشارات	Packt
سال انتشار	2023
حجم	6.38 مگابایت
نویسنده	Chris Kuo

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب The Handbook of NLP with Gensim”

کتاب The Handbook of NLP with Gensim

خرید کتاب The Handbook of NLP with Gensim:

مقدمه‌ای بر The Handbook of NLP with Gensim:

سرفصل‌های The Handbook of NLP with Gensim:

دیدگاهها

خرید کتاب The Handbook of NLP with Gensim:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: