کتاب The Handbook of NLP with Gensim: Leverage topic modeling to uncover hidden patterns, themes, and valuable insights within textual data (کتاب راهنمای NLP با Gensim: از مدلسازی موضوع برای کشف الگوهای پنهان، مضامین و بینشهای ارزشمند در دادههای متنی استفاده کنید.) مفاهیم مربوط به پردازش زبان طبیعی یا NLP را با استفاده از Gensim شرح خواهد داد.
در ادامه مقدمهای از The Handbook of NLP with Gensim را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر The Handbook of NLP with Gensim:
با ورود ChatGPT در اواخر سال 2022 و GPT-4 در اوایل سال 2023، علاقه به پردازش زبان طبیعی (NLP) از جمله مدلهای زبان بزرگ (LLM) افزایش یافت. اگر به امید شروع کار با NLP، یادگیری و ساخت تکنیکهای NLP که در چند دهه گذشته به بلوغ رسیده اند، یا درک تفاوتهای بین تکنیکهای قبل از LLM و LLM، این کتاب بسیار مفید خواهد بود.
با توسعه NLP در چهار دهه گذشته، بسیاری از محصولات تجاری NLP بر اساس تکنیکهای قبل از LLM ساخته شده اند، مانند Word2Vec، Doc2Vec، تجزیه و تحلیل معنایی پنهان (LSA) یا به نام نمایهسازی معنایی پنهان (LSI)، تخصیص دیریکله پنهان (LDA) و گروه LDA.
با کمک این کتاب، شما نه تنها با NLP برای ساخت مدلهای NLP شروع میکنید، بلکه به دانش پیشزمینه LLM نیز مجهز میشوید. ما معتقدیم که مفاهیم پوشش داده شده در این کتاب، پل لازم برای هر فردی که تازه وارد NLP میشود، میخواهد محصولات NLP بسازد و میخواهد LLM را یاد بگیرد، خواهد بود.
بیشتر بخوانید: کتاب Getting Started with Natural Language Processing
چرا کتاب The Handbook of NLP with Gensim را بخوانید؟
برای کمک به شما در یادگیری مفاهیم اساسی NLP و ایجاد برنامههای کاربردی NLP، ما با مفاهیم و تکنیکهای NLP که برنامههای NLP تجاری را فعال میکنند، شروع میکنیم. این راهنما هم نظریهها و هم شیوههای کد را پوشش میدهد. این موضوعات NLP را ارائه میدهد، بنابراین مبتدیان و همچنین دانشمندان داده با تجربه میتوانند از آن بهره ببرند.
بسیاری از تکنیکهایی که قبلا ذکر شد، مانند Word2Vec، Doc2Vec، LSA، LDA، و Ensemble LDA، در ماژول Python Gensim گنجانده شده اند. Gensim یک کتابخانه Python منبع باز است که به طور گسترده توسط محققان و توسعهدهندگان NLP به همراه سایر ماژولهای منبع باز NLP از جمله NLTK، Scikit-learn و spaCy استفاده میشود.
ما یاد خواهیم گرفت که چگونه با استفاده از این ماژولها مدل بسازیم. علاوه بر این، شما همچنین در مورد مدل سازی مبحث مبتنی بر ترانسفورماتور BERTopic در یک فصل جداگانه و یک مورد استفاده BERTopic در فصل آخر برای موارد استفاده NLP خواهید آموخت.
همچنین میتوانید پیادهسازی مدل خود را برای امتیازدهی و پیشبینی تمرین کنید. این دیدگاه پیادهسازی شما را قادر میسازد تا در استقرار مدل از نزدیک با مهندسان داده کار کنید. ما کتاب را با مطالعه موارد منتخب استفاده از NLP در مقیاس بزرگ به پایان خواهیم رساند. ما معتقدیم که این موارد استفاده میتواند شما را برای ساخت برنامههای NLP خود الهام بخشد.
جنسیم چیست؟
یادگیرندگان جدید NLP ممکن است کتابخانه Gensim را که در بسیاری از آموزشها ذکر شده است بیابند. Gensim یک کتابخانه پایتون منبع باز برای پردازش متون بدون ساختار با استفاده از الگوریتمهای یادگیری ماشینی بدون نظارت است.
اولین بار توسط Radim Řehůřek در سال 2011 ایجاد شد و اکنون به طور مداوم توسط بیش از 400 مشارکت کننده توسعه و نگهداری میشود. در بیش از 2000 مقاله پژوهشی و پایان نامه دانشجویی استفاده شده است.
یکی از امتیازات Gensim سرعت اجرای سریع آن است. Gensim این مزیت را به استفاده از کتابخانههای سطح پایین BLAS از طریق NumPy، Fortran/C بسیار بهینهشده و چند رشتهای در زیر هود نسبت میدهد. استقلال حافظه نیز یکی از اهداف طراحی آنهاست. Gensim جریان داده را قادر میسازد تا اجسام بزرگ را بدون نیاز به بارگیری کل مجموعه آموزشی در RAM پردازش کند.
کتاب The Handbook of NLP with Gensim برای چه کسی است؟
این کتاب هیچ دانش زبانی قبلی یا تکنیکهای NLP را در نظر نمیگیرد، بنابراین برای هر کسی که میخواهد NLP را یاد بگیرد مناسب است. دانشمندان داده و متخصصانی که میخواهند برنامههای NLP را توسعه دهند نیز آن را مفید خواهند یافت.
اگر شما یک متخصص NLP هستید، میتوانید این کتاب را به عنوان مرجع کد در هنگام کار بر روی پروژههای خود در نظر بگیرید. کسانی که برای دوره NLP سطح بالا تمرین میکنند نیز میتوانند از این کتاب استفاده کنند.
آنچه کتاب The Handbook of NLP with Gensim پوشش میدهد:
فصل 1، مقدمهای بر NLP، یک فصل مقدماتی است که توسعه از درک زبان طبیعی (NLU) و تولید زبان طبیعی (NLG) به NLP را توضیح میدهد. این تکنیکهای اصلی از جمله پیشپردازش متن، LSA/LSI، Word2Vec، Doc2Vec، LDA، Ensemble LDA و BERTopic را خلاصه میکند. این ماژولهای منبع باز NLP Gensim، Scikit-learn و Spacy را ارائه میدهد.
فصل 2، بازنمایی متن، با مرحله اصلی نمایش متن شروع میشود. این انگیزه را از رمزگذاری یکطرفه تا کیسه کلمات (BoW) و فرکانس فرکانس معکوس سند (TF-IDF) توضیح میدهد. نحوه اجرای BoW و TF-IDF با Gensim، Scikit-learn و NLTK را نشان میدهد.
فصل 3 کتاب The Handbook of NLP with Gensim، مشاجره و پیش پردازش متن، وظایف ضروری پیش پردازش متن را ارائه میکند: (الف) نشانه گذاری، (ب) تبدیل حروف کوچک، (ج) حذف کلمات توقف، (د) حذف علائم نقطه گذاری، (ه) پایه گذاری، و (و) ریشهیابی این شما را راهنمایی میکند تا وظایف پیش پردازش را با Gensim، spaCy و NLTK انجام دهید.
فصل 4، تحلیل معنایی نهفته با scikit-learn، نظریه LSA/LSI را ارائه میکند. این فصل به معرفی Singular Vector Decomposition (SVD)، Truncated SVD و Truncated SVD’s برای LSA/LSI میپردازد. این فصل کتاب The Handbook of NLP with Gensim، از Scikit-learn برای نشان دادن انتقال SVD کوتاه شده به LSA/LSI به طور صریح استفاده میکند.
فصل 5، شباهت کسینوس، به توضیح این معیار اساسی در NLP اختصاص دارد. شباهت کسینوس، در میان معیارهای دیگر مانند فاصله اقلیدسی یا فاصله منهتن، شباهت بین دادههای تعبیه شده در فضای برداری را اندازه میگیرد. این فصل از کتاب The Handbook of NLP with Gensim همچنین کاربردهای شباهت کسینوس را برای مقایسه تصویر و پرس و جو نشان میدهد.
فصل 6 کتاب The Handbook of NLP with Gensim، نمایهسازی معنایی پنهان با Gensim، یک مدل LSA/LSI با Gensim میسازد. این فصل از کتاب The Handbook of NLP with Gensim مفهوم نمره انسجام را معرفی میکند که تعداد بهینه موضوعات را تعیین میکند. این نشان میدهد که چگونه میتوان اسناد جدید را با استفاده از شباهت کسینوس برای افزودن به ابزار بازیابی اطلاعات به دست آورد.
فصل 7 کتاب The Handbook of NLP with Gensim، با استفاده از Word2Vec، تکنیک نقطه عطف Word2Vec و دو تغییر معماری شبکه عصبی آن: Continuous Bag-of-Word (CBOW) و Skip Gram (SG) را معرفی میکند.
این مفهوم و عملیات برای جاسازی کلمه در فضای برداری را نشان میدهد. شما را راهنمایی میکند تا یک مدل word2Vec بسازید و آن را به عنوان بخشی از یک ابزار بازیابی اطلاعاتی آماده میکند.
این بردارهای کلمه یک مدل Word2Vec را با t-SNE و TensorBoard (توسط TensorFlow) تجسم میکند. این فصل از کتاب The Handbook of NLP with Gensim با مقایسه Word2Vec با Doc2Vec، GloVe و FastText به پایان میرسد.
فصل 8، Doc2Vec با Gensim، تکامل از Word2Vec به Doc2Vec را ارائه میدهد. این دو تغییر معماری شبکه عصبی را شرح میدهد: بردار پاراگراف با کیسه کلمات توزیع شده (PV-DBOW) و بردار پاراگراف با حافظه توزیع شده (PV-DM). شما را راهنمایی میکند تا یک مدل Doc2Vec بسازید و آن را به عنوان بخشی از ابزار بازیابی اطلاعات آماده میکند.
فصل 9 کتاب The Handbook of NLP with Gensim، درک توزیعهای گسسته، خانواده توزیع گسسته شامل توزیع برنولی، دو جمله ای، چند جمله ای، بتا و دیریکله را معرفی میکند. از آنجا که توزیعهای پیچیده تعمیم توزیعهای ساده هستند، این دنباله به شما کمک میکند تا توزیع دیریکله را درک کنید. این واقعیت که «دریکله» در عنوان LDA قرار دارد، اهمیت آن را به ما میگوید. این فصل از کتاب The Handbook of NLP with Gensim به شما در درک LDA در فصل بعدی کمک میکند.
فصل 10 کتاب The Handbook of NLP with Gensim، تخصیص دیریکله نهفته، الگوریتم LDA را شامل طراحی ساختاری LDA، مدلسازی تولیدی و بیشینهسازی انتظارات متغیر ارائه میکند.
فصل 11 کتاب The Handbook of NLP with Gensim، مدل سازی LDA، نحوه ساخت یک مدل LDA، انجام چرخش هایپرپارامتر و تعیین تعداد بهینه موضوعات را نشان میدهد. شما مراحل اعمال یک مدل LDA را برای امتیازدهی به اسناد جدید به عنوان بخشی از ابزار بازیابی اطلاعاتی خواهید آموخت.
فصل 12 کتاب The Handbook of NLP with Gensim، تجسم LDA، تجسم LDA را ارائه میدهد. این فصل از کتاب The Handbook of NLP with Gensim با یک تفکر طراحی برای محتوای غنی یک مدل موضوع شروع میشود. سپس نحوه استفاده از pyLADviz برای تجسم را نشان میدهد.
فصل 13، مجموعه LDA برای پایداری مدل، علل ریشه ای ناپایداری LDA را بررسی میکند. این رویکرد Ensemble برای LDA و استفاده از Checkback DBSCAN، یک الگوریتم خوشهبندی، برای ارائه مجموعهای پایدار از موضوعات را توضیح میدهد.
فصل 14، LDA و BERTopic، تکنیک مدلسازی BERTopic را ارائه میکند که از الگوریتم BERT مبتنی بر LLM برای جاسازی کلمات، UMAP برای کاهش ابعاد برای جاسازی کلمات، HDBSCAN برای خوشهبندی موضوع، c-TFIDF برای ارائه کلمات برای موضوعات، و MMR برای موارد دقیق استفاده میکند. نمایش کلمه را برای موضوعات تنظیم کنید. این شما را از طریق مدل سازی BERT، تجسم، و امتیازدهی اسناد جدید برای موضوعات راهنمایی میکند.
فصل 15 کتاب The Handbook of NLP with Gensim، موارد استفاده در دنیای واقعی، هفت پروژه NLP در مراقبتهای بهداشتی، پزشکی، حقوقی، مالی و رسانههای اجتماعی را ارائه میدهد. با یادگیری این راه حلهای NLP، انگیزه خواهید داشت که از دفترچههای کد این کتاب برای انجام کارهای مشابه یا درخواست برای برنامههای آینده خود استفاده کنید.
سرفصلهای The Handbook of NLP with Gensim:
- The Handbook of NLP with Gensim
- Contributors
- About the author
- About the reviewers
- Preface
- Part 1: NLP Basics
- Chapter 1: Introduction to NLP
- Chapter 2: Text Representation
- Chapter 3: Text Wrangling and Preprocessing
- Part 2: Latent Semantic Analysis/Latent Semantic Indexing
- Chapter 4: Latent Semantic Analysis with scikit-learn
- Chapter 5: Cosine Similarity
- Chapter 6: Latent Semantic Indexing with Gensim
- Part 3: Word2Vec and Doc2Vec
- Chapter 7: Using Word2Vec
- Chapter 8: Doc2Vec with Gensim
- Part 4: Topic Modeling with Latent Dirichlet Allocation
- Chapter 9: Understanding Discrete Distributions
- Chapter 10: Latent Dirichlet Allocation
- Chapter 11: LDA Modeling
- Chapter 12: LDA Visualization
- Chapter 13: The Ensemble LDA for Model Stability
- Part 5: Comparison and Applications
- Chapter 14: LDA and BERTopic
- Chapter 15: Real-World Use Cases
- Assessments
- Index
- Other Books You May Enjoy
جهت دانلود کتاب The Handbook of NLP with Gensim میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.