کتاب Python Text Mining (متن کاوی پایتون: انجام پردازش متن، جاسازی کلمه، طبقه‌بندی متن و ترجمه ماشینی) یک منبع بسیار مناسب برای یادگیری متن‌کاوی با استفاده از زبان پایتون است. این کتاب تشریح مفاهیم داده‌کاوی و متن‌کاوی به ارائه‌ی پروژه‌های آن با استفاده از زبان برنامه‌نویسی پایتون خواهد پرداخت.

در ادامه مقدمه‌ای از کتاب Python Text Mining را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Python Text Mining:

این کتاب بسیاری از جنبه‌های مختلف پردازش زبان طبیعی (NLP)، اهمیت استخراج ویژگی و درک زمینه در NLP را پوشش می‌دهد. کتاب Python Text Mining همچنین با کمک پروژه‌ها به معرفی این مفاهیم می‌پردازد. ابتدا نشان می‌دهد که چگونه داده‌های متنی را می‌توان از قبل پردازش کرد. سپس به حل مشکلات صنعت بلادرنگ مرتبط با داده‌های متنی مانند درک زمینه یا ترجمه ماشینی و غیره می‌پردازد. این کتاب اطلاعاتی در مورد سودمندی پایتون در پردازش زبان طبیعی می‌دهد.

کتاب Python Text Mining از طریق پروژه‌های NLP رویکردی عملی دارد. این چند نمونه صنعت بلادرنگ را نیز پوشش می‌دهد. این اطلاعاتی را پوشش می‌دهد که پایتون اساساً برای پیش‌پردازش متن و پردازش زبان طبیعی استفاده می‌کند، که همچنین می‌تواند برای دستکاری و تبدیل آسان داده‌ها استفاده شود. شما می‌توانید با استفاده از کد و کمی تئوری ارائه شده در این کتاب به عنوان یک طرح، وظایف مختلف پردازش زبان طبیعی را کدنویسی کنید و از همان موارد برای حل وظایف پیچیده پردازش زبان طبیعی استفاده کنید.

کتاب Python Text Mining در 10 فصل تنظیم شده است. آن‌ها اصول اولیه پیش‌پردازش، تبدیل متون به اعداد و مدل‌سازی در پردازش زبان طبیعی را پوشش می‌دهند – همه این‌ها با استفاده از یک پروژه، به طوری که ما می‌توانیم درک عمیق تجاری و همچنین درک فنی روش داشته باشیم. جزئیات در بخش زیر ذکر شده است.

فصل 1: تکنیک‌های اولیه پیش‌پردازش متن

پیش‌پردازش در داده‌های متنی برای تبدیل متن به یک مدل قابل پیش‌بینی و یک قالب قابل تحلیل انجام می‌شود. ما به عنوان دانشمندان داده، 95 درصد از زمان خود را صرف پردازش داده‌ها می‌کنیم و تنها 5 درصد از زمان را برای ساخت مدل صرف می‌کنیم. حد پیش‌پردازش منوط به تخیل فرد است. پیش‌پردازش اساسی که اجباری است در این فصل از کتاب Python Text Mining مورد بحث قرار خواهد گرفت. اگرچه روش‌های مختلفی برای انجام مراحل ذکر شده در این درس وجود دارد، اما مجموعه‌ای از کتابخانه‌ها و برنامه‌ها برای NLP در Python NLTK (Natural Language Toolkit) و مجموعه‌ای از کتابخانه‌ها و کدها به نام عبارات Regular را بررسی خواهیم کرد.

فصل 2: متن به اعداد

مدل‌های یادگیری ماشینی نمی‌توانند متن یا نویسه‌های خاص را درک کنند. فقط می‌تواند اعداد را درک کند. درست مانند رایانه ما که از کامپایلر و مفسر برای تبدیل داده‌ها از زبان سطح بالا به زبان ماشین استفاده می‌کند، ما باید تمام متن را به اعداد تبدیل کنیم تا از داده‌ها برای اهداف پیش‌بینی و تجزیه و تحلیل استفاده کنیم. این تبدیل داده‌ها از متن به عدد یا بردار (اصطلاح فانتزی برای نامیدن کلمه تبدیل شده به عنوان اعداد) اجباری است زیرا مدل (هم یادگیری ماشین و هم یادگیری عمیق) نمی تواند چیزی غیر از اعداد را بفهمد.

فصل 3: جاسازی کلمات

این جاسازی کلمات چیزی جز بردارهای کلمه نیستند، یعنی نمایش برداری یک کلمه. این یکی از محبوب‌ترین نمایش‌های واژگان سند است. مزیت استفاده از کلمه embedding این است که می‌تواند ساختار معنایی و نحوی و سایر کلمات مرتبط با این و غیره را به تصویر بکشد. واژه embeddings از روش‌های مختلفی استفاده می‌کند که در فصل 1 کتاب Python Text Mining، تکنیک‌های اولیه پیش‌پردازش متن و فصل 2، متن به اعداد خواهیم خواند.

فصل 4: مدل‌سازی موضوع

داده‌کاوی یکی از وظایف مهم تجزیه و تحلیل داده است. داده‌کاوی همه چیز در مورد استخراج اطلاعات از داده‌ها است. با افزایش تعداد داده‌های بدون ساختار، استخراج اطلاعات برای دانشمندان داده سخت‌تر می‌شود. اما به لطف فناوری، ما توانایی رسیدگی به آن‌ها را داریم. مدل‌سازی موضوع یکی از تکنیک‌های داده‌کاوی است. تفاوت بین استفاده از عبارات منظم و مبتنی بر قانون در این است که مدل‌سازی موضوع یک تکنیک بدون نظارت است که برای استخراج مجموعه‌ای از موضوعات از متن استفاده می‌شود. می‌توان از آن‌ها برای سازماندهی حجم زیادی از داده‌ها استفاده کرد.

بیشتر بخوانید: کتاب داده کاوی

فصل 5: طبقه‌بندی احساسات بدون نظارت

متن، به طور کلی، دارای قطبیت، مثبت، منفی یا خنثی است. این استخراج قطبیت به عنوان طبقه‌بندی احساسات شناخته می‌شود. معمولاً در سطح جمله انجام می‌شود. طبقه‌بندی احساسات در جاهای مختلفی مانند جمع‌بندی نظرات، تحلیل بازار، شناسایی صدای مشتریان و غیره کاربرد خود را پیدا می‌کند.

طبقه‌بندی احساسات بدون نظارت زمانی انجام می‌شود که متن حاوی برچسب احساسات نباشد. ورودی الگوریتم در این مورد داده‌های بدون برچسب خواهد بود تا قطبیت‌های پنهان را پیدا کند.

فصل 6: طبقه‌بندی متن با استفاده از ML

اگر داده‌ها حاوی برچسب های احساسات نباشند، از طبقه‌بندی بدون نظارت استفاده خواهیم کرد. اما اگر داده‌ها حاوی برچسب‌های احساسات هستند، تنها کاری که باید انجام دهیم این است که مدلی بسازیم که بر روی داده‌های برچسب‌گذاری شده در سطح جمله از پیش‌پردازش شده آموزش ببیند و از این طریق الگوهایی را که به قطبیت کمک می‌کنند شناسایی کند و از این الگوها برای پیش‌بینی برچسب‌های احساسات استفاده کند. داده‌های تست این یکی از نمونه‌هایی است که در این فصل از کتاب Python Text Mining درباره آن صحبت خواهیم کرد تا توانایی مدل‌های یادگیری ماشینی ساده مانند رگرسیون لجستیک و Naïve Bayes را در مدیریت داده‌های متنی نشان دهیم.

فصل 7: طبقه‌بندی متن با استفاده از یادگیری عمیق

یادگیری عمیق همیشه توانسته است به ما در بسیاری از الگوریتم‌های قوی و مؤثر در مورد حجم زیاد داده کمک کند. با این حال، نه تنها با حجم زیاد داده، حتی با توجه به دقت، الگوریتم‌های یادگیری عمیق اخیراً حتی از معیار انسانی نیز بهتر عمل کرده‌اند. طبقه‌بندی احساسات با مدل‌های از پیش آموزش دیده مانند Bert و ELMO یکی از نمونه های این برتری است. ما ابتدا مدل‌های یادگیری عمیق را خودمان می‌سازیم و سپس یاد می‌گیریم که از مدل‌های از پیش آموزش دیده استفاده کرده و آن‌ها را با هم مقایسه کنیم.

فصل 8: موتور توصیه

موتورهای توصیه یا سیستم‌های توصیه چیزهایی هستند که در دنیای امروز اغلب با آن مواجه می‌شوید، از نتفلیکس گرفته تا آمازون، گوگل تا GoodReads، همه وب سایت های تجارت الکترونیک شروع به استفاده از این سیستم های توصیه کرده اند. اینها یکی از کاربردهای یادگیری ماشینی هستند. ما ریاضیات و منطق پشت ساخت این‌ها را در این فصل از کتاب Python Text Mining خواهیم آموخت.

فصل نهم: ترجمه ماشینی

با قدرت یادگیری ماشینی و یادگیری عمیق، الگوریتم بسیار قدرتمند در زمینه زبان‌شناسی محاسباتی، ترجمه ماشین عصبی، ارائه می شود. غول هایی مانند مترجم گوگل، مترجم آمازون و غیره نمونه‌های بسیار خوبی از ترجمه ماشین عصبی هستند. غول‌های تجاری جهانی در حال حاضر از این برای ترجمه داده‌ها از یک زبان به زبان دیگر استفاده بسیار مؤثری می کنند. با تحقیقات روزافزون، نسخه‌های مختلف و الگوریتم‌های متنوعی در حال آزمایش و استفاده برای استفاده در بازار هستند. ما این را با مثالی از ترجمه از انگلیسی به آلمانی در این فصل از کتاب Python Text Mining خواهیم آموخت.

فصل 10: آموزش انتقالی

توانایی استفاده از دانش آموخته شده یا استخراج دانش از یک منبع و به کارگیری آن در مکانی دیگر یکی از مهم ترین و ناشناخته ترین کیفیت ها در درک پردازش زبان طبیعی بوده است. در این فصل از کتاب Python Text Mining، ما یاد خواهیم گرفت که از مدلی استفاده کنیم که از قبل بر روی یک مجموعه زبان بزرگتر آموزش داده شده است و از آن برای انجام کارهای مشابه روی مجموعه داده دیگری استفاده کنیم.

سرفصل‌های کتاب Python Text Mining:

Cover Page
Title Page
Copyright Page
Dedication Page
About the Author
About the Reviewer
Acknowledgement
Preface
Errata
Table of Contents
1. Basic Text Processing Techniques
2. Text to Numbers
3. Word Embeddings
4. Topic Modeling
5. Unsupervised Sentiment Classification
6. Text Classification Using ML
7. Text Classification Using Deep Learning
8. Recommendation Engine
9. Machine Translation
10. Transfer Learning
Index

جهت دانلود کتاب Python Text Mining می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub
ویرایش	First
ISBN	978-93-89898-781
تعداد صفحات	320
انتشارات	BPB Publications
سال انتشار	2022
حجم	5.17 مگابایت
نویسنده	Alexandra George

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Python Text Mining”

کتاب Python Text Mining

خرید کتاب Python Text Mining:

مقدمه‌ای بر کتاب Python Text Mining:

سرفصل‌های کتاب Python Text Mining:

دیدگاهها

خرید کتاب Python Text Mining:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: