کتاب Python Text Mining (متن کاوی پایتون: انجام پردازش متن، جاسازی کلمه، طبقهبندی متن و ترجمه ماشینی) یک منبع بسیار مناسب برای یادگیری متنکاوی با استفاده از زبان پایتون است. این کتاب تشریح مفاهیم دادهکاوی و متنکاوی به ارائهی پروژههای آن با استفاده از زبان برنامهنویسی پایتون خواهد پرداخت.
در ادامه مقدمهای از کتاب Python Text Mining را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Python Text Mining:
این کتاب بسیاری از جنبههای مختلف پردازش زبان طبیعی (NLP)، اهمیت استخراج ویژگی و درک زمینه در NLP را پوشش میدهد. کتاب Python Text Mining همچنین با کمک پروژهها به معرفی این مفاهیم میپردازد. ابتدا نشان میدهد که چگونه دادههای متنی را میتوان از قبل پردازش کرد. سپس به حل مشکلات صنعت بلادرنگ مرتبط با دادههای متنی مانند درک زمینه یا ترجمه ماشینی و غیره میپردازد. این کتاب اطلاعاتی در مورد سودمندی پایتون در پردازش زبان طبیعی میدهد.
کتاب Python Text Mining از طریق پروژههای NLP رویکردی عملی دارد. این چند نمونه صنعت بلادرنگ را نیز پوشش میدهد. این اطلاعاتی را پوشش میدهد که پایتون اساساً برای پیشپردازش متن و پردازش زبان طبیعی استفاده میکند، که همچنین میتواند برای دستکاری و تبدیل آسان دادهها استفاده شود. شما میتوانید با استفاده از کد و کمی تئوری ارائه شده در این کتاب به عنوان یک طرح، وظایف مختلف پردازش زبان طبیعی را کدنویسی کنید و از همان موارد برای حل وظایف پیچیده پردازش زبان طبیعی استفاده کنید.
کتاب Python Text Mining در 10 فصل تنظیم شده است. آنها اصول اولیه پیشپردازش، تبدیل متون به اعداد و مدلسازی در پردازش زبان طبیعی را پوشش میدهند – همه اینها با استفاده از یک پروژه، به طوری که ما میتوانیم درک عمیق تجاری و همچنین درک فنی روش داشته باشیم. جزئیات در بخش زیر ذکر شده است.
فصل 1: تکنیکهای اولیه پیشپردازش متن
پیشپردازش در دادههای متنی برای تبدیل متن به یک مدل قابل پیشبینی و یک قالب قابل تحلیل انجام میشود. ما به عنوان دانشمندان داده، 95 درصد از زمان خود را صرف پردازش دادهها میکنیم و تنها 5 درصد از زمان را برای ساخت مدل صرف میکنیم. حد پیشپردازش منوط به تخیل فرد است. پیشپردازش اساسی که اجباری است در این فصل از کتاب Python Text Mining مورد بحث قرار خواهد گرفت. اگرچه روشهای مختلفی برای انجام مراحل ذکر شده در این درس وجود دارد، اما مجموعهای از کتابخانهها و برنامهها برای NLP در Python NLTK (Natural Language Toolkit) و مجموعهای از کتابخانهها و کدها به نام عبارات Regular را بررسی خواهیم کرد.
فصل 2: متن به اعداد
مدلهای یادگیری ماشینی نمیتوانند متن یا نویسههای خاص را درک کنند. فقط میتواند اعداد را درک کند. درست مانند رایانه ما که از کامپایلر و مفسر برای تبدیل دادهها از زبان سطح بالا به زبان ماشین استفاده میکند، ما باید تمام متن را به اعداد تبدیل کنیم تا از دادهها برای اهداف پیشبینی و تجزیه و تحلیل استفاده کنیم. این تبدیل دادهها از متن به عدد یا بردار (اصطلاح فانتزی برای نامیدن کلمه تبدیل شده به عنوان اعداد) اجباری است زیرا مدل (هم یادگیری ماشین و هم یادگیری عمیق) نمی تواند چیزی غیر از اعداد را بفهمد.
فصل 3: جاسازی کلمات
این جاسازی کلمات چیزی جز بردارهای کلمه نیستند، یعنی نمایش برداری یک کلمه. این یکی از محبوبترین نمایشهای واژگان سند است. مزیت استفاده از کلمه embedding این است که میتواند ساختار معنایی و نحوی و سایر کلمات مرتبط با این و غیره را به تصویر بکشد. واژه embeddings از روشهای مختلفی استفاده میکند که در فصل 1 کتاب Python Text Mining، تکنیکهای اولیه پیشپردازش متن و فصل 2، متن به اعداد خواهیم خواند.
فصل 4: مدلسازی موضوع
دادهکاوی یکی از وظایف مهم تجزیه و تحلیل داده است. دادهکاوی همه چیز در مورد استخراج اطلاعات از دادهها است. با افزایش تعداد دادههای بدون ساختار، استخراج اطلاعات برای دانشمندان داده سختتر میشود. اما به لطف فناوری، ما توانایی رسیدگی به آنها را داریم. مدلسازی موضوع یکی از تکنیکهای دادهکاوی است. تفاوت بین استفاده از عبارات منظم و مبتنی بر قانون در این است که مدلسازی موضوع یک تکنیک بدون نظارت است که برای استخراج مجموعهای از موضوعات از متن استفاده میشود. میتوان از آنها برای سازماندهی حجم زیادی از دادهها استفاده کرد.
بیشتر بخوانید: کتاب داده کاوی
فصل 5: طبقهبندی احساسات بدون نظارت
متن، به طور کلی، دارای قطبیت، مثبت، منفی یا خنثی است. این استخراج قطبیت به عنوان طبقهبندی احساسات شناخته میشود. معمولاً در سطح جمله انجام میشود. طبقهبندی احساسات در جاهای مختلفی مانند جمعبندی نظرات، تحلیل بازار، شناسایی صدای مشتریان و غیره کاربرد خود را پیدا میکند.
طبقهبندی احساسات بدون نظارت زمانی انجام میشود که متن حاوی برچسب احساسات نباشد. ورودی الگوریتم در این مورد دادههای بدون برچسب خواهد بود تا قطبیتهای پنهان را پیدا کند.
فصل 6: طبقهبندی متن با استفاده از ML
اگر دادهها حاوی برچسب های احساسات نباشند، از طبقهبندی بدون نظارت استفاده خواهیم کرد. اما اگر دادهها حاوی برچسبهای احساسات هستند، تنها کاری که باید انجام دهیم این است که مدلی بسازیم که بر روی دادههای برچسبگذاری شده در سطح جمله از پیشپردازش شده آموزش ببیند و از این طریق الگوهایی را که به قطبیت کمک میکنند شناسایی کند و از این الگوها برای پیشبینی برچسبهای احساسات استفاده کند. دادههای تست این یکی از نمونههایی است که در این فصل از کتاب Python Text Mining درباره آن صحبت خواهیم کرد تا توانایی مدلهای یادگیری ماشینی ساده مانند رگرسیون لجستیک و Naïve Bayes را در مدیریت دادههای متنی نشان دهیم.
فصل 7: طبقهبندی متن با استفاده از یادگیری عمیق
یادگیری عمیق همیشه توانسته است به ما در بسیاری از الگوریتمهای قوی و مؤثر در مورد حجم زیاد داده کمک کند. با این حال، نه تنها با حجم زیاد داده، حتی با توجه به دقت، الگوریتمهای یادگیری عمیق اخیراً حتی از معیار انسانی نیز بهتر عمل کردهاند. طبقهبندی احساسات با مدلهای از پیش آموزش دیده مانند Bert و ELMO یکی از نمونه های این برتری است. ما ابتدا مدلهای یادگیری عمیق را خودمان میسازیم و سپس یاد میگیریم که از مدلهای از پیش آموزش دیده استفاده کرده و آنها را با هم مقایسه کنیم.
فصل 8: موتور توصیه
موتورهای توصیه یا سیستمهای توصیه چیزهایی هستند که در دنیای امروز اغلب با آن مواجه میشوید، از نتفلیکس گرفته تا آمازون، گوگل تا GoodReads، همه وب سایت های تجارت الکترونیک شروع به استفاده از این سیستم های توصیه کرده اند. اینها یکی از کاربردهای یادگیری ماشینی هستند. ما ریاضیات و منطق پشت ساخت اینها را در این فصل از کتاب Python Text Mining خواهیم آموخت.
فصل نهم: ترجمه ماشینی
با قدرت یادگیری ماشینی و یادگیری عمیق، الگوریتم بسیار قدرتمند در زمینه زبانشناسی محاسباتی، ترجمه ماشین عصبی، ارائه می شود. غول هایی مانند مترجم گوگل، مترجم آمازون و غیره نمونههای بسیار خوبی از ترجمه ماشین عصبی هستند. غولهای تجاری جهانی در حال حاضر از این برای ترجمه دادهها از یک زبان به زبان دیگر استفاده بسیار مؤثری می کنند. با تحقیقات روزافزون، نسخههای مختلف و الگوریتمهای متنوعی در حال آزمایش و استفاده برای استفاده در بازار هستند. ما این را با مثالی از ترجمه از انگلیسی به آلمانی در این فصل از کتاب Python Text Mining خواهیم آموخت.
فصل 10: آموزش انتقالی
توانایی استفاده از دانش آموخته شده یا استخراج دانش از یک منبع و به کارگیری آن در مکانی دیگر یکی از مهم ترین و ناشناخته ترین کیفیت ها در درک پردازش زبان طبیعی بوده است. در این فصل از کتاب Python Text Mining، ما یاد خواهیم گرفت که از مدلی استفاده کنیم که از قبل بر روی یک مجموعه زبان بزرگتر آموزش داده شده است و از آن برای انجام کارهای مشابه روی مجموعه داده دیگری استفاده کنیم.
سرفصلهای کتاب Python Text Mining:
- Cover Page
- Title Page
- Copyright Page
- Dedication Page
- About the Author
- About the Reviewer
- Acknowledgement
- Preface
- Errata
- Table of Contents
- 1. Basic Text Processing Techniques
- 2. Text to Numbers
- 3. Word Embeddings
- 4. Topic Modeling
- 5. Unsupervised Sentiment Classification
- 6. Text Classification Using ML
- 7. Text Classification Using Deep Learning
- 8. Recommendation Engine
- 9. Machine Translation
- 10. Transfer Learning
- Index
جهت دانلود کتاب Python Text Mining میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.