کتاب Machine Learning Techniques for Text (تکنیکهای یادگیری ماشین برای متن: استفاده از تکنیکهای مدرن با پایتون برای پردازش متن، کاهش ابعاد، طبقهبندی و ارزیابی) یک منبع بینظیر برای یادگیری برنامهنویسی پایتون جهت استفاده در یادگیری ماشین در متن است.
در ادامه مقدمهای از کتاب Machine Learning Techniques for Text را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Machine Learning Techniques for Text:
ساخت ماشینهایی که میتوانند از دادهها برای انجام تصمیمات هوشمند بیاموزند، در حال تبدیل شدن به پارادایم غالب در بسیاری از حوزههای فناوری است. به دست آوردن مجموعه مهارتهای لازم برای انجام این کار قطعا باعث رونق شغلی شما خواهد شد.
تکنیکهای یادگیری ماشینی برای متن با تمرکز ویژه بر دادههای متنی و زبان انسانی به شما در این تلاش کمک میکند. این کتاب به شما نشان میدهد که چگونه دادههای متنی را تجزیه و تحلیل کنید، با یادگیری ماشینی شروع کنید و با کتابخانههای پایتون که اغلب برای این کارها استفاده میشوند، مانند Pandas، NumPy، matplotlib، seaborn و scikit-learn به طور موثر کار کنید. شما همچنین این فرصت را خواهید داشت که با فریمورکهای پیشرفته یادگیری عمیق مانند TensorFlow، Keras و PyTorch کار کنید.
منابع فراوانی برای تسلط بر زمینه یادگیری ماشین برای متن وجود دارد، از جمله مفاهیم نظری پیچیده که اغلب در یک زبان ریاضی سخت بیان میشوند. برعکس، منابع دیگر به طور نامتناسبی بر روی کد پایتون تمرکز میکنند و مبانی نظری پشت انتخابهای طراحی کم عمق باقی میمانند.
کتاب Machine Learning Techniques for Text مسیری میانه را برای حفظ تعادل مناسب بین تئوری و عمل هدایت میکند. استعاره خوبی که محتوای کتاب بر آن استوار است، رابطه بین یک صنعتگر باتجربه و کارآموزش است. بر اساس مشکل، صنعتگر ابزاری را از جعبه ابزار انتخاب میکند، کاربرد آن را توضیح میدهد و آن را وارد عمل میکند. این رویکرد به شما کمک میکند تا حداقل یک کاربرد عملی را برای روش یا تکنیک ارائه شده شناسایی کنید.
در هر فصل کتاب Machine Learning Techniques for Text، ما بر روی یک مطالعه موردی خاص با استفاده از مجموعه دادههای دنیای واقعی تمرکز میکنیم. به همین دلیل، کتاب راهحلگرا است و کد پایتون در قالب نوتبوکهای Jupyter به شما کمک میکند تا تجربه عملی داشته باشید. این رویکرد مطالعه موردی به شما این امکان را میدهد که با سهولت بیشتری در یادگیری مشارکت داشته باشید و نه فقط به طور منفعلانه اطلاعات را جذب کنید.
هر بار، بیان مسئله از ابتدا تنظیم میشود و همه از چالش آگاه هستند. حتی اگر بحث به طور موقت از هدف اصلی منحرف شود، به عنوان مثال، ارائه یک مفهوم اساسی، شما به راحتی روی مسئله مورد مطالعه تغییر جهت خواهید داد. یک الگوی تکرارشونده در فصول این است که ابتدا سعی میکنیم شهودی در مورد دادهها به دست آوریم و سپس راه حلهای مختلف را پیادهسازی و مقایسه کنیم.
در پایان این کتاب، میتوانید تکنیکهای مختلفی را با پایتون برای پیشپردازش متن، نمایش متن، کاهش ابعاد، یادگیری ماشین، مدلسازی زبان، تجسم و ارزیابی درک کرده و به کار ببرید. این مجموعه مهارتهای متنوع به شما این امکان را میدهد که به طور یکپارچه روی مشکلات مشابه کار کنید.
کتاب Machine Learning Techniques for Text برای چه کسی است؟
مخاطبان این کتاب متخصصانی در زمینههای علوم کامپیوتر، برنامهنویسی، علم داده، انفورماتیک، تجزیه و تحلیل کسب و کار، آمار، فناوری زبان و غیره هستند که هدفشان تغییر شغلی ملایم در یادگیری ماشینی برای متن است. دانشجویان رشتههای مرتبط که به دنبال کتاب درسی در این زمینه هستند از جنبههای کاربردی محتوا و نحوه ارائه نظریه بهره مند خواهند شد. در نهایت، اساتیدی که دروس مشابهی را تدریس میکنند، میتوانند موضوعات مرتبط را از نظر محتوا و دشواری انتخاب کنند. برای یادگیری از این کتاب به دانش سطح مبتدی برنامه نویسی پایتون نیاز است.
آنچه کتاب Machine Learning Techniques for Text پوشش میدهد:
فصل 1، معرفی یادگیری ماشین برای متن، تکنیکهای اصلی برای یادگیری ماشین برای متن، اصطلاحات مربوطه، و مفاهیم در هنگام استفاده از پیکرههای متنی را ارائه میدهد. شما خود را با مفاهیم اساسی در پس پردازش متن و چالشهای ویژهای که هنگام درمان زبان انسانی با آن مواجه میشوید آشنا خواهید کرد. ما همچنین در مورد مفهوم آنچه که یک ماشین میتواند یاد بگیرد، همراه با طبقه بندی انواع مختلف یادگیری بحث میکنیم. فصل با معرفی اهمیت تکنیکهای تجسم و ارزیابی کامل میشود.
فصل 2 کتاب Machine Learning Techniques for Text، شناسایی ایمیلهای هرزنامه، یک تمرین معمولی در یادگیری ماشینی برای متن ارائه میکند: تشخیص هرزنامه. هدف ایجاد طبقهبندیکنندههایی است که بین ایمیلهای اسپم و غیر هرزنامه با استفاده از مجموعه دادههای منبع باز تمایز قائل شوند. این فصل به تشریح این موضوع میپردازد که چرا انتخاب ویژگی در این نوع مشکل دشوار است و تکنیکهای اساسی برای نمایش دادههای متنی و پیشپردازش آن را معرفی میکند. این فصل بر یادگیری نظارت شده با استفاده از الگوریتمهای ساده بیز و SVM تمرکز دارد که بر اساس معیارهای عملکرد استاندارد ارزیابی میشوند.
فصل 3 کتاب Machine Learning Techniques for Text، طبقهبندی موضوعات پستهای گروههای خبری، به مشکل تخصیص یک برچسب موضوع به بخشی از متن میپردازد. دوباره، مفاهیم و تکنیکهای جدید با استفاده از یک مجموعه داده منبع باز ارائه شده است. مرحله تجزیه و تحلیل دادههای اکتشافی رسمی میشود و شما با مفهوم کاهش ابعاد با استفاده از PCA و LDA آشنا میشوید. این فصل بر یادگیری بدون نظارت متمرکز است. جاسازی کلمه نمایش متن جدیدی است که در فصل معرفی شده است و تجزیه و تحلیل بر اساس الگوریتمهای KNN و Random Forests است.
فصل 4 کتاب Machine Learning Techniques for Text، استخراج احساسات از بررسیهای محصول، تجزیه و تحلیلی از چگونگی استخراج احساسات از یک مجموعه داده شده ارائه میدهد. شما یاد خواهید گرفت که چگونه تجزیه و تحلیل دادههای اکتشافی را گسترش دهید و چگونه از کاهش ابعاد نه تنها برای تجسم بلکه برای انتخاب ویژگی استفاده کنید.
اکنون تمرکز بر تکنیکهای یادگیری عمیق است و برای تسهیل توضیح آنها، این فصل رگرسیون خطی و لجستیک را مورد بحث قرار میدهد. مفاهیم مربوط به به حداقل رساندن تلفات و نزول گرادیان بخشی از این بحث را تشکیل میدهند. شما یاد خواهید گرفت که چگونه یک مدل شبکه عصبی عمیق را در Keras برای تجزیه و تحلیل احساسات بسازید، آموزش دهید و آزمایش کنید.
فصل 5 کتاب Machine Learning Techniques for Text، توصیه عناوین موسیقی، به سیستمهای توصیه گر و نحوه ترکیب آنها برای پیشنهاد عناوین موسیقی به مشتریان میپردازد. سیستمهایی از این نوع را میتوان به انواع مبتنی بر محتوا و فیلتر مشارکتی طبقه بندی کرد و هر دو در سراسر فصل ارائه شده اند. با استفاده از یک مجموعه داده منبع باز، t-SNE و RBM را برای ارائه توصیههای معنادار برای مشکل مورد مطالعه اعمال میکنیم. تنظیم همچنین بخشی ضروری از هر الگوریتم یادگیری ماشینی است، و این فصل به بحث در مورد جستجوی شبکه برای شناسایی ترکیب بهینه ابرپارامترها اختصاص دارد.
فصل ششم کتاب Machine Learning Techniques for Text، آموزش ماشینها برای ترجمه، تکنیکهای مختلفی را برای ترجمه ماشینی ارائه میکند. ترجمه ماشینی مبتنی بر قانون و آماری راهی عالی برای معرفی مفاهیم اساسی در مورد موضوع است. شما با روشهای معمولی NLP مانند برچسب گذاری POS، درختان تجزیه و NER آشنا خواهید شد.
بحث در مورد مدلهای یادگیری عمیق چالشبرانگیزتر میشود زیرا اکنون تمرکز بر یادگیری ترتیب به ترتیب است. یک بخش توسعه یافته به طور مفصل معماری رمزگذار/رمزگشای معروف را با استفاده از RNN و LSTM توصیف میکند. یک مدل seq2seq برای ایجاد یک مترجم انگلیسی به فرانسوی وارد عمل میشود و فصل با ارزیابی معمولی سیستمهای ترجمه ماشینی بر اساس امتیاز BLEU به پایان میرسد.
فصل 7 کتاب Machine Learning Techniques for Text، خلاصه کردن مقالات ویکیپدیا، خلاصهسازی متن را با دادههای خراشیده شده از اینترنت و ویکیپدیا انجام میدهد و برای این کار، نحوه ترکیب ابزارهای اسکراپی وب را خواهید آموخت.
پس از ارائه چند تکنیک اولیه خلاصهسازی متن و اعمال آنها در دادههای خراشیده شده، بحث به سمت موضوعات پیشرفتهتر میرود. شما مفهوم توجه را که اغلب در مدلهای یادگیری عمیق با آن مواجه میشوید، یاد خواهید گرفت و با مدلهای پیشرفتهای مانند ترانسفورماتور آشنا میشوید. ما یک شبکه Transformer را در مقالات ویکیپدیا آموزش میدهیم تا خلاصههای آنها را استخراج کنیم. امتیاز ROUGE برای ارزیابی کیفیت خلاصه سازی به عنوان معیار عملکرد استفاده میشود.
فصل 8 کتاب Machine Learning Techniques for Text، تشخیص زبان تنفر آمیز و توهین آمیز، به چگونگی شناسایی نفرت و زبان توهین آمیز در توییتر میپردازد. ما از مدل زبان BERT بر اساس معماری ترانسفورماتور استفاده میکنیم، که امکان تنظیم دقیق مدلهای از پیش آموزش دیده را با مجموعه دادههای سفارشی ما فراهم میکند.
ما همچنین نقش مجموعه اعتبارسنجی را برای تنظیم دقیق فراپارامترهای مدل و استراتژیهای مقابله با دادههای نامتعادل بررسی میکنیم. وظایف طبقه بندی بر اساس الگوریتمهای تقویت و CNN است.
فصل 9 کتاب Machine Learning Techniques for Text، تولید متن در چتباتها، بر اجرای چت رباتهای مبتنی بر بازیابی و تولیدی تمرکز دارد. طیف وسیعی از تکنیکهای NLP در سراسر فصل ارائه شده است که از عبارات منظم ساده شروع میشود. سپس، ما به سمت راه حلهای پیچیده تر بر اساس یادگیری عمیق حرکت میکنیم. ما نحوه ایجاد مدلهای زبان را از ابتدا یا تنظیم دقیق مدلهای از پیش آموزش دیده را ارائه میدهیم.
همچنین با یادگیری تقویتی و همچنین نحوه ایجاد رابط کاربری گرافیکی که بتواند چت بات پیاده سازی شده را میزبانی کند، آشنا خواهید شد. در نهایت، ما گیجی را به عنوان یک معیار ارزیابی ارائه میکنیم و در مورد TensorBoard بحث میکنیم، که به ما کمک میکند تا مکانیک داخلی شبکههای عصبی عمیق را روشن کنیم.
فصل 10 کتاب Machine Learning Techniques for Text، خوشهبندی رونویسیهای گفتار به متن، بر روی گفتار رونویسی شده خوشهبندی میکند تا آنها را به گروههای مختلف تقسیم کند. ما از سیستمی استفاده میکنیم که میتواند به طور خودکار گفتار انسان را به متن تبدیل کند و نحوه ارزیابی عملکرد آن را با استفاده از WER بررسی کند. روشهای خوشهبندی معرفی شده عبارتند از: خوشهبندی سلسله مراتبی، k-means و DBSCAN. در نهایت، بحث مربوطه در مورد چگونگی انتخاب تعداد بهینه خوشه وجود دارد. فصل با استفاده از خوشهبندی نرم و LDA برای شناسایی موضوعات در مجموعه داده به پایان میرسد.
سرفصلهای کتاب Machine Learning Techniques for Text:
- Acknowledgments
- Contributors
- About the author
- About the reviewers
- Preface
- Chapter 1: Introducing Machine Learning for Text
- Chapter 2: Detecting Spam Emails
- Chapter 3: Classifying Topics of Newsgroup Posts
- Chapter 4: Extracting Sentiments from Product Reviews
- Chapter 5: Recommending Music Titles
- Chapter 6: Teaching Machines to Translate
- Chapter 7: Summarizing Wikipedia Articles
- Chapter 8: Detecting Hateful and Offensive Language
- Chapter 9: Generating Text in Chatbots
- Chapter 10: Clustering Speech-to-Text Transcriptions
- Index
- Other Books You May Enjoy
جهت دانلود کتاب Machine Learning Techniques for Text میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.