کتاب Data Science Bookcamp یکی از بهترین منابع برای یادگیری علوم داده میباشد. این کتاب با اجرای 5 پروژه در دنیای واقعی با زبان برنامهنویسی پایتون، ترفندها و نکات مهم علم داده را به شما آموزش میدهد.
در ادامه مقدمهای از کتاب Data Science Bookcamp را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Data Science Bookcamp:
یک کاندیدای امیدوارکننده دیگر در مصاحبه علم داده خود شکست خورده بود، و من شروع به تعجب کردم که چرا. سال 2018 بود، و من برای گسترش تیم علم داده در استارتآپم تلاش میکردم. من با دهها نامزد به ظاهر واجد شرایط مصاحبه کرده بودم، اما همه آنها را رد کردم.
آخرین متقاضی رد شده، دکترای اقتصاد از یک مدرسه درجه یک بود. اخیراً، متقاضی پس از گذراندن یک بوتکمپ 10 هفتهای، وارد علم داده شده است.
من از متقاضی خواستم در مورد یک مشکل تحلیلی که بسیار مرتبط با شرکت ما بود، صحبت کند. آنها بلافاصله یک الگوریتم مرسوم را ارائه کردند که برای این موقعیت قابل اجرا نبود. وقتی سعی کردم در مورد ناسازگاریهای الگوریتم بحث کنم، نامزد شکست خورد. آنها نمیدانستند الگوریتم واقعاً چگونه کار میکند یا شرایط مناسب برای استفاده از آن را نمیدانستند. این جزئیات در بوتکمپ به آنها آموزش داده نشده بود.
پس از خروج کاندیدای رد شده، شروع به تفکر در مورد آموزش علوم داده خودم کردم. چقدر فرق کرده بود! در سال 2006، علم داده هنوز انتخاب شغلی مطلوبی نبود و بوتکمپهای DS هنوز وجود نداشتند. در آن روزها، من یک دانشآموز فقیر بودم که در سانفرانسیسکوی گرانقیمت برای پرداخت اجارهبها تلاش میکردم.
تحقیقات فارغالتحصیلی من از من خواسته بود که میلیونها پیوند ژنتیکی را با بیماریها تجزیه و تحلیل کنم. من متوجه شدم که مهارتهای من قابل انتقال به سایر حوزههای تجزیه و تحلیل است و بنابراین مشاوره علوم داده من متولد شد. بدون اطلاع مشاور فارغ التحصیلم، شروع به درخواست کار تجزیه و تحلیل از شرکتهای تصادفی منطقه خلیج کردم. آن کار آزاد به پرداخت صورتحسابها کمک کرد، بنابراین من نمیتوانستم در مورد تکالیف مبتنی بر دادهای که انجام میدادم، خیلی اهل انتخاب باشم.
بنابراین، من برای انواع وظایف علم داده ثبت نام میکنم، از تجزیه و تحلیلهای آماری ساده تا مدلسازی پیش بینی پیچیده. گاهی اوقات در یک مشکل به ظاهر غیرقابل حل داده غرق میشوم، اما در نهایت، استقامت میکنم.
مبارزات من تفاوتهای ظریف تکنیکهای تجزیه و تحلیل متنوع و چگونگی ترکیب آنها را برای رسیدن به راه حلهای زیبا به من آموخت. مهمتر از آن، من یاد گرفتم که چگونه تکنیکهای رایج شکست میخورند و چگونه میتوان بر این نقاط شکست غلبه کرد تا نتایج تأثیرگذار را به ارمغان آورد. همانطور که مجموعه مهارتهای من رشد کرد، حرفه علم داده من شروع به شکوفایی کرد. در نهایت من در این زمینه پیشرو شدم.
آیا میتوانستم به همان سطح موفقیت از طریق حفظ حروف در یک بوتکمپ 10 هفتهای دست پیدا کنم؟ احتمالا نه. بسیاری از بوتکمپها مطالعه الگوریتمهای مستقل را به مهارتهای حل مسئله منسجم تر ترجیح میدهند. علاوه بر این، تبلیغات بر روی نقاط قوت یک الگوریتم بیشتر بر نقاط ضعف آن تاکید میشود. در نتیجه، گاهی اوقات دانشآموزان برای مدیریت علم داده در محیطهای واقعی آمادگی ندارند. این بینش مرا برای نوشتن کتاب Data Science Bookcamp ترغیب کرد.
تصمیم گرفتم با قرار دادن شما، خوانندگان من، در معرض مجموعهای از مشکلات تحلیلی چالشبرانگیز، آموزش علوم داده خودم را تکرار کنم. علاوه بر این، من تصمیم گرفتم که شما را با ابزارها و تکنیکهای مورد نیاز برای مدیریت مؤثر این مشکلات مسلح کنم. هدف من این است که به طور کلی به شما کمک کنم مهارت های حل مسئله تحلیلی خود را پرورش دهید. به این ترتیب، وقتی برای آن موقعیت شغلی دانشآموزی داده مصاحبه میکنید، احتمال بیشتری برای به دست آوردن این شغل خواهید داشت.
تواناییهای حل مسئله باز برای حرفه علم داده ضروری است. متأسفانه این تواناییها را نمیتوان به سادگی با خواندن به دست آورد. برای تبدیل شدن به یک حلال مشکل، باید به طور مداوم مشکلات دشوار را حل کنید.
با در نظر گرفتن این موضوع، من ساختار کتابم را بر اساس مطالعات موردی تنظیم کردهام: مشکلات پایان باز با الگوبرداری از موقعیتهای دنیای واقعی. مطالعات موردی از تجزیه و تحلیل تبلیغات آنلاین تا ردیابی شیوع بیماری با استفاده از دادههای خبری را شامل میشود. پس از تکمیل این مطالعات موردی، برای شروع حرفهای در علم داده مناسب خواهید بود.
چه کسی باید کتاب Data Science Bookcamp را بخواند؟
خواننده مورد نظر این کتاب یک تازه کار تحصیل کرده است که علاقهمند به انتقال به حرفه علم داده است. وقتی یک خواننده معمولی را تصور میکنم، دانشجوی سال چهارمی را در حال تحصیل در رشته اقتصاد تصور میکنم که میخواهد طیف وسیعتری از فرصتهای تحلیلی را کشف کند، یا یک رشته شیمی که قبلاً از مدرسه خارج شده است و به دنبال مسیر شغلی مبتنی بر داده است.
یا شاید خواننده یک توسعهدهنده وب پیشانی موفق با پیشزمینه ریاضی بسیار محدود است که میخواهد به علم داده کمک کند. هیچ یک از خوانندگان بالقوه من تا به حال در کلاس علم داده شرکت نکرده اند، و آنها را در تحلیل دادههای متنوع بی تجربه میکند. هدف کتاب Data Science Bookcamp رفع آن کمبود مهارت است.
خوانندگان من باید اصول اولیه برنامه نویسی پایتون را بدانند.
پایتون شروع خودآموز باید برای کشف تمرینات کتاب Data Science Bookcamp کافی باشد. انتظار نمیرود دانش ریاضی شما فراتر از مثلثات ابتدایی دبیرستان باشد.
نحوه سازماندهی کتاب Data Science Bookcamp
این کتاب شامل پنج مطالعه موردی در مورد مشکل پیشرفت است. هر مطالعه موردی با یک بیانیه مشکل مفصل شروع میشود که باید آن را حل کنید.
بیان مسئله توسط دو تا پنج بخش دنبال میشود که مهارتهای علم داده مورد نیاز برای حل مسئله را معرفی میکند. این بخشهای مهارت، کتابخانههای بنیادی، و همچنین تکنیکهای ریاضی و الگوریتمی را پوشش میدهند. هر بخش مطالعه موردی نهایی راه حل مشکل را شرح میدهد. مطالعه موردی 1 به نظریه احتمال اولیه مربوط میشود:
بخش 1 نحوه محاسبه احتمالات را با استفاده از پایتون ساده بحث میکند.
بخش 2 مفهوم توزیع احتمال را معرفی میکند. همچنین کتابخانه تجسم Matplotlib را معرفی میکند که میتواند برای تجسم توزیعها استفاده شود.
بخش 3 چگونگی برآورد احتمالات را با استفاده از شبیهسازیهای تصادفی مورد بحث قرار میدهد. کتابخانه محاسباتی عددی NumPy برای تسهیل اجرای شبیهسازی کارآمد معرفی شده است.
بیشتر بخوانید: کتاب Numerical Python
بخش 4 شامل راه حل مطالعه موردی است. مطالعه موردی 2 فراتر از احتمال به آمار گسترش مییابد:
بخش 5 کتاب Data Science Bookcamp معیارهای آماری ساده مرکزیت و پراکندگی را معرفی میکند. همچنین کتابخانه محاسباتی علمی SciPy را معرفی میکند که حاوی یک ماژول آمار مفید است.
بخش 6 عمیقاً به قضیه حد مرکزی میپردازد که میتوان از آن برای پیشبینیهای آماری استفاده کرد.
بخش 7 تکنیکهای استنتاج آماری مختلفی را مورد بحث قرار میدهد که میتوان از آنها برای تشخیص الگوهای دادههای جالب از نویز تصادفی استفاده کرد. علاوه بر این، این بخش خطرات استفاده از استنتاج نادرست و چگونگی اجتناب از این خطرات را به بهترین شکل نشان میدهد.
بخش 8 کتاب Data Science Bookcamp، کتابخانه Pandas را معرفی میکند که میتوان از آن برای پیشپردازش دادههای جدولی قبل از تجزیه و تحلیل آماری استفاده کرد.
بخش 9 شامل راه حل مطالعه موردی است. مطالعه موردی 3 بر خوشهبندی بدون نظارت دادههای جغرافیایی متمرکز است:
بخش 10 نشان میدهد که چگونه میتوان از معیارهای مرکزیت برای خوشهبندی دادهها در گروهها استفاده کرد. کتابخانه scikit-learn نیز برای تسهیل خوشهبندی کارآمد معرفی شده است.
بخش 11 بر استخراج و تجسم دادههای جغرافیایی تمرکز دارد. استخراج از متن با کتابخانه GeoNamesCache انجام میشود، در حالی که تجسم با استفاده از کتابخانه نقشهبرداری Cartopy به دست میآید.
بخش 12 کتاب Data Science Bookcamp، شامل راه حلهای مطالعه موردی است. مطالعه موردی 4 بر پردازش زبان طبیعی با استفاده از محاسبات عددی در مقیاس بزرگ تمرکز دارد:
بخش 13 نحوه محاسبه مؤثر شباهتها بین متون با استفاده از ضرب ماتریس را نشان میدهد. بهینهسازیهای ماتریس داخلی NumPy به طور گسترده برای این منظور استفاده میشوند.
بخش 14 کتاب Data Science Bookcamp، نحوه استفاده از کاهش ابعاد را برای تحلیل ماتریس کارآمدتر نشان میدهد. نظریه ریاضی در ارتباط با روشهای کاهش ابعاد scikit-learn مورد بحث قرار میگیرد.
بخش 15 کتاب Data Science Bookcamp، تکنیکهای پردازش زبان طبیعی را برای مجموعه داده متنی بسیار بزرگ اعمال میکند. در این بخش نحوه کاوش و خوشهبندی دادههای متنی به بهترین شکل بحث میشود.
بخش 16 کتاب Data Science Bookcamp، نحوه استخراج متن از دادههای آنلاین را با استفاده از کتابخانه Beautiful Soup، تجزیه HTML را نشان میدهد.
بخش 17 شامل راه حل مطالعه موردی است. مطالعه موردی 5 کتاب را با بحث در مورد تئوری شبکه و یادگیری ماشین تحت نظارت کامل میکند:
بخش 18 نظریه اصلی شبکه را در ارتباط با کتابخانه تحلیل گراف NetworkX معرفی میکند.
بخش 19 نحوه استفاده از جریان شبکه برای یافتن خوشهها در دادههای شبکه را نشان میدهد. برای دستیابی به خوشهبندی مؤثر از شبیهسازیهای احتمالی و ضرب ماتریس استفاده میشود.
بخش 20 کتاب Data Science Bookcamp، یک الگوریتم یادگیری ماشینی نظارت شده ساده بر اساس تئوری شبکه را معرفی میکند. تکنیکهای رایج ارزیابی یادگیری ماشین نیز با استفاده از Sikit-Learn نشان داده شدهاند.
بخش 21 Data Science Bookcamp تکنیکهای یادگیری ماشین اضافی را مورد بحث قرار میدهد که بر طبقهبندیکنندههای خطی کارآمد حافظه تکیه دارند.
بخش 22 کتاب Data Science Bookcamp، به بررسی کاستیهای روشهای یادگیری نظارتشده قبلی میپردازد. عیبها متعاقباً با استفاده از طبقهبندیکننده درخت تصمیم غیرخطی دور زده میشوند.
بخش 23 کتاب Data Science Bookcamp، شامل راه حل مطالعه موردی است. هر بخش از کتاب Data Science Bookcamp بر اساس الگوریتمها و کتابخانههای معرفی شده در بخشهای قبلی است. از این رو، شما تشویق میشوید برای به حداقل رساندن سردرگمی، جلد این کتاب را مرور کنید.
اما اگر قبلاً با زیرمجموعه ای از مطالب کتاب آشنا هستید، از آن مطالب آشنا صرف نظر کنید. در نهایت، اکیداً توصیه میکنم که قبل از خواندن راهحل، هر مشکل مطالعه موردی را به تنهایی حل کنید. تلاش مستقل برای حل هر مشکل، ارزش کتاب Data Science Bookcamp را به حداکثر میرساند.
سرفصلهای کتاب Data Science Bookcamp:
- preface
- acknowledgments
- about this book
- about the author
- about the cover illustration
- CASE STUDY 1 FINDING THE WINNING STRATEGY IN A CARD GAME
- 1 ■ Computing probabilities using Python
- 2 ■ Plotting probabilities using Matplotlib
- 3 ■ Running random simulations in NumPy
- 4 ■ Case study 1 solution
- CASE STUDY 2 ASSESSING ONLINE AD CLICKS FOR SIGNIFICANCE
- 5 ■ Basic probability and statistical analysis using SciPy
- 6 ■ Making predictions using the central limit theorem and SciPy
- 7 ■ Statistical hypothesis testing
- 8 ■ Analyzing tables using Pandas
- 9 ■ Case study 2 solution
- CASE STUDY 3 TRACKING DISEASE OUTBREAKS USING NEWS HEADLINES
- 10 ■ Clustering data into groups
- 11 ■ Geographic location visualization and analysis
- 12 ■ Case study 3 solution
- CASE STUDY 4 USING ONLINE JOB POSTINGS TO IMPROVE YOUR DATA SCIENCE RESUME
- 13 ■ Measuring text similarities
- 14 ■ Dimension reduction of matrix data
- 15 ■ NLP analysis of large text datasets
- 16 ■ Extracting text from web pages
- 17 ■ Case study 4 solution
- CASE STUDY 5 PREDICTING FUTURE FRIENDSHIPS FROM SOCIAL NETWORK DATA
- 18 ■ An introduction to graph theory and network analysis
- 19 ■ Dynamic graph theory techniques for node ranking and social network analysis
- 20 ■ Network-driven supervised machine learning
- 21 ■ Training linear classifiers with logistic regression
- 22 ■ Training nonlinear classifiers with decision tree techniques
- 23 ■ Case study 5 solution
فایل کتاب Data Science Bookcamp را میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.