کتاب Fuzzy Data Matching with SQL: Enhancing Data Quality and Query Performance (تطبیق داده‌های فازی با SQL: افزایش کیفیت داده و عملکرد پرس و جو) ارتباط منطق فازی با SQL را در 3 بخش مختلف شرح خواهد داد.

در ادامه مقدمه‌ای از کتاب Fuzzy Data Matching with SQL را از زبان نویسنده شرح خواهیم داد.

مقدمه‌ای بر کتاب Fuzzy Data Matching with SQL:

این کتاب شامل الگوها، شیوه‌ها، تکنیک‌ها و ترفندهایی است که من در طول دهه‌ها به کار برده‌ام، معمولاً در مورد این مشکل “آیا این فهرست داده‌ها به چیزی در آن جدول مربوط است؟” مثال متعارف یک لیست تماس سرد است که از …”جایی” (ما مهربان خواهیم بود)، و اکنون بازاریابی (این همیشه بازاریابی است) از شما می‌خواهد که این لیست را که احتمالاً برای آن هزینه کرده اند با پایگاه داده مشتریان فعلی شرکت مطابقت دهید. چرا؟ دلایل زیادی وجود دارد، اما این دو مورد اصلی است:

چشم‌اندازهای جدید را شناسایی کنید

مشتریان موجود را از لیست فیلتر کنید و مشتریان بالقوه جدید را به یک مسیر استاندارد و کم هزینه با احتمالاً تماس سرد، لیست پستی و غیره بفرستید. گلنگاری گلن راس را در نظر بگیرید.

مشتریان موجود را به فروش برسانید و متقاطع کنید

مشتریان بالقوه جدید را فیلتر کنید، و اگر یک مشتری موجود در یک نمایشگاه تجاری حاضر شود و علاقه خود را نشان دهد، شاید از کل محصول شما اطلاع نداشته باشد یا مدتی است که برای تعیین نیازهای خود “لمس” نشده است. یک فروشنده در مقابل آن‌ها با برخی انگیزه‌ها بیاورید.

بیشتر بخوانید: کتاب Fuzzing Against the Machine

البته دلایل دیگری نیز وجود دارد. دو شرکت که ادغام می‌شوند و می‌خواهند سیستم‌های مدیریت ارتباط با مشتری (CRM) خود را با هم ترکیب کنند و موارد تکراری را حذف کنند یکی دیگر از دلایل رایج است. اغلب از انواع مشابهی از تکنیک‌ها برای حذف کپی کردن حتی در یک مجموعه داده استفاده می‌شود، مانند پایگاه داده CRM. یا زمانی که شخصی با داده‌هایی که در “وب تاریک” منتسب به شرکت شما پیدا شده است به سراغ شما می‌آید. مال شماست؟ آیا کامل است؟ دقیق؟ جاری؟

با داده‌های مربوط به انسان‌ها سروکار ندارید؟ مطالعه موردی دوم که در فصل 13 پوشش داده شده است، همان تکنیک‌هایی را نشان می‌دهد که برای انجام برخی تحلیل‌های تاثیر بر روی کد استفاده می‌شوند – یعنی کد منبع را به‌عنوان داده‌ای در نظر می‌گیرند که باید با آن‌ها تطبیق فازی داشته باشد. من همچنین از الگوهای موجود در این کتاب برای تجزیه فایل‌های گزارش متنی استفاده کرده ام. ممکن است از شما خواسته شود در هر یک یا همه این زمینه‌ها و موارد دیگر کار کنید.

بیشتر بخوانید: Fuzzy Data Matching

برای اهداف کتاب Fuzzy Data Matching with SQL، من معمولاً به «داده‌های مشتری شما» یا «داده‌های CRM شما» اشاره می‌کنم که به معنای چیزی شبیه مجموعه داده‌های تولید شماست که احتمالاً از نظر طراحی طرحواره، کیفیت داده‌ها و غیره شکل مناسبی دارد (مناسب، کامل نیست – ما آن را پوشش خواهیم داد).

سپس در مورد «داده‌های ورودی» یا «داده‌های وارداتی» به‌عنوان داده‌هایی که از شما خواسته می‌شود با داده‌های مشتری مطابقت دهید، صحبت خواهم کرد. در دنیای شما، «داده‌های مشتری» می‌تواند «داده‌های بیمار» یا «داده‌های موضوع» یا مواردی از این قبیل باشد، اما بیشتر این کتاب جنبه‌های تطبیق ویژگی‌های جمعیتی انسان مانند نام، آدرس و شماره تلفن را پوشش می‌دهد. تکنیک‌های کلی در سایر زمینه‌ها مفید هستند، اما اگر داده‌های شما با چیزی مانند محصولات یا بیماری‌های همه‌گیر سروکار دارد، باید نقشه‌برداری شناختی خود را انجام دهید.

بیشتر بخوانید: کتاب Advanced Data Structures and Algorithms

ما در صدد حل چه مشکلاتی هستیم؟

کتاب Fuzzy Data Matching with SQL به سؤالات زیر پاسخ می‌دهد (یا سعی می‌کند پاسخ دهد):

چگونه مجموعه داده‌ها را برای واردات، ادغام و تجزیه و تحلیل بهتر آماده کنم؟
چگونه داده‌ها را در هر کجا که هستند پاک کنم؟ چگونه می‌توانم به دستیابی به کیفیت داده‌ها کمک کنم؟ (گریزان!)
چگونه می‌توانم با SQL خالص پرس و جو کنم تا پشته فناوری ساده و “نزدیک به داده‌ها” بماند؟
چگونه می‌توانم موارد تکراری را در داده‌های شرکت/تولید/مطالعه/واردات خود شناسایی کنم؟
چگونه می‌توانم موارد تکراری را در داده‌های شرکت/تولید/مطالعه/واردات خود حذف کنم؟
چگونه بین مجموعه داده‌ها مطابقت کنم؟ چگونه بفهمم مسابقات چقدر قوی هستند؟
چگونه نتایج را گزارش کنم؟ چگونه می‌توانم اطلاعات را در مقابل کسانی که به آن نیاز دارند به دست بیاورم؟

تا زمانی که خواندن را تمام کردید، باید درک خوبی از نحوه پاسخ به هر سوال و علاوه بر آن سوالات دیگر داشته باشید.

چه چیزی را پوشش خواهیم داد؟

بیشتر مثال‌های کتاب Fuzzy Data Matching with SQL نحوه تطبیق داده‌ها بین دو مجموعه داده متفاوت را پوشش می‌دهند. مراحل سطح بالا به شرح زیر است:

عادی کردن

مشکلات مربوط به نمایش داده‌های رایج و کیفیت را مدیریت کنید تا شانس تطبیق موفقیت آمیز خوب باشد. (برای جزئیات بیشتر در مورد استفاده من از اصطلاح عادی شده و سایر اصطلاحاتی که اغلب در این کتاب آمده است، لطفاً به واژه نامه مراجعه کنید.)

نمره

تعیین کنید که دو مجموعه داده چقدر مطابقت دارند.

حاضر

تجزیه و تحلیل و گزارش نتایج.

برای انجام همه این‌ها، کتاب Fuzzy Data Matching with SQL به موضوعات زیر خواهد پرداخت.

بخش اول: بررسی

بخش اول بررسی سریع برخی از عناصر SQL است که به شدت در کتاب Fuzzy Data Matching with SQL استفاده شده است. اگر SQL را خوب می‌دانید، می‌توانید از این قسمت صرف نظر کنید:

فصل 1، «یک بررسی SELECT»، شامل بررسی سریع عبارت SELECT و ملحق می‌شود. انتظار می‌رود شما با SQL آشنا باشید—این یک آغازگر نخواهد بود، اما نکات بیشتری برای من مفید است.

فصل 2 کتاب Fuzzy Data Matching with SQL، «تقاطع تابع»، شامل توابع SQL است که در ادامه کتاب به‌شدت مورد استفاده قرار خواهند گرفت.

بخش دوم: مشکلات داده‌های مختلف

بخش دوم به ما کمک می‌کند تا در ادامه کتاب با نحوه «عادی‌سازی» و پاکسازی انواع مشکلات رایج داده‌ها، مطابقت کنیم:

درباره فصل 3، «نام‌ها، نام‌ها، نام‌ها» چه می‌توانم بگویم؟ اسم‌ها سخته نام افراد (حتی قبل از اینکه به پسوندها برسیم). نام شرکت‌ها اسم شما. نام من (بیشتر مردم در تلفظ صحیح “Lehmer” مشکل دارند، زیرا اکثر مردم آلمانی صحبت نمی‌کنند).

فصل 4، «موقعیت مکانی، مکان، مکان»، نشان می‌دهد که آدرس‌ها نیز سخت هستند.

فصل 5 کتاب Fuzzy Data Matching with SQL، «تاریخ، تاریخ، تاریخ»، تاریخ تولد و سایر رویدادهای نامربوط را پوشش می‌دهد. آیا تا به حال تاریخ تولد در آینده دیده اید؟ من دارم. البته در تولید! برای شخصی که تاریخ را وارد می‌کند، “زمان معنایی ندارد”. و این حتی به حساب این واقعیت نیست که تاریخ و زمان نیز سخت است. و مناطق زمانی

فصل 6، «ایمیل»، این واقعیت را پوشش می‌دهد که با خصوصی بودن شناسه‌های مالیاتی/شماره‌های تأمین اجتماعی (و به دلایل خوب)، یک آدرس ایمیل می‌تواند به همان اندازه که در دنیای واقعی دریافت می‌کنیم به یک شناسه منحصربه‌فرد نزدیک باشد. تقریبا. اما همچنان باید اعتبار آن را بررسی کنیم. تعجب خواهید کرد که چقدر برای ایجاد یک آدرس ایمیل “معتبر” نیاز است.

فصل 7 کتاب Fuzzy Data Matching with SQL، «شماره‌های تلفن»، مواردی را که در مورد داده‌هایی مانند «# عمه جودی 555-555-1234» در شماره تلفن‌هایتان انجام دهید را پوشش می‌دهد. در پایگاه داده تولید شما وجود دارد؟ جای نگرانی نیست در مورد آن صحبت خواهیم کرد.

فصل 8، «شخصیت‌های بد»، شخصیت‌های بد را پوشش می‌دهد، و ما در مورد مشتریان شما صحبت نمی‌کنیم. انواع داده‌ها مجموعه شخصیت‌ها رمزگذاری کاراکتر فضاهای بدون شکست کاراکترهای نامرئی علاوه بر فاصله‌ها و برگه‌هایی که ممکن است TRIM از آن‌ها اطلاعی نداشته باشد.

فصل ۹، «داده‌های متعامد»، «داده‌های متعامد» را مورد بحث قرار می‌دهد. این‌ها کلمات فانتزی برای افرادی است که 10 پوند (یا کیلو، به انتخاب شما) “مواد” را در یک کیسه 5 پوندی (یا کیلویی) جمع می‌کنند. ما در مورد آن صحبت خواهیم کرد، از جمله اینکه چگونه به آن حمله کنیم، آن را تجزیه کنیم، و شاید تا حدودی آن را درک کنیم.

بخش سوم: جمع‌آوری آن

بخش سوم مفاهیم اصلی کتاب Fuzzy Data Matching with SQL، امتیاز دادن به مسابقات و تنظیم نتایج را پوشش می‌دهد:

فصل 10، «امتیاز بزرگ»، درباره نحوه جمع کردن همه آن‌ها و تصمیم‌گیری، «آیا این منطبق است؟» بحث می‌کند. این فصل هسته اصلی کتاب Fuzzy Data Matching with SQL است و نشان می‌دهد که چگونه داده‌های تمیز و نرمال‌شده خود را برداریم و تصمیم بگیریم که چقدر مطابقت دارند.

فصل 11 کتاب Fuzzy Data Matching with SQL، «کیفیت داده یا GIGO»، کیفیت داده را پوشش می‌دهد. کیفیت داده‌ها در سیستم تولید شما کیفیت داده‌هایی که با آن مطابقت دارید. کاری که می‌توانید برای محافظت از خود در برابر داده‌های کمتر از کامل (یعنی “واقعی”) انجام دهید. و در نهایت، نحوه کار با آن، که اغلب دلیل پشت کلمه Fuzzy در عنوان است.

فصل 12، «همه چیز را با هم گره بزنیم»، یک مطالعه موردی را ارائه می‌کند که همه تکنیک‌های مورد استفاده در کتاب را گرد هم می‌آورد تا بتوانید نحوه عملکرد آن‌ها را به صورت هماهنگ ببینید.

فصل 13، «کد هم داده است!»، فصل آخر کتاب Fuzzy Data Matching with SQL است. در صورتی که داده‌های جمعیتی انسان مورد توجه شما نیست، در مورد SQL (کد) که SQL (کد) را برای جستجوی انواع کد منبع و سایر مصنوعات متنی برای نام‌های شی خاص ایجاد می‌کند، چطور؟ ما در مورد معنای آن صحبت خواهیم کرد و چرا مثالی «در دنیای واقعی» از نحوه خودکارسازی تجزیه و تحلیل تأثیر و صرفه جویی در صدها نفر ساعت در این فرآیند است.

ضمیمه

ضمیمه “مدل” داده استفاده شده در کتاب Fuzzy Data Matching with SQL را پوشش می‌دهد.

نیازی به گفتن نیست که این کتاب به تطبیق داده‌های فازی در یک منطقه بسیار محدود می پردازد، عمدتاً داده‌های جمعیت شناختی انسان. اما تکنیک‌های مورد استفاده می‌توانند در مجموعه‌های مختلف داده اعمال شوند. تجزیه یک رشته، تجزیه یک رشته است، و صرف نظر از “معنای” رشته، رویکرد اغلب یکسان است. یکی دیگر از جنبه‌های جهانی داده‌های پوشش داده شده در کتاب این است که “آیا یک انسان آن را وارد کرده است؟ آیا از سیستم دیگری وارد شده است؟» سپس احتمالاً دارای مشکلات کیفیت داده است که باید قبل از شروع تطبیق با آن‌ها برخورد شود و ما نیز در مورد آن صحبت خواهیم کرد.

سرفصل‌های کتاب Fuzzy Data Matching with SQL:

Preface
I. Review
- 1. A SELECT Review
- 2. Function Junction
II. Various Data Problems
- 3. Names, Names, Names
- 4. Location, Location, Location
- 5. Dates, Dates, Dates
- 6. Email
- 7. Phone Numbers
- 8. Bad Characters
- 9. Orthogonal Data
III. Bringing It Together
- 10. The Big Score
- 11. Data Quality, or GIGO
- 12. Tying It All Together
- 13. Code Is Data, Too!
Appendix. The Data “Model”
Glossary
Index
About the Author

جهت دانلود کتاب Fuzzy Data Matching with SQL می‌توانید پس از پرداخت، دریافت کنید.

فرمت کتاب	epub
ویرایش	First
ISBN	978-1-098-15227-7
تعداد صفحات	282
انتشارات	O'Reilly, O'Reilly Media
سال انتشار	2023
حجم	2.07 مگابایت
نویسنده	Jim Lehmer

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب Fuzzy Data Matching with SQL”

کتاب Fuzzy Data Matching with SQL

خرید کتاب Fuzzy Data Matching with SQL:

مقدمه‌ای بر کتاب Fuzzy Data Matching with SQL:

سرفصل‌های کتاب Fuzzy Data Matching with SQL:

دیدگاهها

خرید کتاب Fuzzy Data Matching with SQL:

دسته‌یندی کتاب‌ها:

کتاب های پیشنهادی:

دسته بندی پیشنهادی

اعتبار ما: