کتاب Fuzzy Data Matching with SQL: Enhancing Data Quality and Query Performance (تطبیق دادههای فازی با SQL: افزایش کیفیت داده و عملکرد پرس و جو) ارتباط منطق فازی با SQL را در 3 بخش مختلف شرح خواهد داد.
در ادامه مقدمهای از کتاب Fuzzy Data Matching with SQL را از زبان نویسنده شرح خواهیم داد.
مقدمهای بر کتاب Fuzzy Data Matching with SQL:
این کتاب شامل الگوها، شیوهها، تکنیکها و ترفندهایی است که من در طول دههها به کار بردهام، معمولاً در مورد این مشکل “آیا این فهرست دادهها به چیزی در آن جدول مربوط است؟” مثال متعارف یک لیست تماس سرد است که از …”جایی” (ما مهربان خواهیم بود)، و اکنون بازاریابی (این همیشه بازاریابی است) از شما میخواهد که این لیست را که احتمالاً برای آن هزینه کرده اند با پایگاه داده مشتریان فعلی شرکت مطابقت دهید. چرا؟ دلایل زیادی وجود دارد، اما این دو مورد اصلی است:
چشماندازهای جدید را شناسایی کنید
مشتریان موجود را از لیست فیلتر کنید و مشتریان بالقوه جدید را به یک مسیر استاندارد و کم هزینه با احتمالاً تماس سرد، لیست پستی و غیره بفرستید. گلنگاری گلن راس را در نظر بگیرید.
مشتریان موجود را به فروش برسانید و متقاطع کنید
مشتریان بالقوه جدید را فیلتر کنید، و اگر یک مشتری موجود در یک نمایشگاه تجاری حاضر شود و علاقه خود را نشان دهد، شاید از کل محصول شما اطلاع نداشته باشد یا مدتی است که برای تعیین نیازهای خود “لمس” نشده است. یک فروشنده در مقابل آنها با برخی انگیزهها بیاورید.
بیشتر بخوانید: کتاب Fuzzing Against the Machine
البته دلایل دیگری نیز وجود دارد. دو شرکت که ادغام میشوند و میخواهند سیستمهای مدیریت ارتباط با مشتری (CRM) خود را با هم ترکیب کنند و موارد تکراری را حذف کنند یکی دیگر از دلایل رایج است. اغلب از انواع مشابهی از تکنیکها برای حذف کپی کردن حتی در یک مجموعه داده استفاده میشود، مانند پایگاه داده CRM. یا زمانی که شخصی با دادههایی که در “وب تاریک” منتسب به شرکت شما پیدا شده است به سراغ شما میآید. مال شماست؟ آیا کامل است؟ دقیق؟ جاری؟
با دادههای مربوط به انسانها سروکار ندارید؟ مطالعه موردی دوم که در فصل 13 پوشش داده شده است، همان تکنیکهایی را نشان میدهد که برای انجام برخی تحلیلهای تاثیر بر روی کد استفاده میشوند – یعنی کد منبع را بهعنوان دادهای در نظر میگیرند که باید با آنها تطبیق فازی داشته باشد. من همچنین از الگوهای موجود در این کتاب برای تجزیه فایلهای گزارش متنی استفاده کرده ام. ممکن است از شما خواسته شود در هر یک یا همه این زمینهها و موارد دیگر کار کنید.
بیشتر بخوانید: Fuzzy Data Matching
برای اهداف کتاب Fuzzy Data Matching with SQL، من معمولاً به «دادههای مشتری شما» یا «دادههای CRM شما» اشاره میکنم که به معنای چیزی شبیه مجموعه دادههای تولید شماست که احتمالاً از نظر طراحی طرحواره، کیفیت دادهها و غیره شکل مناسبی دارد (مناسب، کامل نیست – ما آن را پوشش خواهیم داد).
سپس در مورد «دادههای ورودی» یا «دادههای وارداتی» بهعنوان دادههایی که از شما خواسته میشود با دادههای مشتری مطابقت دهید، صحبت خواهم کرد. در دنیای شما، «دادههای مشتری» میتواند «دادههای بیمار» یا «دادههای موضوع» یا مواردی از این قبیل باشد، اما بیشتر این کتاب جنبههای تطبیق ویژگیهای جمعیتی انسان مانند نام، آدرس و شماره تلفن را پوشش میدهد. تکنیکهای کلی در سایر زمینهها مفید هستند، اما اگر دادههای شما با چیزی مانند محصولات یا بیماریهای همهگیر سروکار دارد، باید نقشهبرداری شناختی خود را انجام دهید.
بیشتر بخوانید: کتاب Advanced Data Structures and Algorithms
ما در صدد حل چه مشکلاتی هستیم؟
کتاب Fuzzy Data Matching with SQL به سؤالات زیر پاسخ میدهد (یا سعی میکند پاسخ دهد):
- چگونه مجموعه دادهها را برای واردات، ادغام و تجزیه و تحلیل بهتر آماده کنم؟
- چگونه دادهها را در هر کجا که هستند پاک کنم؟ چگونه میتوانم به دستیابی به کیفیت دادهها کمک کنم؟ (گریزان!)
- چگونه میتوانم با SQL خالص پرس و جو کنم تا پشته فناوری ساده و “نزدیک به دادهها” بماند؟
- چگونه میتوانم موارد تکراری را در دادههای شرکت/تولید/مطالعه/واردات خود شناسایی کنم؟
- چگونه میتوانم موارد تکراری را در دادههای شرکت/تولید/مطالعه/واردات خود حذف کنم؟
- چگونه بین مجموعه دادهها مطابقت کنم؟ چگونه بفهمم مسابقات چقدر قوی هستند؟
- چگونه نتایج را گزارش کنم؟ چگونه میتوانم اطلاعات را در مقابل کسانی که به آن نیاز دارند به دست بیاورم؟
تا زمانی که خواندن را تمام کردید، باید درک خوبی از نحوه پاسخ به هر سوال و علاوه بر آن سوالات دیگر داشته باشید.
چه چیزی را پوشش خواهیم داد؟
بیشتر مثالهای کتاب Fuzzy Data Matching with SQL نحوه تطبیق دادهها بین دو مجموعه داده متفاوت را پوشش میدهند. مراحل سطح بالا به شرح زیر است:
عادی کردن
مشکلات مربوط به نمایش دادههای رایج و کیفیت را مدیریت کنید تا شانس تطبیق موفقیت آمیز خوب باشد. (برای جزئیات بیشتر در مورد استفاده من از اصطلاح عادی شده و سایر اصطلاحاتی که اغلب در این کتاب آمده است، لطفاً به واژه نامه مراجعه کنید.)
نمره
تعیین کنید که دو مجموعه داده چقدر مطابقت دارند.
حاضر
تجزیه و تحلیل و گزارش نتایج.
برای انجام همه اینها، کتاب Fuzzy Data Matching with SQL به موضوعات زیر خواهد پرداخت.
بخش اول: بررسی
بخش اول بررسی سریع برخی از عناصر SQL است که به شدت در کتاب Fuzzy Data Matching with SQL استفاده شده است. اگر SQL را خوب میدانید، میتوانید از این قسمت صرف نظر کنید:
فصل 1، «یک بررسی SELECT»، شامل بررسی سریع عبارت SELECT و ملحق میشود. انتظار میرود شما با SQL آشنا باشید—این یک آغازگر نخواهد بود، اما نکات بیشتری برای من مفید است.
فصل 2 کتاب Fuzzy Data Matching with SQL، «تقاطع تابع»، شامل توابع SQL است که در ادامه کتاب بهشدت مورد استفاده قرار خواهند گرفت.
بخش دوم: مشکلات دادههای مختلف
بخش دوم به ما کمک میکند تا در ادامه کتاب با نحوه «عادیسازی» و پاکسازی انواع مشکلات رایج دادهها، مطابقت کنیم:
درباره فصل 3، «نامها، نامها، نامها» چه میتوانم بگویم؟ اسمها سخته نام افراد (حتی قبل از اینکه به پسوندها برسیم). نام شرکتها اسم شما. نام من (بیشتر مردم در تلفظ صحیح “Lehmer” مشکل دارند، زیرا اکثر مردم آلمانی صحبت نمیکنند).
فصل 4، «موقعیت مکانی، مکان، مکان»، نشان میدهد که آدرسها نیز سخت هستند.
فصل 5 کتاب Fuzzy Data Matching with SQL، «تاریخ، تاریخ، تاریخ»، تاریخ تولد و سایر رویدادهای نامربوط را پوشش میدهد. آیا تا به حال تاریخ تولد در آینده دیده اید؟ من دارم. البته در تولید! برای شخصی که تاریخ را وارد میکند، “زمان معنایی ندارد”. و این حتی به حساب این واقعیت نیست که تاریخ و زمان نیز سخت است. و مناطق زمانی
فصل 6، «ایمیل»، این واقعیت را پوشش میدهد که با خصوصی بودن شناسههای مالیاتی/شمارههای تأمین اجتماعی (و به دلایل خوب)، یک آدرس ایمیل میتواند به همان اندازه که در دنیای واقعی دریافت میکنیم به یک شناسه منحصربهفرد نزدیک باشد. تقریبا. اما همچنان باید اعتبار آن را بررسی کنیم. تعجب خواهید کرد که چقدر برای ایجاد یک آدرس ایمیل “معتبر” نیاز است.
فصل 7 کتاب Fuzzy Data Matching with SQL، «شمارههای تلفن»، مواردی را که در مورد دادههایی مانند «# عمه جودی 555-555-1234» در شماره تلفنهایتان انجام دهید را پوشش میدهد. در پایگاه داده تولید شما وجود دارد؟ جای نگرانی نیست در مورد آن صحبت خواهیم کرد.
فصل 8، «شخصیتهای بد»، شخصیتهای بد را پوشش میدهد، و ما در مورد مشتریان شما صحبت نمیکنیم. انواع دادهها مجموعه شخصیتها رمزگذاری کاراکتر فضاهای بدون شکست کاراکترهای نامرئی علاوه بر فاصلهها و برگههایی که ممکن است TRIM از آنها اطلاعی نداشته باشد.
فصل ۹، «دادههای متعامد»، «دادههای متعامد» را مورد بحث قرار میدهد. اینها کلمات فانتزی برای افرادی است که 10 پوند (یا کیلو، به انتخاب شما) “مواد” را در یک کیسه 5 پوندی (یا کیلویی) جمع میکنند. ما در مورد آن صحبت خواهیم کرد، از جمله اینکه چگونه به آن حمله کنیم، آن را تجزیه کنیم، و شاید تا حدودی آن را درک کنیم.
بخش سوم: جمعآوری آن
بخش سوم مفاهیم اصلی کتاب Fuzzy Data Matching with SQL، امتیاز دادن به مسابقات و تنظیم نتایج را پوشش میدهد:
فصل 10، «امتیاز بزرگ»، درباره نحوه جمع کردن همه آنها و تصمیمگیری، «آیا این منطبق است؟» بحث میکند. این فصل هسته اصلی کتاب Fuzzy Data Matching with SQL است و نشان میدهد که چگونه دادههای تمیز و نرمالشده خود را برداریم و تصمیم بگیریم که چقدر مطابقت دارند.
فصل 11 کتاب Fuzzy Data Matching with SQL، «کیفیت داده یا GIGO»، کیفیت داده را پوشش میدهد. کیفیت دادهها در سیستم تولید شما کیفیت دادههایی که با آن مطابقت دارید. کاری که میتوانید برای محافظت از خود در برابر دادههای کمتر از کامل (یعنی “واقعی”) انجام دهید. و در نهایت، نحوه کار با آن، که اغلب دلیل پشت کلمه Fuzzy در عنوان است.
فصل 12، «همه چیز را با هم گره بزنیم»، یک مطالعه موردی را ارائه میکند که همه تکنیکهای مورد استفاده در کتاب را گرد هم میآورد تا بتوانید نحوه عملکرد آنها را به صورت هماهنگ ببینید.
فصل 13، «کد هم داده است!»، فصل آخر کتاب Fuzzy Data Matching with SQL است. در صورتی که دادههای جمعیتی انسان مورد توجه شما نیست، در مورد SQL (کد) که SQL (کد) را برای جستجوی انواع کد منبع و سایر مصنوعات متنی برای نامهای شی خاص ایجاد میکند، چطور؟ ما در مورد معنای آن صحبت خواهیم کرد و چرا مثالی «در دنیای واقعی» از نحوه خودکارسازی تجزیه و تحلیل تأثیر و صرفه جویی در صدها نفر ساعت در این فرآیند است.
ضمیمه
ضمیمه “مدل” داده استفاده شده در کتاب Fuzzy Data Matching with SQL را پوشش میدهد.
نیازی به گفتن نیست که این کتاب به تطبیق دادههای فازی در یک منطقه بسیار محدود می پردازد، عمدتاً دادههای جمعیت شناختی انسان. اما تکنیکهای مورد استفاده میتوانند در مجموعههای مختلف داده اعمال شوند. تجزیه یک رشته، تجزیه یک رشته است، و صرف نظر از “معنای” رشته، رویکرد اغلب یکسان است. یکی دیگر از جنبههای جهانی دادههای پوشش داده شده در کتاب این است که “آیا یک انسان آن را وارد کرده است؟ آیا از سیستم دیگری وارد شده است؟» سپس احتمالاً دارای مشکلات کیفیت داده است که باید قبل از شروع تطبیق با آنها برخورد شود و ما نیز در مورد آن صحبت خواهیم کرد.
سرفصلهای کتاب Fuzzy Data Matching with SQL:
- Preface
- I. Review
- 1. A SELECT Review
- 2. Function Junction
- II. Various Data Problems
- 3. Names, Names, Names
- 4. Location, Location, Location
- 5. Dates, Dates, Dates
- 6. Email
- 7. Phone Numbers
- 8. Bad Characters
- 9. Orthogonal Data
- III. Bringing It Together
- 10. The Big Score
- 11. Data Quality, or GIGO
- 12. Tying It All Together
- 13. Code Is Data, Too!
- Appendix. The Data “Model”
- Glossary
- Index
- About the Author
جهت دانلود کتاب Fuzzy Data Matching with SQL میتوانید پس از پرداخت، دریافت کنید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.