پیشگفتار:
تعریف علمى و تئوریکى که از پایگاه داد ها در دنیاى نرم افزار ارائه گردیده است عبارت است از مجموعه اى از داده هاى بهم مرتبط که طبق یک ساختار مشترک ، تحت کنترل متمرکز و با حداقل افزونگى به صورت اشتراکى و همزمان قابل استفاده باشند .
اما امروز وقتى صحبت از فناورى هاى نوین در عرصه پایگاه داده ها و نرم افزار هاى مرتبط با آن به میان مى آید، محیطى به مراتب قدرتمند تر و انعطاف پذیر تر از تعریف فوق به ذهن مى آید که براى مدیران ، طراحان و برنامه نویسان پایگاه داده ها نوید لذت بخش توسعه و تولید سریع(RAD) محیطهاى مبتنى بر بانک هاى اطلاعاتى را بهمراه دارد .
در سالهاى اخیر متولیان و تصمیم گیران بسته هاى بانک هاى اطلاعاتى با توجه به شرایط حاکم بر دنیاى امروز از قبیل رشد روز افزون داده ها و اطلاعات ، وسعت ، گستردگى حیطه کاربرى و ..... استانداردهاى متنوع دیگرى را براى اینگونه محصولات تدوین نموده اند که در ذیل به برخى از آنها اشاره مى گردد .
Platform Independency :
این مقوله مربوط به مفهوم قابلیت نصب و راه اندازى بسته بانک اطلاعاتى بر روى سیستم عامل هاى مختلف (انعاف پذیرى در نصب) است . یک پایگاه داده پیشرفته لزوما وابسته به سیستم عامل خاص و یا احتمالا بستر سخت افزارى ویژه اى نیست و از این طریق قابلیت انعطاف پذیرى و اطمینان بالایى را براى کاربران خود فراهم مى آورد .
Locking & Concurrency :
براى اطمینان از صحت داده ها و جلوگیرى از تاخیرها و انتظارات طولانى در محیط هاى پر کار پایگاه داده ها ، از این تکنولوژى جهت مدیریت بهینه فرآیندها و داده هاى بانک اطلاعاتى استفاده مى شود .
Long Term Transaction Handling :
در یک محیط پایگاه داده بعضا تراکنش (Transaction) یا تراکنش هایى در سیستم به صورت معلق (Suspend) بوجود مى آیند ( بدین معنى که پس از ارسال آنها دستور همانند دستور Commit مبنى بر تائید آنها صادر نمى گردد ) که این امر باعث بروز ترافیک در صف مربوط به تراکنش ها و توقف نسبى آنها مى شود. یک پایگاه داده مناسب باید بتواند این امر را بخوبى کنترل و مدیریت نماید .
Memory Utilization Support:
کنترل در نحوه تخصیص و واکشى حافظه ، تنظیم و به طور کلى مدیریت حافظه دیگر امتیازى است که در یک پایگاه داده پیشرفته وجود دارد .
Encoding & Decoding Data:
یک پایگاه داده پیشرفته امنیت بالایى براى داده ها و کاربران خود فراهم مى آورد . از جمله این موارد مى توان به توانایى به رمز در آوردن داده هاى ذخیره شده در بانک اطلاعاتى اشاره نمود .
Block Level Recovery :
در یک بانک اطلاعاتى پیرشفته ، در صورت بروز خرابى در بانک ، شما مجبور به بازیابى تمام فایل ها (Full Recovery) نیستید . یعنى مى توان فقط بلاک هاى معیوب را بازیابى نمود و فرآیندى را بر روى سایر داده ها انجام نداد .
64 Bit Proccessing :
این واژه به مفهوم پردازش در مدل 64 بیتى است که سرعت و کارآیى بالترى را نسبت به سایر مدل ها بهمراه دارد .
Multimedia & Large Object Support :
مدیریت و کنترل در نحوه خیره و بازیابى داده هاى بزرگ کاراکترى ، باینرى ، صوتى و تصویرى در تمامى پایگاه داده هاى پیشرفته وجود دارد .
Standby Database:
Satandby یک پشتیبان از پایگاه داده اولیه است که بر روى یک سرور ثانویه قرار مى گیرد و تمام تغییرات پایگاه داده با یک تکنولوژى خاص بر روى آن درج مى گردد و به صورت Standby در موارد بروز خطا و نارسایى در بانک ، فعال گردیده و مورد استفاده کاربران قرار مى گیرد .
Cluster Support:
در یک پایگاه داده توزیع یافته (Distributed Database) در صورت سنگین شدن پردازشهاى یک سرور و یا ازدیاد تراکنش در طرف یک یا چند سرور خاص ، باید امکان انتقال فرآیندها به سوى سرورهاى دیگر وجود داشته باشد . این مهم در پایگاه داده هاى مدرن امروزى همچون Oracle وجود دارد .
ANSI/SQL 92 Standard Compatible:
رعایت موارد مندرج در استانداردANSI / SQL 92 از ملزومات و پیش نیازهاى یک پایگاه داده پیشرفته است که در آن تمامى موارد مورد لزوم براى بانک هاى اطلاعاتى امروزى لحاظ گردیده است .
فصل اول:
مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه :
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود .
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است .
هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد .
مفاهیم پایه در داده کاوی:
در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است .
تعریف داده کاوی:
در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از :
• داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم
• اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.
• داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها .
• داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ .
• داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .
همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .
تاریخچه داده کاوی:
اخیرا داده کاوی موضوع بسیاری از مقالات ، کنفرانس ها و رساله ها ی عملی شده است ، اما این واژه تا اوایل دهه نود مفهومی نداشت وبه کار برده نمی شد .
در دهه شصت و پیش از آن زمینه هایی برای ایجاد سیستم ها ی جمع آوری و مدیریت داده ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید .
ایجاد و توسعه مدلهای داده ای برای پایگاه سلسله مراتبی ، شبکه ای و بخصوص رابطه ای در دهه هفتاد ، منجر به معرفی مفاهیمی همچون شاخص گذاری و سازماندهی داده ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرمهای اطلاعاتی مورد نظر خود را ، از این طریق ایجاد نمایند .
توسعه سیستم های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه های شی گرا ، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم ها در سراسر جهان گردید . بدین ترتیب DBMS هایی همچون DB2 ، Oracle ، Sybase ، ... ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم ها مورد پردازش قرار گرفتند . شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده ها ( KDD) دانست بطوری که در بسیاری موارد DM و KDD بصورت مترادف مورد استفاده قرار می گیرند .
همانطور که در تعریف داده کاوی ذکر شد ، هدف از جستجو و کشف الگوهایی در پایگاه داده ها و استفاده از آنها در اخذ تصمیمات حیاتی است ، بنابراین می توان گفت که DM بخشی از فرایند KDD است که در نهایت به ایجاد سیستم های DSS شکل 1-1 نقش داده کاوی در فرایند کشف دانش از پایگاه داده ها را نشان می دهد .
شامل 226 صفحه Word
دانلود تحقیق پایگاه داده پیشرفته