
آموزش صفر تا صد sql
آموزش آسان نوشتن کوئری
بخش 7 آموزش پایگاه داده sql
آموزش صفر تا صد sql
آموزش آسان نوشتن کوئری
فرمت فایل : word (قابل ویرایش) تعداد صفحات : 190 صفحه
چکیده
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیری از روشهایی همچون دادهکاوی برای استخراج دانش و اطلاعات نهفته در دادهها، امری غیرقابل اجتناب میباشد. بدلیل حجم بسیار بالای دادهها در بسیاری از کاربردها و اهمیت بیشتر دادههای جدید، ذخیرهسازی این دادهها امری مقرون به صرفه نیست، لذا دادههایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث دادهکاوی وجود دارد، بحث توزیع شدگی ذاتی دادهها است. معمولا پایگاههایی که این دادهها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.
با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر میرسد که بتوان از قابلیتهای آنها برای دادهکاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهرهگیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در دادهکاوی، بحث طبقهبندی جریان دادهها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای دادهکاوی در یک محیط پویا و توزیعشده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقهبندی جریان دادههای دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقهبندی جریان دادههای توزیعشده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایاننامه نشاندهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقهبندی و دادهکاوی در محیطهای پویا و توزیع شده میباشد.
کلمات کلیدی:
دادهکاوی[1]، طبقهبندی[2]، جریان داده[3]، عامل[4].
فهرست مطالب
1-1- مقدمهای بر دادهکاوی.. 2
1-1-3-1- طبقهبندی مبتنی بر قواعد. 5
1-3- عاملها و سیستمهای چندعامله. 8
1-3-1-1- مقایسه عامل با شی.. 9
1-4- بهرهگیری از عامل برای دادهکاوی.. 19
1-4-1- سیستمهای چندعامله، بستری برای دادهکاوی توزیع شده 19
2-1- مقدمهای بر دادهکاوی پویا 24
3-2- دادهکاوی توزیعشده ایستا 35
3-2-2- روشهای مبتنی بر توزیع ذاتی دادهها 37
3-3- کارهای مهم انجام شده در زمینه دادهکاوی با استفاده از عامل.. 38
3-4- کارهای انجام شده در زمینه طبقهبندی جریان دادهها 41
3-4-1- روشهای طبقهبندی Ensemble-based. 41
3-4-2- درختهای تصمیم بسیار سریع. 43
3-4-3- طبقهبندی On-Demand. 46
3-4-5- الگوریتمهای LWClass. 49
3-4-8- طبقهبندی جریان دادهها با استفاده از یک روش Rule-based. 53
4-2- تعریف مساله برای فاز اول. 56
4-2-2- مفهوم یا مدل موجود در جریان داده 57
4-2-3- مساله طبقهبندی جریان دادههای دارای تغییر مفهوم. 57
4-3- تعریف مساله برای فاز دوم. 59
5-2- رویکرد پیشنهادی برای فاز اول پروژه 63
5-2-1- عامل و ویژگیهای آن در این مساله. 64
5-2-3-2- پایگاه دانش عامل.. 68
5-2-3-3- تابع ارزیابی محیط.. 70
5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده 70
5-2-3-3-2- نحوه استخراج الگوهای recur 70
5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص... 74
5-2-3-5- بخش تصمیمگیری و Planning. 79
5-2-3-5-1- بخش تصمیمگیری.. 79
5-3- رویکرد پیشنهادی برای فاز دوم مساله. 87
5-3-3-1- معماری عاملهای دادهکاو 92
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-5- 1- Plan مربوط به طبقهبندی.. 97
5-3-3-1-5-2- Plan مربوط به تطبیق طبقهبند 98
5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره 101
6-3- مجموعه دادههای مورد استفاده 116
6-3-1- مجموعه دادههای استاندارد. 116
6-3-2- مجموعه دادههای واقعی.. 117
6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه. 117
6-5-1- آزمایشات مربوط به فاز اول. 119
6-5-2- آزمایشات مربوط به فاز دوم. 128
فهرست اشکال
فهرست جدولها
فصل اول
معرفی و آشنایی با مفاهیم اولیه
1-1- مقدمهای بر دادهکاوی
دادهکاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه دادههای[5] موجود میباشد[38]. دادهکاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین دادههای فعلی و پیشبینی موارد نامعلوم و یا مشاهده نشده عمل میکند. برای انجام عملیات دادهکاوی لازم است قبلا روی دادههای موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی دادهها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از دادههای اولیه، که تحت عملیات دادهکاوی نتایج تقریبا یکسانی با نتایج دادهکاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی دادهها می رسد. دادههای موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از دادهها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای دادهکاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
1-1-1- خوشهبندی
فرآیند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه دادههای قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با دادههای خوشههای دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روشهای خوشهبندی در زیر معرفی شدهاند:
معیار اصلی در چنین مجموعه دادههایی میزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حالیکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم میتواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
البته دسته دیگری از روشهای خوشهبندی مانند روشهای مبتنی بر گرید، روشهای مبتنی بر مدل و ... وجود دارند که میتوانید آنها را در ]38[ مطالعه نمایید.
1-1-2- کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری یا المانهایی در یک مجموعه داده میپردازد که معمولا با یکدیگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده بدست میآید، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی میتوانید به ]38[ مراجعه نمایید.
1-1-3- طبقهبندی
فرایند طبقهبندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعهای از دادهها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه دادههایی است که این مدل از روی آنها ایجاد شده است. مرحله دوم فرآیند طبقهبندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی دادههایی است که شامل تمام خصوصیات دادههایی که برای ایجاد مدل داده بکار گرفته شدهاند، میباشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقهبندی نیز تخمین مقدار این خصوصیت میباشد.
الگوریتمها و روشهای مختلفی برای طبقهبندی تاکنون پیشنهاد شدهاند که برای مثال میتوان از روشهای طبقهبندی با استفاده از درخت تصمیم، طبقهبندی بیزین، SVM ، طبقهبندی با استفاده از شبکههای عصبی، طبقهبندی مبتنی بر قواعد و ... ]56[ نام برد. در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتمها و روشهای طبقهبندی شویم و تنها روش طبقهبندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر میتوانید به فصل ششم مرجع ]38[ مراجعه نمایید.
1-1-3-1- طبقهبندی مبتنی بر قواعد
در این قسمت قصد داریم نگاهی به بحث طبقهبندی مبتنی بر قواعد داشته باشیم. دراین روش مدل ایجاد شده از روی دادهها بصورت مجموعهای از قواعد میباشد. میتوان گفت که هر قاعده بصورت یک قاعده IF P THEN C میباشد که در آن P مجموعهای از شرایط بوده و C نیز مشخص کننده برچسب یک کلاس یا طبقه خاص میباشد. یک قاعده بدست آمده از مجموعه دادههای آموزشی با استفاده از دو معیار coverage و accuracy میتواند ارزیابی گردد. این دو معیار بصورت زیر تعریف میگردند:
(1-1)
(1-2)
که در تعاریف مذکور تعداد دادههایی در مجموعه داده D است که توسط قاعده پوشش داده میشوند. تعداد دادههایی است که توسط قاعده بدرستی طبقهبندی شدهاند. تعداد دادههای موجود در D میباشد.
طراحی پایگاه داده کفش فروشی به همراه نمودار ER
۱۲صفحه
قیمت : ۹٫۰۰۰ تومان
فرمت : دیتابیس SQL و فایل WORD
به همراه فایل Word و پایگاه داده SQL Server
فهرست مطالب
جداول سیستم کفش فروشی ۵
جدول کفشها ۵
رکوردهایی برای جدول کفشها ۵
جدول مشتریان ۶
رکوردهایی برای جدول مشتریان ۶
جدول اطلاعات فروش کفشها ۷
رکوردهایی برای جدول فروش ۷
نمودار ERD سیستم کفش فروشی ۸
نمودار SQL 8
QUERY نمایش لیست کمترین و بیشترین فروش کفش (MAX,MINF) 10
فهرست جدول ها
جدول ۱- جدول کفشها ۵
جدول ۲- رکوردهایی برای جدول کفشها ۵
جدول ۳- جدول مشتریان ۶
جدول ۴- رکوردهایی برای جدول مشتریان ۶
جدول ۵- جدول اطلاعات فروش کفشها ۷
جدول ۶- رکوردهایی برای جدول فروش ۷
جدول ۷ – جدول نمایش لیست کمترین و بیشترین فروش کفش ۱۰
جدول ۸- جدول نمایش لیست مشتریانی که حداقل یک کفش خریده اند ۱۱
جدول ۹- جدول نمایش میزان کل فروش هر کفش ۱۲
فهرست شکل ها
شکل ۱ – شکل نمایش لیست کمترین و بیشترین فروش کفش ۱۰
شکل ۲- شکل نمایش لیست مشتریانی که حداقل یک کفش خریده اند ۱۱
شکل ۳- شکل نمایش میزان کل فروش هر کفش ۱۲
فهرست نمودار ها
نمودار ۱- نمودار ERD سیستم کفش فروشی ۸
نمودار ۲- نمودار SQL 9
سیستم کفش فروشی از سه جدول به شرح زیر تشکیل شده است:
جداول سیستم کفش فروشی
جدول کفشها
در این جدول اطلاعات کفشهای موجود نگه داری می شود.
نام فیلد
نوع فیلد
KafshID (کد کفش)
Int (شمارنده اتوماتیک)
KafshName (نام کفش)
String
KafshTaminKonande (تامین کننده)
String
KafshGroupID(کد گروه کفش)
int
KafshTabagehBandi(طبقه بندی کفش)
String
KafshSize(شماره کفش)
int
جدول ۱- جدول کفشها
تعریف پایگاه داده های توزیع شده:
مجموعه ای از داده های ذخیره شده ( با ویژگی های بر شمرده در تعریف پایگاه داده ها)
که منطقا به این سیستم تعلق دارند ، ولی در مانه های ( گره ها:کامپیوتر) مختلف یک یا بیش از یک شبکه توزیع شده اند می توان گفت که در این معماری تعدادی پایگاه داده های ذخیره شده روی کامپیوترهای مختلف داریم
که از نظر کاربران، پایگاه واحدی هستند به بیان دیگر مجموعه ای است از چند پایگاه داده منطقا به مرتبط و توزیع شده روی یک شبکه کامپیوتری ، توجه داشته باشیم که در این معماری در سطح طراحی بر اساس یک استراتژی توزیع و یک طرح تخصیص مشخص داده هایش را در چند مانه توزیع می کند . مانه ها با یکد یگر چنان همکاری دارند که هر کاربر می تواند به داده های مورد نیازش در هر مانه دستیابی داشته باشد به گونه ای که انگار داده هایش در مانه خودش ذخیره شده باشند. در این معماری هر مانه خود یک سیستم پایگاه داده هاست یعنی : پایگاه داده ها ، سیستم مدیریت پایگاه داده ها و مدیر انتقال داده ها دارد.
اصطلاحاً می گوئیم تعدادی DBMS محلی داریم و برای ایجاد هماهنگی بین این سیستم محلی ، عضو نرم افزاری خاصی که نوعی گسترش DBMS است لازم می باشد . در واقع هر مانه یک DDBMS دارد یعنی یک DBMS با توانش ایجاد و مدیریت پایگاه داده های توزیع شده . بنابراین نمای کلی هر مانه به صورتی است که در شکل دیده می شود.
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه:22
فهرست مطالب:
تاریخچه
تعریف پایگاه داده
1-پایگاه داده پیمایشی
2-پایگاه داده رابطه ای
3-پایگاه داده چند بعدی(سلسله مراتبی)
4-پایگاه داده شی گرائی
5- پایگاه داده شبکه های
رشد کاربری کامپیوتر، پیدایش سیستمهای پایگاه دادههای همه منظوره را موجب گردید. و در اواسط 1960 چنین سیستمهایی در بخش تجاری به کار گرفته شد. چارلز بچ من، نویسنده یکی از چنین محصولاتی با نام IDS، گروه Database Task Group را بنیان نهاد که این گروه مسوول ایجاد و استاندارد سازی COBOL شد. آنها در سال 1971 استاندارد خود را عرضه نمودند. این استاندارد Codasyle approach نام داشت. این شیوه مبتنی بر پیمایش دستی مجموعه دادهها بود. هنگامی که پایگاه دادهها برای اولین بار برنامه را باز میکرد، به اولین رکورد در پایگاه دادهها و به همین ترتیب نیز به سایر بخشهای داده نیز اشاره میشد. برنامه نویس برای دسترسی به یک رکورد خاص مجبور بود تا این اشارهگرها رابه ترتیب دنبال کند تا به رکورد موردنظر برسد. در query های ساده مانند " یافتن تمام افرادی که در سوئد زندگی میکنند " باید برای جستجو در کل مجموعه دادهها برنامه نویسی میشد و دستوری به نام find وجود نداشت. شرکت IBM سیستم مدیریت پایگاه دادههایی به نام IMS داشت. این سیستم از نظر مفهوم مشابه codasyle بود، اما برخلاف آن که از مدل شبکهای استفاده مینمود، IMS مدل سلسله مراتبی را به کار میبرد.
پایگاه دادههای رابطهای
ادگار کاد که در شرکت آیبیام کار میکرد در سال 1970 مقالاتی در زمینه شیوه جدیدی برای ساخت پایگاه دادهها نوشت. یکی از مقالات وی که Relational Model of Data for Shared Data Bank نام داشت، به بررسی سیستم جدیدی برای ذخیره سازی و کار با پایگاه دادههای بزرگ پرداخته بود. در این شیوه به جای اینکه رکورد به صورت رکوردهای free-form همانگونه که در روش codasyle آمده بود، ذخیره شوند، از جدولی با رکوردهایی با طول ثابت استفاده میشد.
چنین سیستمی برای ذخیره سازی پایگاه دادههای پراکنده و در جاییکه بعضی از دادههای رکورد خالی هستند، کارآیی ندارد. مدل رابطهای این مشکل را حل کرده است. بدین صورت که دادهها به یکسری جدول تقسیم میشوند و عناصر اختیاری از جدول اصلی خارج میگردند و در صورت نیاز در جدول قرار میگیرند. چنین سیستمی برای ردیابی اطلاعات کاربران، اسامی و نشانی آنان و غیره به کار میرود. دادهها در روش پیمایشی در یک رکورد جای میگیرند و آیتمهایی که مورد استفاده قرار نگیرند، در پایگاه دادهها نیز نخواهند بود. دادهها در شیوه رابطهای در جداول جداگانهای، مثلا جدول اسامی، جدول نشانیها و غیره جای میگیرند. برقراری ارتباط بین اطلاعات نکته مهم در این سیستم است. درمدل رابطهای بعضی از بیتهای اطلاعات به عنوان کلید معرفی میشوند و منحصرا بیانگر رکورد خاصی هستند. هنگامی که اطلاعات کاربر جمع آوری میشود، میتوان این اطلاعات را که در جداول اختیاری ذخیره میشوند، با جستجوی کلید مربوطه یافت.