K-Means شاید شناخته شده ترین الگوریتم خوشه بندی باشد. در بسیاری از کلاسهای علوم داده مقدماتی و کلاسهای یادگیری ماشین تدریس می شود. درک و اجرای کد آسان است.
برای شروع ، ابتدا تعداد خوشه (گروه) را برای استفاده انتخاب می کنیم و به طور تصادفی نقاط مربوطه آنها را در فضا قرار می دهیم. سپس هر نقطه داده در گروهی قرار می گیرد که به نقاط تصادفی نزدیک تر است
بر اساس این خوشه بندی ، ما مرکز هر خوشه را به عنوان نقطه جدید انتخاب می کنیم و مرحله قبل را برای خوشه بندی جدید انجام می دهیم.
این مراحل را برای تعداد مشخصی یا تا زمانی که مراکز گروه بین تکرار تغییر چندانی نکنند. تکرار کنید. همچنین می توانید چند مرتبه مراکز گروه را به طور تصادفی مقداردهی کنید .
K-Means این مزیت را دارد که بسیار سریع است ، زیرا تنها محاسبه ما فاصله بین نقاط و مراکز گروه است. بنابراین پیچیدگی خطی O(n) دارد.
از طرف دیگر ، K-Means دو عیب دارد. اول اینکه باید تعداد خوشه ها را انتخاب کنید. ما بعضی اوقات نیاز داریم الگوریتم این کار را برای ما انجام دهد زیرا می خواهیم دیدی از داده ها بدست آوریم. دوم اینکه K-mean با انتخاب تصادفی مراکز خوشه شروع می شود و بنابراین ممکن است نتایج خوشه بندی متفاوتی را در اجرای های مختلف الگوریتم بدست آورد.
K-Medians یکی دیگر از الگوریتم های خوشه بندی مربوط به K-Means است ، با این تفاوت که به جای محاسبه مرکز گروه با استفاده از میانه بردار نقاط جدید را بوجود می آورد. این روش نسبت به نقاط پرت حساسیت کمتری دارد (به دلیل استفاده از Median) اما برای مجموعه داده های بزرگتر بسیار کندتر است زیرا هنگام محاسبه میانه بردار مرتب سازی در هر تکرار مورد نیاز است.
K-Means تنها یکی از الگوریتم های خوشه بندی است، برای آشنایی با دیگر الگوریتم های خوشه بندی روی لینک زیر کلیک کنید.
https://bigpro1.com/fa/clustering/
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
برچسب : نویسنده : Admin93 bigdata بازدید : 51
برچسب : نویسنده : Admin93 bigdata بازدید : 82
برچسب : نویسنده : Admin93 bigdata بازدید : 94
برچسب : نویسنده : Admin93 bigdata بازدید : 115
برچسب : نویسنده : Admin93 bigdata بازدید : 116
DSS ارتباط محور
گروه هدف بیشتر DSS های ارتباط محور، تیم های داخلی از جمله شرکا و همکاران است.
هدف این سیستم های تصمیم یار، کمک به برگزاری جلسه یا همکاری با کاربران است. رایج ترین تکنولوژی استفاده شده برای راه اندازی این DSS ، سرور وب یا کلاینت است.
نمونه هایی از انواع سیستم های تصمیم یار ارتباط محور شامل چت و نرم افزارهای پیام رسان فوری، همکاری آنلاین و سیستم های نت میتینگ می باشد.
DSS داده محور
گروه هدف اغلب DSS های داده محور مدیران، کارکنان و همچنین تامین کنندگان محصولات / خدمات هستند. که برای جستجو از یک پایگاه داده به منظور جستجوی پاسخ های خاص برای اهداف خاص استفاده می شود.
این سیستم از طریق یک سیستم فریم اصلی، لینک کلاینت/سرور یا از طریق وب کار می کند. نمونه هایی از انواع سیستم های تصمیم یار داده محور شامل پایگاه داده های مبتنی بر کامپیوتر دارای یک سیستم جستجو برای بررسی میباشد. (شامل ترکیب داده هایی جهت افزودن به پایگاه داده های موجود).
DSS سند محور
DSS های سند محور رایج تر بوده و در پایگاه های گسترده ای از گروه های کاربری مورد استفاده قرار می گیرند. هدف چنین DSS ای جستجو در صفحات وب و پیدا کردن اسناد در مجموعه خاصی از کلمات کلیدی یا شرایط جستجوست.
تکنولوژی معمولی برای راه اندازی چنین DSS ای، از طریق وب یا یک سیستم کلاینت / سرور است.
در این مقاله به سه مورد از انواع DSSها اشاره کردیم. برای مطالعه مطالب تکمیلی اینجا کلیک کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
برچسب : نویسنده : Admin93 bigdata بازدید : 106
آزمونهای آماری مورد استفاده جهت تجزیه و تحلیل اطلاعات به دستآمده از یک گروه کوچک(نمونه) و تعمیم آن به جامعه مورد نظر با توجه به مقیاس اندازهگیری متغیرها، به دو گروه "پارامتریک" و "ناپارامتریک" تقسیم میشوند. آزمونهای پارامتریک، به تجزیه و تحلیل اطلاعات در سطح مقیاس فاصلهای و نسبی میپردازند که حداقل شاخص آماری آنها میانگین و واریانس است. در حالی که آزمونهای ناپارامتریک، به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی و رتبهای میپردازند که شاخص آماری آنها میانه و نما است.
یک. آزمونهای پارامتریک آمار استنباطی
از پرکاربردترین آزمونهای پارامتریک میتوان به آزمون t و آزمون تحلیل واریانس اشاره کرد. آزمون t، توزیع یا در حقیقت خانوادهای از توزیعها است که با استفاده از آنها فرضیههایی که درباره نمونه در شرایط جامعه ناشناخته است، آزمون میشود. اهمیت این آزمون(توزیع) در آن است که پژوهشگر را قادر میسازد با نمونههای کوچکتر(حداقل 2 نفر) اطلاعاتی درباره جامعه به دست آورد. آزمون t شامل خانوادهای از توزیعها است(برخلاف آزمونz ) و اینطور فرض میکند که هر نمونهای دارای توزیع مخصوص به خود است و شکل این توزیع از طریق محاسبه درجات آزادی مشخص میشود. به عبارت دیگر توزیع t تابع درجات آزادی است و هرچه درجات آزادی افزایش پیدا کند به توزیع طبیعی نزدیکتر میشود. از سوی دیگر هرچه درجات آزادی کاهش یابد، پراکندگی بیشتر میشود. خود درجات آزادی نیز تابعی از اندازه نمونه انتخابی هستند. هرچه تعداد نمونه بیشتر باشد بهتر است. از آزمون t میتوان برای تجزیه و تحلیل میانگین در پژوهشهای تکمتغیری یکگروهی و دوگروهی و چند متغیری دوگروهی استفاده کرد.
زمانی که پژوهشگری بخواهد بیش از دو میانگین(بیش از دو نمونه) را با هم مقایسه کند، باید از تحلیل واریانس استفاده کند. تحلیل واریانس روشی فراگیرتر از آزمون t است و برخی پژوهشگران حتی وقتی مقایسه میانگینهای دو نمونه مورد نظر است نیز از این روش استفاه میکنند. طرحهای متنوعی برای تحلیل واریانس وجود دارد و هر یک تحلیل آماری خاص خودش را طلب میکند. از جمله این طرحها میتوان به تحلیل یکعاملی واریانس(تحلیل واریانس یکراهه) و تحلیل عاملی متقاطع واریانس، تحلیل واریانس چندمتغیری، تحلیل کوواریانس یکمتغیری و چندمتغیری و ... اشاره کرد.
ب. آزمونهای ناپارامتریک آمار استنباطی
در پژوهشهایی که در سطح مقیاسهای اسمی و رتبهای اجرا میشوند، باید از آزمونهای ناپارامتریک برای تجزیه و تحلیل اطلاعات استفاده شود. آزمونهای زیادی برای این امر وجود دارد که براساس نوع تحلیل(نیکویی برازش، همسویی دو نمونه مستقل، همسویی دو نمونه وابسته، همسویی K نمونه مستقل و همسویی K نمونه وابسته) و مقیاس اندازهگیری میتوان دست به انتخاب زد. از آزمونهای مورد استفاده برای پژوهشها در سطح اسمی میتوان به آزمون 2χ، آزمون تغییر مک نمار، آزمون دقیق فیشر و آزمون کاکرن اشاره کرد. از آزمونهای مورد استفاده برای پژوهشها در سطح رتبهای میتوان به آزمونهای کولموگروف – اسمیرونف، آزمون تقارن توزیع، آزمون علامت، آزمون میانه، آزمون Uمان – ویتنی، آزمون تحلیل واریانس دو عاملی فریدمن و ... اشاره کرد.
برای آشنایی بیشتر با آمار استنباطی پیشنهاد میکنم مقاله "آمار استنباطی چیست؟" وبسایت بیگ پرو1 را مطالعه کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......برچسب : نویسنده : Admin93 bigdata بازدید : 106
API مخفف رابط کاربردی برنامهنویسی بوده و مجموعهای از پروتکلهایی است که به منظور ساخت و یکپارچهسازی نرمافزار استفاده میشود. API اجازه میدهد تا محصول یا خدمات شما با سایر محصولات و خدمات دیگر، ارتباط برقرار کند بدون اینکه بداند چطور آنها برنامهنویسی شدهاند. این امر میتواند توسعهی برنامه، صرفهجویی در وقت و هزینه را برای شما آسان کند. هنگامی که محصولات و نرمافزارهای جدیدی را طراحی کرده و آن ها را مدیریت میکنید، API به شما انعطافپذیری و آزادی عمل میدهد و فرصتهایی برای ایدههای جدید فراهم میکند.
اگر به مطالعه apiها علاقه دارید وبسایت بیگ پرو1 را مطالعه کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......برچسب : نویسنده : Admin93 bigdata بازدید : 133
ایدهی ابتدایی پشت یک شبکه عصبی، شبیهسازی (کپی کردن ساده و درعینحال پایدار) بسیاری از سلولهای مغزی متصل داخل یک کامپیوتر است تا بتوان اعمال یادگیری، شناسایی الگوها و تصمیمگیری انسانگونه را انجام داد. نکتهی جالب توجه درمورد شبکهی عصبی این است که نیازی نیست آن را برای یادگیری صریح، برنامهریزی کنید. این شبکه در واقع میتواند همهچیز را مانند مغز انسان، خودش یاد بگیرد.
اما این شبکهی عصبی، مغز نیست. در نظر داشتن این نکته مهم است که شبکههای عصبی عموما شبیهسازهای نرمافزاری هستند که با برنامهنویسی برای کامپیوترهای بسیار ساده و پیشپاافتاده راه میافتند و با روشهای قبلی خود و با استفاده از ترانزیستورها و دروازههای منطقی خود کار میکنند تا بهمانند میلیاردها سلول مغزی متصل و موازی رفتار کنند. هیچکس تا به حال حتی تلاش هم نکرده است تا کامپیوتری بسازد که با ترانزیستورهایی با ساختار موازی مانند مغز انسان کار کند. بهعبارت دیگر تفاوت شبکهی عصبی با مغز مانند تفاوت مدل کامپیوتری آبوهوا با ابر، برف، و هوای آفتابی درواقعیت است. شبیهسازی کامپیوتر تنها مجموعهای از متغیرهای جبری و معادلات ریاضی است که آنها را بههم متصل میکند (اعداد ذخیرهشده در جعبههایی که مقادیر آنها دائما درحال تغییر است). این شبیهسازیها برای کامپیوترها هیچ معنایی ندارد و تنها برای افرادی که برنامه آنها را مینویسند بامعنا است.
برای مطالعه بیشتر درمورد شبکه عصبی روی لینک زیر کلیک کنید.
https://bigpro1.com/fa/neura-networks/
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
برچسب : نویسنده : Admin93 bigdata بازدید : 124
آماده سازی داده ها یا data preparation فرآیند تهیه و ارائه دادهها برای کشف دادهها، داده کاوی و تجزیه و تحلیل پیشرفته است. هدف از تهیه دادهها پشتیبانی از تحلیل گران تجارت و دانشمندان داده با تهیه انواع دادهها برای اهداف تحلیلی آنها است. تهیه دادهها میتواند در بخشهای تجاری انجام شود و یا به طور متمرکز توسط IT انجام شود. آماده سازی داده ها یک زیر دامنه ادغام داده است که میتواند با ابزارهای اختصاصی یا ابزارهای سنتی برای ادغام دادهها مانند ابزارهای ETL، مجازی سازی دادهها یا اتوماسیون انبار داده اجرا شود. BARC برای کسب اطلاعات بیشتر در مورد تفکر فعلی در زمینه تهیه اطلاعات، یک تحقیق مستقل از بیش از 695 متخصص BI از طیف وسیعی از صنایع در سراسر جهان انجام داد. نظر سنجی BARC ” تهیه داده: پالایش دادههای خام” یکی از بزرگترین مطالعات با تمرکز بر شرایط، مزایا و چالشهای تهیه داده است.
برای مطالعه بیشتر درمورد آماده سازی داده اینجا کیک کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......برچسب : نویسنده : Admin93 bigdata بازدید : 157