همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و...

ساخت وبلاگ

K-Means شاید شناخته شده ترین الگوریتم خوشه بندی باشد. در بسیاری از کلاسهای علوم داده مقدماتی و کلاسهای یادگیری ماشین تدریس می شود. درک و اجرای کد آسان است.

برای شروع ، ابتدا تعداد خوشه (گروه) را برای استفاده انتخاب می کنیم و به طور تصادفی نقاط مربوطه آنها را در فضا قرار می دهیم. سپس هر نقطه داده در گروهی قرار می گیرد که به نقاط تصادفی نزدیک تر است
بر اساس این خوشه بندی ، ما مرکز هر خوشه را به عنوان نقطه جدید انتخاب می کنیم و مرحله قبل را برای خوشه بندی جدید انجام می دهیم.
این مراحل را برای تعداد مشخصی یا تا زمانی که مراکز گروه بین تکرار تغییر چندانی نکنند. تکرار کنید. همچنین می توانید چند مرتبه مراکز گروه را به طور تصادفی مقداردهی کنید .
K-Means این مزیت را دارد که بسیار سریع است ، زیرا تنها محاسبه ما فاصله بین نقاط و مراکز گروه است. بنابراین پیچیدگی خطی O(n) دارد.
از طرف دیگر ، K-Means دو عیب دارد. اول اینکه باید تعداد خوشه ها را انتخاب کنید. ما بعضی اوقات نیاز داریم الگوریتم این کار را برای ما انجام دهد زیرا می خواهیم دیدی از داده ها بدست آوریم. دوم اینکه K-mean با انتخاب تصادفی مراکز خوشه شروع می شود و بنابراین ممکن است نتایج خوشه بندی متفاوتی را در اجرای های مختلف الگوریتم بدست آورد.
K-Medians یکی دیگر از الگوریتم های خوشه بندی مربوط به K-Means است ، با این تفاوت که به جای محاسبه مرکز گروه با استفاده از میانه بردار نقاط جدید را بوجود می آورد. این روش نسبت به نقاط پرت حساسیت کمتری دارد (به دلیل استفاده از Median) اما برای مجموعه داده های بزرگتر بسیار کندتر است زیرا هنگام محاسبه میانه بردار مرتب سازی در هر تکرار مورد نیاز است.

K-Means تنها یکی از الگوریتم های خوشه بندی است، برای آشنایی با دیگر الگوریتم های خوشه بندی روی لینک زیر کلیک کنید.

https://bigpro1.com/fa/clustering/

 

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 51 تاريخ : چهارشنبه 17 آبان 1402 ساعت: 13:48

چرا به RESTful APIها نیاز داریم؟
فرض کنید می‌خواهید از اپلیکیشن Book My Show استفاده کنید. واضح است که این اپلیکیشن به داده‌های ورودی بسیاری نیاز دارد، چون داده‌های موجود در آن استاتیک (Static) نیستند. اطلاعاتی مثل زمان اکران فیلم‌های مختلف یا شهرهای مختلفی که فیلم‌هایی با زبان‌های مختلف را در سانس‌های مختلف نمایش می‌دهند. این داده‌ها هرگز استاتیک نیستند، که نشان می‌دهد داده‌های این نوع اپلیکیشن‌ها مدام تغییر می‌کنند.
 
حالا فکر می‌کنید ما این داده‌ها را از کجا می‌آوریم؟
این داده‌ها را اغلب از سرورها می‌گیریم که بیشتر با عنوان وب‌سرورها (Web Server) شناخته می‌شوند. کلاینت (Client) از طریق یک API اطلاعات موردنیازش را از سرور درخواست می‌کند (Request) و سرور به درخواست کلاینت پاسخ (Response) می‌دهد.
در اینجا، پاسخی که کلاینت دریافت می‌کند، یک صفحه‌ی وب HTML است. اما فکر می‌کنید که آیا این پاسخی مناسب به درخواست شماست
خُب، فرض می‌کنیم که پاسخ شما “نه” باشد. چون ترجیح می‌دهید که داده‌هایتان را به صورت فرمتی ساختاریافته دریافت کنید، نه یک صفحه‌ی وب کامل.
به همین دلیل، داده‌ای که سرور در پاسخ به درخواستتان برمی‌گرداند اغلب به فرمت JSON یا XML است. هر دو فرمت JSON و XML ساختاری سلسله‌ مراتبی به داده می‌دهند.
 
برای مطالعه بیشتر درمورد Rest Ful APIها اینجا کلیک کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 82 تاريخ : يکشنبه 14 اسفند 1401 ساعت: 13:58

پاکسازی داده‌ ها (Data cleaning)، شامل شناسایی و رفع خطاهای احتمالی داده‌ها برای بهبود کیفیت آنهاست. در این فرآیند، شما داده‌های «کثیف» را شناسایی، بررسی، تجزیه و تحلیل، اصلاح یا حذف می‌کنید تا مجموعه داده‌های خود را پاکسازی کنید. داده‌های کثیف به معنی ناهماهنگی‌ها و خطاها هستند که می‌توانند از هر بخش فرآیند تحقیق، مانند طراحی ضعیف، اندازه گیری غلط، ورود داده‌های ناقص و… به دست آیند.
 
تمیز کردن داده‌ها، ممکن است به صورت تعاملی با ابزارهای داده کاوی یا به صورت پردازش هسته‌ای از طریق اسکریپت‌ها انجام شود. پس از فرآیند پاکسازی، لازم است مجموعه داده‌ها با سایر مجموعه‌های مشابه در سیستم سازگار باشد.
اگر به مبحث پاکسازی داده ها علاقه دارید روی لینک زیر کلیک کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 94 تاريخ : دوشنبه 24 بهمن 1401 ساعت: 13:48

یک شبکه باور عمیق راه حلی برای مشکل کنترل توابع هدف غیر محدب و حداقل های محلی در هنگام استفاده از پرسپترون چند لایه معمولی است. این نوع جایگزین یادگیری عمیق شامل لایه‌های چندگانه متغیرهای پنهان با اتصال بین لایه‌ها است. شبکه باور عمیق را می توان به عنوان ماشین‌های بولتزمن محدود شده (‏RBM) در نظر گرفت که در آن هر لایه پنهان زیر شبکه به عنوان لایه ورودی قابل‌مشاهده برای لایه مجاور شبکه عمل می‌کند. آن پایین‌ترین لایه قابل‌مشاهده را به یک مجموعه آموزشی برای لایه مجاور شبکه تبدیل می‌کند. به این ترتیب، هر لایه شبکه به صورت مستقل و حریصانه آموزش داده می‌شود. متغیرهای پنهان به عنوان متغیرهای مشاهده‌شده برای آموزش هر لایه از ساختار عمیق استفاده می‌شوند. الگوریتم آموزشی برای چنین شبکه باور عمیقی به شرح زیر ارائه شده‌است:
 
یک بردار ورودی را در نظر بگیرید یک ماشین بولتزمن محدود شده را با استفاده از بردار ورودی آموزش دهید و ماتریس وزن را به دست آورید. ​دو لایه پایین‌تر شبکه را با استفاده از این ماتریس وزنی بردار ورودی جدید را با استفاده از شبکه (‏RBM)‏از طریق نمونه‌برداری یا فعال‌سازی متوسط واحدهای مخفی تولید کنید. ​این روند را تکرار کنید تا به دو لایه بالایی شبکه برسید. ​تنظیم دقیق شبکه باور عمیق بسیار شبیه به شبکه پرسپترون چند لایه است.
برای برای مطالعه بیشتر درمورد الگوریتم های یادگیری عمیق روی لینک زیر کلیک کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 115 تاريخ : شنبه 17 دی 1401 ساعت: 12:41

روش‌های یادگیری بدون نظارت در تجزیه و تحلیل‌های اکتشافی خیلی مفید هستند زیرا قادرند ساختار را به طور خودکار در داده شناسایی کنند. برای نمونه، اگر تحلیلگری بخواهد مصرف‌کنندگان را تفکیک کند، روش‌های یادگیری بدون نظارت می‌تواند شروع بسیار خوبی برای تحلیل باشد. در مواردی که بررسی روندهای موجود در داده‌ها برای انسان امکان‌ناپذیر است، روش‌های یادگیری بدون نظارت می‌توانند بینش مناسبی فراهم کرده و برای آزمودن تک‌تکِ فرضیه‌ها به کار برده شوند. کاهش بُعد به روش‌هایی اطلاق می‌شود که داده‌ها را با استفاده از ویژگی‌ها یا ستون‌های کمتری به نمایش می‌گذارند.
 
روش‌های یادگیری بدون نظارت در اجرای این روش «کاهش بعد» کاربرد دارد. در یادگیری ارائه، یادگیری روابط میان ویژگی‌های فردی در دستور کار قرار می‌گیرد. لذا این فرصت برایمان ایجاد می‌شود تا داده‌های خود را با استفاده از ویژگی‌های پنهان  ارائه کنیم. این ساختارهای پنهان معمولا با تعداد ویژگی های کمتری نسبت به ویژگی های اولیه نمایش داده می‌شوند، همین مسئله به ما اجازه می‌دهد که پردازش بیشتری با حساسیت کمتری بر روی داده ها داشته باشیم، همچنین از این طریق ویژگی های اضافی حذف می‌گردند.
برای مطالعه بیشتر درمورد یادگیری بدون نظارت به وبسایت بیگ پرو1 مراجعه کنید.
همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 116 تاريخ : دوشنبه 12 دی 1401 ساعت: 15:44

 DSS ارتباط محور

گروه هدف بیشتر DSS های ارتباط محور، تیم های داخلی از جمله شرکا و همکاران است.

هدف این سیستم های تصمیم یار، کمک به برگزاری جلسه یا همکاری با کاربران است. رایج ترین تکنولوژی استفاده شده برای راه اندازی این DSS ، سرور وب یا کلاینت است.

نمونه هایی از انواع سیستم های تصمیم یار ارتباط محور شامل چت و نرم افزارهای پیام رسان فوری، همکاری آنلاین و سیستم های نت میتینگ می باشد.

 DSS داده محور
گروه هدف اغلب DSS های داده محور مدیران، کارکنان و همچنین تامین کنندگان محصولات / خدمات هستند. که برای جستجو از یک پایگاه داده به منظور جستجوی پاسخ های خاص برای اهداف خاص استفاده می شود.

این سیستم از طریق یک سیستم فریم اصلی، لینک کلاینت/سرور یا از طریق وب کار می کند. نمونه هایی از انواع سیستم های تصمیم یار داده محور شامل پایگاه داده های مبتنی بر کامپیوتر دارای یک سیستم جستجو برای بررسی میباشد. (شامل ترکیب داده هایی جهت افزودن به پایگاه داده های موجود).

 DSS سند محور

DSS های سند محور رایج تر بوده و در پایگاه های گسترده ای از گروه های کاربری مورد استفاده قرار می گیرند. هدف چنین DSS ای جستجو در صفحات وب و پیدا کردن اسناد در مجموعه خاصی از کلمات کلیدی یا شرایط جستجوست.

تکنولوژی معمولی برای راه اندازی چنین DSS ای، از طریق وب یا یک سیستم کلاینت / سرور است.

در این مقاله به سه مورد از انواع DSSها اشاره کردیم. برای مطالعه مطالب تکمیلی اینجا کلیک کنید.

 

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 106 تاريخ : چهارشنبه 21 تير 1402 ساعت: 15:29

آزمون‌های آماری مورد استفاده جهت تجزیه و تحلیل اطلاعات به دست‌آمده از یک گروه کوچک(نمونه) و تعمیم آن به جامعه مورد نظر با توجه به مقیاس اندازه‌گیری متغیرها، به دو گروه "پارامتریک" و "ناپارامتریک" تقسیم می‌شوند. آزمون‌های پارامتریک، به تجزیه و تحلیل اطلاعات در سطح مقیاس فاصله‌ای و نسبی می‌پردازند که حداقل شاخص آماری آنها میانگین و واریانس است. در حالی که آزمون‌های ناپارامتریک، به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی ‌و رتبه‌ای می‌پردازند که شاخص آماری آنها میانه و نما است.

 

یک. آزمون‌های پارامتریک آمار استنباطی

  از پرکاربردترین آزمون‌های پارامتریک می‌توان به آزمون t و آزمون تحلیل واریانس اشاره کرد. آزمون t، توزیع یا در حقیقت خانواده‌ای از توزیع‌ها است که با استفاده از آنها فرضیه‌هایی که درباره نمونه در شرایط جامعه ناشناخته است، آزمون می‌شود. اهمیت این آزمون(توزیع) در آن است که پژوهشگر را قادر می‌سازد با نمونه‌های کوچکتر(حداقل 2 نفر) اطلاعاتی درباره جامعه به دست آورد. آزمون t شامل خانواده‌ای از توزیع‌ها است(برخلاف آزمونz ) و این‌طور فرض می‌کند که هر نمونه‌ای دارای توزیع مخصوص به خود است و شکل این توزیع از طریق محاسبه درجات آزادی مشخص می‌شود. به عبارت دیگر توزیع t تابع درجات آزادی است و هرچه درجات آزادی افزایش پیدا کند به توزیع طبیعی نزدیکتر می‌شود. از سوی دیگر هرچه درجات آزادی کاهش یابد، پراکندگی بیشتر می‌شود. خود درجات آزادی نیز تابعی از اندازه نمونه انتخابی هستند. هرچه تعداد نمونه بیشتر باشد بهتر است. از آزمون t می‌توان برای تجزیه و تحلیل میانگین در پژوهش‌های تک‌متغیری یک‌گروهی و دوگروهی و چند متغیری دوگروهی استفاده کرد.

  زمانی که پژوهشگری بخواهد بیش از دو میانگین(بیش از دو نمونه) را با هم مقایسه کند، باید از تحلیل واریانس استفاده کند. تحلیل واریانس روشی فراگیرتر از آزمون t است و برخی پژوهشگران حتی وقتی مقایسه میانگین‌های دو نمونه مورد نظر است نیز از این روش استفاه می‌کنند. طرح‌های متنوعی برای تحلیل واریانس وجود دارد و هر یک تحلیل آماری خاص خودش را طلب می‌کند. از جمله این طرح‌ها می‌توان به تحلیل یک‌عاملی واریانس(تحلیل واریانس یک‌راهه) و تحلیل عاملی متقاطع واریانس، تحلیل واریانس چندمتغیری، تحلیل کوواریانس یک‌متغیری و چندمتغیری و ... اشاره کرد.

ب. آزمون‌های ناپارامتریک آمار استنباطی

  در پژوهش‌هایی که در سطح مقیاس‌های اسمی ‌و رتبه‌ای اجرا می‌شوند، باید از آزمون‌های ناپارامتریک برای تجزیه و تحلیل اطلاعات استفاده شود. آزمون‌های زیادی برای این امر وجود دارد که براساس نوع تحلیل(نیکویی برازش، همسویی دو نمونه مستقل، همسویی دو نمونه وابسته، همسویی K نمونه مستقل و همسویی K نمونه وابسته) و مقیاس اندازه‌گیری می‌توان دست به انتخاب زد. از آزمون‌های مورد استفاده برای پژوهش‌ها در سطح اسمی‌ می‌توان به آزمون 2χ، آزمون تغییر مک نمار، آزمون دقیق فیشر و آزمون کاکرن اشاره کرد. از آزمون‌های مورد استفاده برای پژوهش‌ها در سطح رتبه‌ای می‌توان به آزمون‌های کولموگروف – اسمیرونف، آزمون تقارن توزیع، آزمون علامت، آزمون میانه، آزمون Uمان – ویتنی، آزمون تحلیل واریانس دو عاملی فریدمن و ... اشاره کرد.

برای آشنایی بیشتر با آمار استنباطی  پیشنهاد میکنم مقاله "آمار استنباطی چیست؟" وبسایت بیگ پرو1 را مطالعه کنید.

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 106 تاريخ : دوشنبه 2 آبان 1401 ساعت: 14:38

API مخفف رابط کاربردی برنامه‌نویسی بوده و مجموعه‌ای از پروتکل‌هایی است که به منظور ساخت و یکپارچه‌سازی نرم‌افزار استفاده می‌شود. API اجازه می‌دهد تا محصول یا خدمات شما با سایر محصولات و خدمات دیگر، ارتباط برقرار کند بدون اینکه بداند چطور آنها برنامه‌نویسی شده‌اند. این امر می‌تواند توسعه‌ی برنامه، صرفه‌جویی در وقت و هزینه را برای شما آسان کند. هنگامی که محصولات و نرم‌افزارهای جدیدی را طراحی کرده و آن ها را مدیریت می‌کنید، API به شما انعطاف‌پذیری و آزادی عمل می‌دهد و فرصت‌هایی برای ایده‌های جدید فراهم می‌کند.

 

اگر به مطالعه apiها علاقه دارید وبسایت بیگ پرو1 را مطالعه کنید.

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 133 تاريخ : دوشنبه 18 مهر 1401 ساعت: 15:26

ایده‌ی ابتدایی پشت یک شبکه عصبی، شبیه‌سازی (کپی کردن ساده و درعین‌حال پایدار) بسیاری‌ از سلول‌های مغزی متصل داخل یک کامپیوتر است تا بتوان اعمال یادگیری، شناسایی الگوها و تصمیم‌گیری انسان‌گونه را انجام داد. نکته‌ی جالب توجه درمورد شبکه‌ی عصبی این است که نیازی نیست آن را برای یادگیری صریح، برنامه‌ریزی کنید. این شبکه در واقع می‌تواند همه‌چیز را مانند مغز انسان، خودش یاد بگیرد.
اما این شبکه‌ی عصبی، مغز نیست. در نظر داشتن این نکته مهم است که شبکه‌های عصبی عموما شبیه‌سازهای نرم‌افزاری هستند که با برنامه‌نویسی برای کامپیوترهای بسیار ساده و پیش‌پاافتاده راه می‌افتند و با روش‌های قبلی خود و با استفاده‌ از ترانزیستورها و دروازه‌های منطقی خود کار می‌کنند تا به‌مانند میلیاردها سلول مغزی متصل و موازی رفتار کنند. هیچ‌کس تا به‌ حال حتی تلاش هم نکرده است تا کامپیوتری بسازد که با ترانزیستورهایی با ساختار موازی مانند مغز انسان کار کند. به‌عبارت دیگر تفاوت شبکه‌ی عصبی با مغز مانند تفاوت مدل کامپیوتری آب‌وهوا با ابر، برف، و هوای آفتابی درواقعیت است. شبیه‌سازی کامپیوتر تنها مجموعه‌ای از متغیرهای جبری و معادلات ریاضی است که آن‌ها را به‌هم متصل می‌کند (اعداد ذخیره‌شده در جعبه‌هایی که مقادیر آن‌ها دائما درحال تغییر است). این شبیه‌سازی‌ها برای کامپیوترها هیچ معنایی ندارد و تنها برای افرادی که برنامه‌ آن‌ها را می‌نویسند بامعنا است.

برای مطالعه بیشتر درمورد شبکه عصبی روی لینک زیر کلیک کنید.

https://bigpro1.com/fa/neura-networks/

 

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 124 تاريخ : دوشنبه 18 مهر 1401 ساعت: 14:52

آماده سازی داده ها یا data preparation فرآیند تهیه و ارائه داده‌ها برای کشف داده‌ها، داده کاوی و تجزیه و تحلیل پیشرفته است. هدف از تهیه داده‌ها پشتیبانی از تحلیل گران تجارت و دانشمندان داده با تهیه انواع داده‌ها برای اهداف تحلیلی آن‌ها است. تهیه داده‌ها می‌تواند در بخش‌های تجاری انجام شود و یا به طور متمرکز توسط IT انجام شود. آماده سازی داده ها یک زیر دامنه ادغام داده است که می‌تواند با ابزارهای اختصاصی یا ابزارهای سنتی برای ادغام داده‌ها مانند ابزارهای ETL، مجازی سازی داده‌ها یا اتوماسیون انبار داده اجرا شود. BARC برای کسب اطلاعات بیشتر در مورد تفکر فعلی در زمینه تهیه اطلاعات، یک تحقیق مستقل از بیش از 695 متخصص BI از طیف وسیعی از صنایع در سراسر جهان انجام داد. نظر سنجی BARC ” تهیه داده: پالایش داده‌های خام” یکی از بزرگ‌ترین مطالعات با تمرکز بر شرایط، مزایا و چالش‌های تهیه داده است.

برای مطالعه بیشتر درمورد آماده سازی داده اینجا کیک کنید.

همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و......
ما را در سایت همه چیز درباره داده ها، تحلیل داده ها، یادگیری ماشین و... دنبال می کنید

برچسب : نویسنده : Admin93 bigdata بازدید : 157 تاريخ : چهارشنبه 16 شهريور 1401 ساعت: 15:45