mirror of
https://github.com/donnemartin/data-science-ipython-notebooks.git
synced 2024-03-22 13:30:56 +08:00
369 lines
40 KiB
Python
369 lines
40 KiB
Python
|
{
|
|||
|
"cells": [
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"## ক্রস ভ্যালিডেশনের প্যারামিটারের টিউনিং, মডেল সিলেকশন \n",
|
|||
|
"\n",
|
|||
|
"জুপিটার নোটবুকের লিংক https://github.com/raqueeb/ml-python/blob/master/cross-validation.ipynb"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### অ্যাক্যুরেসি বাড়ানোর জন্য \"কে ফোল্ড\" ক্রস ভ্যালিডেশন\n",
|
|||
|
"\n",
|
|||
|
"মডেল ইভ্যালুয়েশনে \"ট্রেইন/টেস্ট স্প্লিট\" দেখেছি আগের চ্যাপ্টারে। এখানে এই স্প্লিটে বেশি 'আউট অফ স্যাম্পল' ডেটার জন্য 'ভ্যারিয়েন্স' এস্টিমেট অনেক বেশি হতে পারে। কারণ কোন অবজারভেশনগুলো টেস্ট সেটে যাবে সেটা অনেক সময় আমাদের হাতে থাকে না। আর সেকারণে সেটার আউটকাম টেস্টিং অ্যাক্যুরেসিতে পড়তে পারে। আর আপনি যা করছেন সেটা একবার করছেন। একটা ছোট ডেটাসেটের আলাদা একটা টেস্টসেট তৈরি করতে গিয়ে ট্রেনিং ডেটাসেট কমে যায়। \n",
|
|||
|
"\n",
|
|||
|
"সেকারণে আমরা এখন চেষ্টা করবো নতুন একটা কনসেপ্ট, \"কে ফোল্ড\" ক্রস ভ্যালিডেশন। \"কে ফোল্ড\" অর্থ হচ্ছে ডেটাসেটকে কতোবার আমরা \"কে\" সংখ্যক একই ভাগে ভাগ করবো। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### শুরুতেই লোড করে নেই আগের ডেটাসেট এবং দরকারি মডিউল "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 1,
|
|||
|
"metadata": {
|
|||
|
"collapsed": true
|
|||
|
},
|
|||
|
"outputs": [],
|
|||
|
"source": [
|
|||
|
"from sklearn.datasets import load_iris\n",
|
|||
|
"from sklearn.model_selection import train_test_split\n",
|
|||
|
"from sklearn.neighbors import KNeighborsClassifier\n",
|
|||
|
"from sklearn import metrics"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 2,
|
|||
|
"metadata": {
|
|||
|
"collapsed": true
|
|||
|
},
|
|||
|
"outputs": [],
|
|||
|
"source": [
|
|||
|
"# লোড করে নেই আইরিস ডেটাসেট \n",
|
|||
|
"iris = load_iris() \n",
|
|||
|
"\n",
|
|||
|
"# তৈরি করে নেই X (ফীচার) এবং y (রেসপন্স)\n",
|
|||
|
"X = iris.data\n",
|
|||
|
"y = iris.target"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### \"কে ফোল্ড\" ক্রস ভ্যালিডেশন করার কিছু স্টেপস "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"১. শুরুতেই আমাদের নতুন এই টুল পুরো ডেটাসেটকে ভাগ করবে সমান সাইজের পার্টিশনে। এই পার্টিশনগুলো হচ্ছে ফোল্ড, কয়টা ফোল্ড করতে চাই আমরা?\n",
|
|||
|
"\n",
|
|||
|
"২. নিচের ছবিটা দেখুন। পুরো ডেটাকে পাঁচ ভাগে ভাগ করেছে এই টুল। এখানে সবচেয়ে ডানের পার্টিশন মানে ফোল্ডকে সে ডিক্লেয়ার করেছে টেস্ট সেট হিসেবে। বাকি চার ভাগ ট্রেনিং সেট। ট্রেনিং সেট সবসময় টেস্ট সেট থেকে বড় রাখতে হয়। \n",
|
|||
|
"\n",
|
|||
|
"৩. এরপর সেটা বের করবে \"টেস্টিং অ্যাক্যুরেসি\"। সাধারণ সিস্টেমে যেভাবে আগে কাজ করেছি সেভাবে। \n",
|
|||
|
"\n",
|
|||
|
"৪. ২য় এবং ৩য় স্টেপগুলো বার বার করতে থাকবো যতক্ষণ পর্যন্ত একেকটা ফোল্ডকে একেকবার টেস্ট সেট হিসেবে ব্যবহার করে শেষ করে ফেলবো। এটা যদি \"৫ ফোল্ড\" ক্রস ভ্যালিডেশন হয়, এর মানে হচ্ছে পাঁচবার আলাদা করে টেস্ট সেট হিসেবে ধরে ট্রেনিং করে সেটার অ্যাক্যুরেসি সে মনে রাখবে। এগুলো আমরা খালি চোখে দেখবো না, এর সব কাজ হয়ে যাবে মডিউলের ভেতরে। \n",
|
|||
|
"\n",
|
|||
|
"৫. এই সবগুলোর \"টেস্টিং অ্যাক্যুরেসি\"কে গড় করে সেটাকে আমরা \"আউট অফ স্যাম্পল\" এর এস্টিমেট ধারণা করতে পারি। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### \"৫ ফোল্ড\" ক্রস ভ্যালিডেশন এর একটা ছবি \n",
|
|||
|
"\n",
|
|||
|
"![5-fold cross-validation](assets/cv.png)"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 3,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"Iteration Training set observations Testing set observations\n",
|
|||
|
" 1 [ 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24] [0 1 2 3 4] \n",
|
|||
|
" 2 [ 0 1 2 3 4 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24] [5 6 7 8 9] \n",
|
|||
|
" 3 [ 0 1 2 3 4 5 6 7 8 9 15 16 17 18 19 20 21 22 23 24] [10 11 12 13 14] \n",
|
|||
|
" 4 [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 20 21 22 23 24] [15 16 17 18 19] \n",
|
|||
|
" 5 [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19] [20 21 22 23 24] \n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# এটা আমাদের কাজে লাগবেনা, তবে ধারণা নেবার জন্য এখানে দেয়া \n",
|
|||
|
"# আমরা ২৫টা রেকর্ড নিয়ে সেটাকে ৫ ফোল্ডে ভাগ করে একটা সিমুলেশন দেখাই এখানে \n",
|
|||
|
"\n",
|
|||
|
"from sklearn.model_selection import KFold\n",
|
|||
|
"kf = KFold(n_splits=5, shuffle=False).split(range(25))\n",
|
|||
|
"\n",
|
|||
|
"# প্রতিটা ট্রেনিং এবং টেস্ট সেট এর কনটেন্ট দেখি একটা একটা করে, সংখ্যাগুলো ডেটাসেটের একেকটা রেকর্ড \n",
|
|||
|
"print('{} {:^61} {}'.format('Iteration', 'Training set observations', 'Testing set observations'))\n",
|
|||
|
"for iteration, data in enumerate(kf, start=1):\n",
|
|||
|
" print('{:^9} {} {:^25}'.format(iteration, data[0], str(data[1])))"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"আপনাদের বোঝানোর জন্য ছোট একটা পঁচিশটা অবজারভেশনের ডেটাসেট দেখানো হচ্ছে এখানে। এর সাথে আইরিস ডেটাসেটের কোন সম্পর্ক নেই। এর অবজারভেশনগুলো হচ্ছে ০ থেকে ২৪ পর্যন্ত।\n",
|
|||
|
"\n",
|
|||
|
"যেহেতু এটা একটা ৫ ফোল্ড ক্রস ভালিডেশন, সে কারণে এটার কিন্তু পাঁচটা ‘আইটারেশন’। একই জিনিস পাঁচবার আলাদা আলাদা করে চলবে।\n",
|
|||
|
"\n",
|
|||
|
"প্রতিটা ‘আইটারেশনে’, আমাদের এক একটা রেকর্ড - হয় ট্রেনিং সেটে অথবা টেস্টিং সেটে থাকবে, কিন্তু দু'জায়গায় একসময়ে থাকবে না। \n",
|
|||
|
"\n",
|
|||
|
"আবার টেস্টিং সেটে প্রতিটা অবজারভেশন একবারই আসবে, এর বেশি নয়।"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### ক্রস ভ্যালিডেশনের কিছু বেস্ট প্রাক্টিসেস "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"১. আমাদের \"কে\" ফোল্ড অংশে \"কে\" এর সংখ্যা ইচ্ছেমতো হতে পারে তবে আমাদের রেকমেন্ডেশন হচ্ছে **K=10**।\n",
|
|||
|
"\n",
|
|||
|
"২. ক্লাসিফিকেশন সমস্যায় সেখানে আমরা \"স্ট্র্যাটিফাইড স্যাম্পলিং\" ব্যবহার করবো ফোল্ড তৈরি করার জন্য। প্রতিটা রেসপন্স ক্লাস কিন্তু একই অনুপাতে আনতে হবে প্রতিটা \"কে\" ফোল্ডে। এটা একটা সমস্যা। তবে সাইকিট লার্নের `cross_val_score` ফাংশন জিনিসটা করে দেয় এমনিতেই। আর সেকারণে সাইকিট লার্নের এতো নাম ডাক। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### অ্যাক্যুরেসি বাড়াতে আইরিস ডেটাসেটের জন্য প্যারামিটার টিউনিং "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"অনেক গল্প শুনি আমরা \"হাইপার-প্যারামিটার\" টিউনিং নিয়ে। আইরিস ডেটাসেট নিয়ে \"কে নিয়ারেস্ট নেইবার\"এর সবচেয়ে ভালো টিউনিং প্যারামিটার কি হতে পারে? "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 4,
|
|||
|
"metadata": {
|
|||
|
"collapsed": true
|
|||
|
},
|
|||
|
"outputs": [],
|
|||
|
"source": [
|
|||
|
"from sklearn.model_selection import cross_val_score"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 5,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"[ 1. 0.93333333 1. 1. 0.86666667 0.93333333\n",
|
|||
|
" 0.93333333 1. 1. 1. ]\n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# \"কে নিয়ারেস্ট নেইবার\" K=5, n_neighbors হচ্ছে প্যারামিটার + \"কে ফোল্ড\" ক্রস ভ্যালিডেশন এর cv=10\n",
|
|||
|
"knn = KNeighborsClassifier(n_neighbors=5)\n",
|
|||
|
"scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')\n",
|
|||
|
"print(scores)"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 6,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"0.966666666667\n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# গড় করি সবগুলোর \"আউট অফ স্যাম্পল\" অ্যাক্যুরেসি পেতে \n",
|
|||
|
"print(scores.mean())"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 7,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"[0.95999999999999996, 0.95333333333333337, 0.96666666666666656, 0.96666666666666656, 0.96666666666666679, 0.96666666666666679, 0.96666666666666679, 0.96666666666666679, 0.97333333333333338, 0.96666666666666679, 0.96666666666666679, 0.97333333333333338, 0.98000000000000009, 0.97333333333333338, 0.97333333333333338, 0.97333333333333338, 0.97333333333333338, 0.98000000000000009, 0.97333333333333338, 0.98000000000000009, 0.96666666666666656, 0.96666666666666656, 0.97333333333333338, 0.95999999999999996, 0.96666666666666656, 0.95999999999999996, 0.96666666666666656, 0.95333333333333337, 0.95333333333333337, 0.95333333333333337]\n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# \"কে নিয়ারেস্ট নেইবার\" কতো হলে মডেলটা অপটিমাইজড হয়? ১ থেকে ৩১ পর্যন্ত \n",
|
|||
|
"# এখানে \"কে ফোল্ড\" ক্রস ভ্যালিডেশন = ১০ মানে cv=10\n",
|
|||
|
"k_range = list(range(1, 31))\n",
|
|||
|
"k_scores = []\n",
|
|||
|
"for k in k_range:\n",
|
|||
|
" knn = KNeighborsClassifier(n_neighbors=k)\n",
|
|||
|
" scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')\n",
|
|||
|
" k_scores.append(scores.mean())\n",
|
|||
|
"print(k_scores)"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 8,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"data": {
|
|||
|
"text/plain": [
|
|||
|
"Text(0,0.5,'Cross-Validated Accuracy')"
|
|||
|
]
|
|||
|
},
|
|||
|
"execution_count": 8,
|
|||
|
"metadata": {},
|
|||
|
"output_type": "execute_result"
|
|||
|
},
|
|||
|
{
|
|||
|
"data": {
|
|||
|
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAZIAAAEKCAYAAAA4t9PUAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMS4wLCBo\ndHRwOi8vbWF0cGxvdGxpYi5vcmcvpW3flQAAIABJREFUeJzt3Xucm2d54P3fNUeNZ0aSD+OR7ZHj\nJOTk2J4xmJRzQlog9AAJAUqWtsCypdstvO0WWKD0ZWlKXlqgpe9uWbq0UMiWEiCcUhoaaEjoiUIc\nLNlOnBjHSayxZ+zxQZqTNTOSrv3jeTSWZUnz6DQaaa7v5zOfkZ6T7sca69J9um5RVYwxxphKtTW6\nAMYYY5qbBRJjjDFVsUBijDGmKhZIjDHGVMUCiTHGmKpYIDHGGFMVCyTGGGOqYoHEGGNMVSyQGGOM\nqUpHowuwHDZs2KDbtm1rdDGMMaapPProo6dVdWCp41ZFINm2bRt79+5tdDGMMaapiMizXo6zpi1j\njDFVsUBijDGmKhZIjDHGVMUCiTHGmKpYIDHGGFOVugYSEblFRJ4UkSMi8v4C+y8TkQdFZL+IPCwi\nQzn7PiYij4nIIRH5HyIi7vbnicgB95qL240xxjRG3QKJiLQDnwJeDWwH7hCR7XmHfQK4W1V3AXcC\nH3XPfRHwYmAXsAN4PnCje86ngXcAV7k/t9TrHowxxiytnjWSG4AjqnpUVeeBe4DX5h2zHXjQffxQ\nzn4FfEAX0A10AidFZBPgV9UfqrNG8N3ArXW8B7MKPfrsOSKxeKOLUTNzqTRf+vEx0pnaLaudXEhz\nz4+PkanhNU3zqmcg2QLEcp6PuttyRYHb3ce3Af0isl5Vf4gTWMbcnwdU9ZB7/ugS1wRARN4hIntF\nZO/ExETVN2NWj/d9bT8f/MaBRhejZu4/MMYHvn6Af/5p7f4ffHv/GO//+gH2xc7V7JqmedUzkBTq\nu8j/+vIe4EYR2YfTdHUcSInIc4DrgCGcQHGziLzM4zWdjaqfUdU9qrpnYGDJGf7GADCZXOCpiWme\nGJ/i/Hy60cWpicgxp3ZVy1pWxA0gJ+LJml3TNK96BpJRIJzzfAg4kXuAqp5Q1dep6m7gg+62BE7t\n5N9VdVpVp4HvAC9wrzlU6prGVOPAaAJVSGeUx04kGl2cmoiMOvcRrWEgicaca56ctEBi6htIHgGu\nEpHLRaQLeBNwX+4BIrJBRLJl+ADwOffxMZyaSoeIdOLUVg6p6hgwJSIvcEdr/RrwrTreg1llcr+1\nt0I/yVwqzaETkwBERxM4XYvVSS6kOTTmXHMsYYHE1DGQqGoKeCfwAHAI+IqqPiYid4rIa9zDbgKe\nFJHDwCBwl7v9XuAp4ABOP0pUVf/O3febwF8BR9xjvlOvezCrTyQW5/INvWwJ9rREIDk0NsV8OsNL\nr9rA2Zl5YmfPV33Nx05MknI72cetRmKoc/ZfVb0fuD9v24dyHt+LEzTyz0sDv1HkmntxhgQbU1Oq\nSiQW5yXP2cB8KkN0tPkDSbY56y0v3MY///Q0kdE4W9evqck1r9jQy0mrkRhsZrsxi8Ynk0xMzTE8\nFGA4HCB29jxnpucaXayqRGNxBvq7ufGaAXydbTXpJ4mOxgn5fewaCliNxAAWSIxZlB3dNBwOMjwU\nBGj6WkkkFmd4KEhnexs7Ngdq0lwXicUZDgcIBXo4NTlnc0mMBRJjsiKjcTrbhe2b/ewcCtAmEIk1\n78itxOwCR0/PsHurExRHwkEOHk+wkM5UfM1zM/M8e2aWkfBaQv5u5tMZzs7O16rIpklZIDHGFTkW\nZ/smP90d7azp6uDqwf6m7nDP1qaytavhcJC5VIYnx6cqvmYke81wgFDAB8C49ZOsehZIjMGZN3Lg\neIKRcHBx2+6tQaKxeE2GzDZCtj9kVzgAsHhv1QTHaCyOCOzcEmDQ7wQSm0tiLJAYAxw5Nc3sfJrh\nnEAyPBQkcX6BZ8/MNrBklYuOxrlyoBe/rxOAobU9rO/tqqrDPRqLc9XGPvp9nRdqJBZIVj0LJMZw\nIeXHRYGkBt/gGyU7lDn3fkSE4XCw4vtZvKbbVDbQ102bYEOAjQUSY8DpVPf7Orh8fe/itqsH+1nT\n1d6UgeR4/Dynp+fZnRNIwGneOjIxzVRyoexrxs6e59zswmJw6mhvY6C/22okxgKJMeA02QyHg7S1\nXcgL2t4m7NhSmyGzyy1b5uG8QDIcDqIKB46XPxot29Ge248U8vssTYqxQGLM+fk0T56cWmyyyTUS\nDvL4iUnmU5UPmW2EaCxOV0cb14b8F20fHnI63isJjpFjcbo72rgm1L+4bdDvs852Y4HEmIMnEqQz\netE37ayRcJD5dIYnxicbULLKRWMJrt/sp6vj4v/iwTVdXL6ht6IO9+honJ1bAnS2X7hmKOCz4b/G\nAokx0SLNQLnbmql5K5XOcOB4omANC5xaSbTMiZYL6QwHjycu+Tca9PuYTKZaZu0WUxkLJGbV2xeL\nsyXYw0B/9yX7Ngd8DPR3N1UgOXxymvML6cUZ7flGwkHGJ5Nl1SSeHJ9iLpW5JJBssiHABgskxhCN\nxQs2a4E7ZHYoWNNFoeotf0Z7vkpqWdlj80eBhdxJiWOJ6tPTm+ZlgcSsaqen5xg9d55hd/Z3ISPh\nAE9NzJA4X/6Q2UaIHIsTXNPJZUXSxV+3yU9nu5QdSNb1djG0tuei7YMBm91uLJCYVS5b0xgJry16\nTHbfgdHmSOAYHXUmDTqLiF7K19nO9k3+smpZ0Vic4aHAJdfM1kjGE82dbt9UxwKJWdWisThtAju2\n+Ises3NxyOy55SpWxWbmUhw+OVVw4ECu4XCQA8ed0WpLmUoucGRiumCw7e3uoL+7w2okq5wFErOq\n7YvF3RnsxRcLDfR0csVAb1OklD9wPEFGnea4UoaHgkzPpXhqYnrpa44mUKVo89+gDQFe9SyQmFVL\nVYnG4kVHN+UacXNUrfRMwItDmYt0tGeNbPXe4V5oRnuuTQEfY1YjWdUskJhV65kzs0wmU0t+6ILz\nIXp6eo4TK/ybdyQWJ7yuh/V9lw5lznX5+l76fR2e+kmisTjb1q8huKar4P5Bv88SN65yFkjMqpXt\n8xjxWCMBVvwwYGcoc/GBA1ltbbJYy1pKfhbhfCG/j4npOU/9LaY1WSAxq1Y0lmBNVztXbexf8thr\nQ3662ttWdCA5NZnkRCK5mE9rKcNDQZ4YnyK5UHxW+ngiycnJuaLNWuD0kaQzyulpG7m1WlkgMavW\nvlicHVsCtLcVHiabq6ujje2b/exbwYEkEivdl5FvOBwknVEeO1F8EEGxLMK5LgwBtuat1coCiVmV\n5lJpDp2YvGSmdikj4SAHRhOk0iszE3B0NL6Y+t6L7CisfceKB8dILE5nu7B9U/Hh0dk0KZZOfvWy\nQGJWpSfGpphPX5o7qpSRcJDzC2l+emrpIbONEInFuTbUj6+z3dPxG/t9bAn2EC0x0TIai3PdJn/J\na9ra7cYCiVmVvDTZ5BtewR3umYyyP3Zpdt6lDIcDRSdapjPK/tH4kqPa1vd20dkulrhxFbNAYlal\naCzOQH83m91mGS+2rV9DoKdzMSniSnL09AxTcynP/SNZI+EgsbPnOVOgo/ypiWlm5tNLXrOtTdjY\nb0OAVzMLJGZViiyRj6oQEWE4HCzZp9Ao5Xa0Z2VrG/sLNG+VU2sb9Nva7atZXQOJiNwiIk+KyBER\neX+B/ZeJyIMisl9EHhaRIXf7y0UkkvOTFJFb3X2fF5Gnc/aN1PMeTOtJzC5wdGLG04z2fCPhIIdP\nTjE7n6pDySoXjcXp6+7gyoG+ss7bORSgTSg4Gi0Si9Pv6+CKDb1LXicU8FkgWcXqFkhEpB34FPBq\nYDtwh4hszzvsE8DdqroLuBP4KICqPqSqI6o6AtwMzALfzTnvvdn9qhqp1z2Y1rT/uLc0IoWMhANk\nFA4eX1lL72aXwfUylDn
|
|||
|
"text/plain": [
|
|||
|
"<matplotlib.figure.Figure at 0x1c41279f438>"
|
|||
|
]
|
|||
|
},
|
|||
|
"metadata": {},
|
|||
|
"output_type": "display_data"
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# ছবি আঁকতে হবে না? %matplotlib inline মানে হচ্ছে ছবিটা জুপিটার নোটবুকের ভেতরেই দেখাবে \n",
|
|||
|
"import matplotlib.pyplot as plt\n",
|
|||
|
"%matplotlib inline\n",
|
|||
|
"\n",
|
|||
|
"# plot the value of K for KNN (x-axis) versus the cross-validated accuracy (y-axis)\n",
|
|||
|
"# কে এর মান ফেললাম এক্স এক্সিসে, অ্যাক্যুরেসি ওয়াই এক্সিসে \n",
|
|||
|
"plt.plot(k_range, k_scores)\n",
|
|||
|
"plt.xlabel('Value of K for KNN')\n",
|
|||
|
"plt.ylabel('Cross-Validated Accuracy')"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"### \"কে ফোল্ড\" ক্রস ভ্যালিডেশন: মডেল বাছাই "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"আগের ছবিটা দেখুন। খালি চোখে \"কে\" এর মান ০.৯৮ দেখছি এক্স এক্সিসে ১৩, ১৮ এবং ২০এ। দেখি মডেলে ব্যবহার করে। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"**Goal:** Compare the best KNN model with logistic regression on the iris dataset\n",
|
|||
|
"দুটো মডেল তুলনা করি এখানে। \"কে নিয়ারেস্ট নেইবার\" আর লজিস্টিক রিগ্রেশন, কোনটা ভালো? সঙ্গে n_neighbors=20 এবং cv=10।"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 9,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"0.98\n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# \"কে নিয়ারেস্ট নেইবার\" সঙ্গে ১০ \"কে ফোল্ড\" ক্রস ভ্যালিডেশন\n",
|
|||
|
"knn = KNeighborsClassifier(n_neighbors=20)\n",
|
|||
|
"print(cross_val_score(knn, X, y, cv=10, scoring='accuracy').mean())"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "code",
|
|||
|
"execution_count": 10,
|
|||
|
"metadata": {},
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"name": "stdout",
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"0.953333333333\n"
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"source": [
|
|||
|
"# লজিস্টিক রিগ্রেশন সঙ্গে একই ১০ \"কে ফোল্ড\" ক্রস ভ্যালিডেশন\n",
|
|||
|
"from sklearn.linear_model import LogisticRegression\n",
|
|||
|
"logreg = LogisticRegression()\n",
|
|||
|
"print(cross_val_score(logreg, X, y, cv=10, scoring='accuracy').mean())"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {},
|
|||
|
"source": [
|
|||
|
"দুটোর মধ্যে অ্যাক্যুরেসির বেশ ফারাক। এর মানে মডেল সিলেকশন একটা জরুরি বিষয় বটে। "
|
|||
|
]
|
|||
|
}
|
|||
|
],
|
|||
|
"metadata": {
|
|||
|
"kernelspec": {
|
|||
|
"display_name": "Python 3",
|
|||
|
"language": "python",
|
|||
|
"name": "python3"
|
|||
|
},
|
|||
|
"language_info": {
|
|||
|
"codemirror_mode": {
|
|||
|
"name": "ipython",
|
|||
|
"version": 3
|
|||
|
},
|
|||
|
"file_extension": ".py",
|
|||
|
"mimetype": "text/x-python",
|
|||
|
"name": "python",
|
|||
|
"nbconvert_exporter": "python",
|
|||
|
"pygments_lexer": "ipython3",
|
|||
|
"version": "3.6.3"
|
|||
|
}
|
|||
|
},
|
|||
|
"nbformat": 4,
|
|||
|
"nbformat_minor": 1
|
|||
|
}
|