data-science-ipython-notebooks/kaggle/Iris_Species/linear_clf.ipynb

488 lines
51 KiB
Python
Raw Normal View History

2021-11-05 04:15:02 +08:00
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"name": "linear-clf.ipynb",
"version": "0.3.2",
"provenance": [],
"collapsed_sections": [],
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"accelerator": "GPU"
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
"<a href=\"https://colab.research.google.com/github/raqueeb/ml-python/blob/master/linear_clf.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
]
},
{
"metadata": {
"id": "ri6UiGU5T5aj",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"**সাইকিট-লার্ন দিয়ে একটা সহজ লিনিয়ার ক্লাসিফিকেশন **\n",
"\n",
"চারটার জায়গায় দুটো ফিচার, তিনটার জায়গায় দুটো টার্গেট ভ্যারিয়েবল"
]
},
{
"metadata": {
"colab_type": "text",
"id": "3sKNXPKNBqwO"
},
"cell_type": "markdown",
"source": [
"চারটার জায়গায় দুটো। প্রস্তাব - এটাকে দুটো দিয়ে দেখান না কেন? বুঝলাম - জিনিসটাকে আরো পানির মতো করতে হবে। আমাকে অনেকে বলেন, আইরিস ডেটাসেটে চারটা অ্যাট্রিবিউট। ফলে ডেটা ভিজ্যুয়ালাইজেশনে একটার ভেতরে আরেকটা চলে যায়। খালি চোখে ডেটার মধ্যে ফারাক বের করা তো দুস্কর। প্রস্তাবটা ভালো। এটা একটা বড় সমস্যাকে আরো রিফাইন করে আনবে আমাদের ভালোভাবে বুঝতে। \n",
"\n",
" সত্যি বলতে সেই আইডিয়াটা নিয়ে লিখেছেন বেশ কয়েকজন লেখক। তবে, এখানে আইডিয়াটা এলো আমার একটা প্রিয় বই থেকে, ২০১৩তে লেখা। লার্নিং সাইকিট-লার্ন:: মেশিন লার্নিং ইন পাইথন, রাউল গ্যারেটার। \"কী করবো সামনে?\" চ্যাপ্টারে দ্রষ্টব্য। \n",
"\n",
"আচ্ছা, তিনটা প্রজাতি না বের করে, একটা প্রজাতি বের করা যায় না? আরো, ভালো! তাহলে তো একটা প্রজাতি ভার্সেস ওই প্রজাতি নয়। মানে, প্রেডিক্ট করতে হবে - ধরুন, ফুলটা \"সেটোসা\" অথবা \"সেটোসা নয়\"! তাহলে তো জিনিসটা একদম পানি হয়ে যাবে। "
]
},
{
"metadata": {
"id": "gfRxmu0QT5a5",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"## লোড করে নেই আইরিস ডেটাসেট "
]
},
{
"metadata": {
"id": "c32_FG83T5a7",
"colab_type": "code",
"colab": {}
},
"cell_type": "code",
"source": [
"import sklearn\n",
"from sklearn import datasets\n",
"\n",
"iris = datasets.load_iris()\n",
"X_temp = iris.data\n",
"y_temp = iris.target"
],
"execution_count": 0,
"outputs": []
},
{
"metadata": {
"id": "TrVDNHPBT5bL",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"### ভাগ করে ফেলি টেস্ট এবং ট্রেনিং ডেটাসেট (ফিচার স্কেলিং সহ)"
]
},
{
"metadata": {
"id": "zTvelXXOT5bM",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"এখানে আমাদের কাজ হচ্ছে ডেটাসেটকে দুভাগে ভাগ করে ফেলা। ৭৫% ব্যবহার হবে আমাদের ক্লাসিফায়ারকে ট্রেনিং করাতে। ২৫% যাবে ইভ্যালুয়েট করতে। ৪টা ফিচারের জায়গায় আমরা ব্যবহার করবো ২টা মাত্র। সিপাল দৈর্ঘ্য এবং প্রস্থ। শুধুমাত্র সিপাল অংশ। \n",
"\n",
"এর পাশাপাশি আমরা ফিচার স্কেলিং করবো আমাদের ফিচারগুলোর ডেটা রেঞ্জ স্ট্যান্ডার্ডাইজ করার জন্য। প্রতিটা ফিচারের জন্য এটা সব ভ্যালুকে গড় করে সেটাকে বিয়োগ দেয় ওই ফিচার ভ্যালু থেকে। এরপর তার উত্তরকে ভাগ দেয় সেটার স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে। আমাদের এই স্কেলিং এর পর প্রতিটা ফিচারের গড় হবে শূন্য। পাশাপাশি স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে ১। \n",
"\n",
"এর ফলে ভ্যালুগুলোর স্ট্যান্ডার্ডাইজেশন হয়ে আসে। এটা খানিকটা স্ট্যান্ডার্ড প্র্যাক্টিস হয়ে গেছে ইন্ডিপেন্ডেন্ট ফিচার/ভ্যারিয়েবলগুলোর রেঞ্জকে একটা স্কেলের মধ্যে নিয়ে আসা। এটাকে আমরা ডেটা নর্মালাইজেশন বলতে পারি। এটা আমরা করি ডেটা প্রি-প্রসেসিং এর সময়। \n",
"\n",
"ডেটার রেঞ্জ নিয়ে আমাদের যেহেতু কোন ফিল্টার নেই, সেকারণে একটা ডেটাসেটে বিক্ষিপ্ত ডেটা মেশিন লার্নিংকে বিপদে ফেলতে পারে। বড় বড় ভ্যালুগুলো ফাইনাল আউটকামে সমস্যা করে। আর সেকারণে মেশিন লার্নিং অ্যালগরিদমকে ভালোভাবে কাজ করানোর জন্য এই স্কেলিং দরকার পড়ে অনেক সময়। তবে, \"\"গ্রাডিয়েন্ট ডিসেন্ট\"\" কনভার্জেন্স ভালো কাজ করে স্কেলিং দিয়ে। মজার কথা হচ্ছে এক্স ভ্যালুগুলোকে প্লট করলে আগে এবং পরে একই জিনিস পাওয়া যায়। "
]
},
{
"metadata": {
"id": "RknPx8MPT5bN",
"colab_type": "code",
"colab": {}
},
"cell_type": "code",
"source": [
"from sklearn.model_selection import train_test_split\n",
"from sklearn import preprocessing\n",
"\n",
"# শুধুমাত্র প্রথম দুটো অ্যাট্রিবিউট নিয়ে আমাদের ডেটাসেট \n",
"X, y = X_temp[:, [0,1]], y_temp\n",
"# আমাদের টেস্টসেট হবে ২৫%, দৈবচয়নের ভিত্তিতে \n",
"X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)\n",
" \n",
"# ফিচারগুলোকে স্ট্যান্ডার্ডাইজ করছি এখানে \n",
"scaler = preprocessing.StandardScaler().fit(X_train)\n",
"X_train = scaler.transform(X_train)\n",
"X_test = scaler.transform(X_test)"
],
"execution_count": 0,
"outputs": []
},
{
"metadata": {
"id": "IRRoCZxmT5bQ",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"চলুন, দেখি ফিচার স্কেলিং এর পর কি অবস্থা? এখানে গড় হচ্ছে \"\", স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে \"\"। ট্রেনিংসেটে ঠিকমতো হবে সবকিছু, তবে টেস্টসেটে ব্যাপারটা কাছাকাছি হবে। "
]
},
{
"metadata": {
"id": "Xon7VkoGT5bR",
"colab_type": "code",
"outputId": "5ead9da0-71c7-4f2e-95c5-6862ebec473d",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 50
}
},
"cell_type": "code",
"source": [
"import numpy as np\n",
"print ('Training set mean:{:.2f} and standard deviation:{:.2f}'.format(np.average(X_train),np.std(X_train)))\n",
"print ('Testing set mean:{:.2f} and standard deviation:{:.2f}'.format(np.average(X_test),np.std(X_test)))\n"
],
"execution_count": 3,
"outputs": [
{
"output_type": "stream",
"text": [
"Training set mean:0.00 and standard deviation:1.00\n",
"Testing set mean:0.13 and standard deviation:0.71\n"
],
"name": "stdout"
}
]
},
{
"metadata": {
"id": "jFf9lDTeT5bV",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"ফিচার স্কেলিং এর পর ট্রেনিং ডেটাকে প্লটিং করি। একই জিনিস। "
]
},
{
"metadata": {
"id": "DPCGNVefT5bW",
"colab_type": "code",
"outputId": "e853a9f3-480a-4dea-86fe-630cf69b9618",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 377
}
},
"cell_type": "code",
"source": [
"# প্লটিং লাইব্রেরি লোড করে নেই \n",
"import matplotlib.pyplot as plt\n",
"\n",
"# তিন প্রজাতির তিনটা আলাদা রং, মার্কার সহ \n",
"colour_mk = [ ['red','s'], ['green','o'], ['blue','x']]\n",
"plt.figure('Training Data')\n",
"\n",
"# লুপে ফেলে দিলাম, x এবং y এক্সিসে \n",
"for i in range(len(colour_mk)):\n",
" xs = X_train[:, 0][y_train == i]\n",
" ys = X_train[:, 1][y_train == i]\n",
" plt.scatter(xs, ys, c=colour_mk[i][0], marker=colour_mk[i][1])\n",
"\n",
"# সাদা ব্যাকগ্রাউন্ড দরকার আমার, গুগল কোলাবে বাড়তি শেড দরকার নেই \n",
"# plt.rcParams['axes.facecolor'] = 'white'\n",
"plt.style.use('default')\n",
"plt.grid(c='grey')\n",
"\n",
"# প্লটিং প্যারামিটার \n",
"plt.title('Training instances, after scaling')\n",
"plt.legend(iris.target_names)\n",
"plt.xlabel('Sepal length')\n",
"plt.ylabel('Sepal width')\n",
"plt.show()\n"
],
"execution_count": 4,
"outputs": [
{
"output_type": "display_data",
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAfAAAAFoCAYAAAComanIAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDMuMC4zLCBo\ndHRwOi8vbWF0cGxvdGxpYi5vcmcvnQurowAAIABJREFUeJzt3XtcFOX+B/DPsgsCgqJgiMpRUbzh\nDfCSppiGGoqXIM2jaWanJDuaoWlaiZVWWkd/ZSl5jOyi55iImSid0i52xDRJQ7zlDQUR4qICct1l\nfn/sYXGFhV3Y2Znd/bxfL1+688w++51nFr7OzDPfUQiCIICIiIisioPUARAREZHpmMCJiIisEBM4\nERGRFWICJyIiskJM4ERERFaICZyIiMgKMYGT3dFoNAgMDERWVpZZ1zXVhx9+iBUrVpi9X1ty8eJF\nTJw4EYGBgdi2bZvU4RglOTkZo0aN0r0eO3Ysjh8/LmFEZKsUvA+c5C4wMFD379LSUjg5OUGpVAIA\nXnvtNUycOFGq0CR39epVjBkzBufPn5c6FFEsXboUrVu3xtKlSwEAixcvRseOHTF//nyJIzMsOTkZ\nr7zyCr7//nupQyEbp5I6AKKGnDhxQvfvUaNGYdWqVRg6dKjB9dVqNVQqfrVtQVZWFgYPHmy2/vjd\nIFvCU+hk9davX4+FCxciOjoagYGB+Prrr3HixAlMnToVAwYMwLBhw7Bq1SpUVlYC0P4S7969OzIz\nMwFoj+pWrVqFv/3tbwgMDMRjjz2GjIwMk9cFgJ9++gljx45FcHAw3njjDUybNg0JCQkG437ppZcA\naI+ku3fvjq+++gohISG4//77sXnzZt26J0+exCOPPIKgoCAMHToUa9asAQDMmDEDgPYsRWBgIFJT\nU5Geno6ZM2di0KBBGDx4MF588UUUFRXp+goJCcEnn3yCCRMmIDg4GNHR0aioqNC1f/vtt5g0aRKC\ngoIwevRo/Pe//wUAFBYWYtmyZRg2bBhCQkLw3nvvoaqqCgBw5coVzJgxA8HBwRg8eDAWLVpk1L6r\nL9YZM2bg+PHjiImJ0Z1CT0pKwkcffYTAwEA899xzAIDs7Gw899xzuP/++zFq1Ci9U+11fTfu9cMP\nPyAsLAyBgYEICQnB1q1bGxyLnTt36t4TGhqKnTt3GtzGkJAQHD16VBdPdHQ0Fi9ejMDAQISHh+P0\n6dO6dU+dOoVJkyYhMDAQL7zwAhYsWIANGzYYNZZkhwQiKzJy5Ejh8OHDesvWrVsnBAQECAcPHhQ0\nGo1QWloq/P7778LJkyeFyspK4dq1a8KYMWOEzz//XBAEQaisrBS6desmZGRkCIIgCIsWLRIGDRok\npKamChUVFcLzzz8vLFq0yOR18/LyhP79+wvfffedUFFRIcTFxQm9evUSdu3aVee2rFu3Tli6dKkg\nCIKQnp4udOvWTXj11VeFsrIyIS0tTQgICBCuXLkiCIIgRERECHv37hUEQRCKioqEkydP6r3vbpcv\nXxaSk5OF8vJyIS8vT3jssceEt99+W9c+fPhwYcqUKcKff/4pFBQUCGPGjBG+/PJLQRAEISUlRQgO\nDhaSk5MFjUYjZGVlCZcuXRIEQRDmzp0rxMTECCUlJUJubq7wyCOP6N43f/584aOPPhI0Go1QVlYm\nHD9+3Kj92VCs06ZN0xu/RYsWCe+//77utUajESZOnChs2rRJKC8vF9LT04WRI0cKycnJujG+97tx\nr8GDBwspKSmCIAjCzZs3hbS0tAbH4uDBg8K1a9eEqqoqITk5WejTp49w9uxZQRAE4fDhw8LIkSP1\nxvuXX37RxdOnTx/h0KFDglqtFt5++21h2rRpgiAIQnl5uTB8+HDh888/FyoqKoT9+/cLvXr10tte\norvxCJxsQlBQEEaNGgUHBwc4Ozujb9++6NevH1QqFXx9fTF16lQcO3bM4PvHjh2LPn36wNHRERMm\nTMC5c+dMXveHH35Az549ERoaCkdHR8yePRutWrUyaTvmz5+PZs2aISAgAP7+/rq+HR0dkZ6ejps3\nb8LNzQ39+vUz2Efnzp0xZMgQODk5wdPTE7Nnz6617U888QTatGmDVq1a4cEHH8TZs2cBAPHx8Zgy\nZQqGDBkCBwcH+Pj4wM/PDzk5OUhOTsby5cvh4uICLy8vzJo1C/v379fFd/36deTm5qJZs2YIDg42\nanuNibU+J06cQHFxMaKiouDk5ISOHTsiMjIS+/bt061z73fjXiqVCpcuXUJxcTE8PDwQEBBQ71gA\n2ks5vr6+UCgUGDJkCIYMGYKUlBSjYh44cCCGDx8OpVKJSZMm6fZxSkoKHBwc8Pjjj8PR0RFhYWG6\nWIjqwotBZBN8fHz0Xl+6dAlr1qzB6dOnUVpaCo1Gg759+xp8f5s2bXT/dnFxQUlJicnr/vnnn3px\nKBQKeHt7m7Qdd/ft7Oys6/vNN9/Ehg0b8PDDD8PX1xfz58/HiBEj6uwjNzcXq1atwm+//YY7d+5A\nEIRa/5Hw8vLS+5zbt28D0J6O7tOnT60+r1+/joqKCr25B1VVVWjfvj0A7WSz9957D5GRkWjVqhXm\nzJmDRx55pMHtNSbW+mRlZeHGjRsYMGCAbplGo9G7bn7vd+NeH374ITZt2oS1a9eiR48eWLx4Mfr1\n62dwLADtf9Y2btyIq1evoqqqCmVlZQbXvVd935+2bdvqrXvva6K7MYGTTVAoFHqvY2Ji0K9fP6xf\nvx7NmzfHxx9/jB9//FHUGNq0aYPDhw/rXguCgJycHLP07efnh/Xr16OqqgrffPMN5s+fj19//bXW\ndgPAu+++CycnJ+zduxceHh745ptvsHbtWqM+p23btrh27Vqt5T4+PnBxccGxY8fg4FD7xN19992H\n1atXAwB+/fVXPPnkkxgwYAB8fX3r/TxTY713e318fNCxY0ckJSUZ/Z579evXD7GxsaisrMRnn32G\nF154Ad9//73BsSgrK8OCBQuwfv16jBgxAo6Ojpg7dy6EJt7Qc99999X6vmRnZ8Pf379J/ZLt4il0\nskl37tyBu7s7XF1dcenSJezYsUP0zxw5ciTOnDmD77//Hmq1Gp9++ilu3rxplr6/+uorFBQUwMHB\nAW5ublAoFFAoFGjdujUUCoXeRLo7d+7AxcUF7u7uuHHjBuLi4oz+nEcffRTx8fH45ZdfUFVVhezs\nbFy+fBk+Pj4YOHAg1qxZg+LiYlRVVeHq1av49ddfAQD79+/XJR93d3coFArdrX5//etfsXHjxjo/\nz9RYvby89La1f//+cHR0RFxcHMrLy6HRaHD+/HmkpaUZtb1lZWXYu3cviouL4ejoiObNm+v+g2Jo\nLCoqKlBZWYlWrVpBqVTihx9+wJEjR4z6vPoEBwdDrVZj+/btUKvV+M9//qM3wY3oXkzgZJOWLl2K\n3bt3IygoCCtWrEBYWJjon+nl5YX169fj7bffxuDBg5GRkYGePXvCycmpyX0fOnQI48aNQ2BgINau\nXYv169fDyckJbm5umDt3LqZMmYIBAwbg1KlTmD9/Pk6dOoUBAwbg2WefxZgxY4z+nKCgILzxxhtY\nvXo1goODMWvWLGRnZwMA3nnnHZSWlmLcuHEYOHAgnn/+eeTm5gIAUlNTERkZif79+2P+/PlYsWIF\n2rVrB0B7FBkUFFTn55ka66OPPopz585h4MCBWLBgAVQqFf75z38iNTUVo0aNwv3334+YmBgUFxcb\nvc1fffUVRo4ciaCgIMTHx+Odd96pdyxatGiBZcuW4e9//zsGDRqE//znP3jwwQeN/jxDnJyc8OGH\nH+Lf//43Bg4ciKSkJISEhJjl+0O2iYVciESi0WgwfPhwvP/++3rXaO1JZmYmlixZgu3bt0sdilWK\niIjArFmzMHnyZKlDIRniETiRGR06dAiFhYWoqKjAxo0boVKp6p08Z+s6dOjA5G2Co0ePIi8vD2q1\nGjt37sTly5cxf
"text/plain": [
"<Figure size 576x396 with 1 Axes>"
]
},
"metadata": {
"tags": []
}
}
]
},
{
"metadata": {
"id": "-fYy0VkkT5bb",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"### একটা লিনিয়ার বাইনারি ক্লাসিফিকেশন "
]
},
{
"metadata": {
"id": "pfEKD6K5T5bc",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"মানুষের মাথা প্যাটার্ন বুঝতে ওস্তাদ। এই প্লট থেকে কী বুঝতে পারছেন? ঠিক ধরেছেন। খালি চোখে সেটোসা প্রজাতিকে বোঝা যাচ্ছে একদম আলাদা করে। কেমন হয়, কমপ্লেক্সিটি এড়াতে আমরা যদি বের করতে চাই শুধুমাত্র সেটোসা প্রজাতি বের করতে চাই। মানে, প্রেডিক্ট করতে হবে হয় \"সেটোসা\" অথবা \"সেটোসা না\"? এখন আমাদের দুটো টার্গেট ভ্যারিয়েবল। সেকারণে এটাকে আমরা কনভার্ট করছি বাইনারি ক্লাসিফিকেশন টাস্কে। আমাদের দুটো টার্গেট। হয় \"\" অথবা \"\", তাহলে কী করতে হবে? \"\" নম্বর এবং \"\" নম্বর ক্লাসকে আমরা \"\" বানিয়ে ফেলেছি। \n",
"\n"
]
},
{
"metadata": {
"id": "yLoZKBnCT5bd",
"colab_type": "code",
"outputId": "b98e1fa2-654a-48ee-9b42-fba39dd88b49",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 101
}
},
"cell_type": "code",
"source": [
"import copy \n",
"y_train_setosa = copy.copy(y_train) \n",
"# আমাদের ট্রেনিংসেটের ১ এবং ২ ক্লাসকে ১ বানিয়ে ফেলছি \n",
"y_train_setosa[y_train_setosa > 0]=1\n",
"y_test_setosa = copy.copy(y_test)\n",
"y_test_setosa[y_test_setosa > 0]=1\n",
"# এখন দেখি ট্রেনিং টার্গেট ক্লাসগুলো কী কী?\n",
"print ('New training target classes:\\n{0}'.format(y_train_setosa))\n"
],
"execution_count": 5,
"outputs": [
{
"output_type": "stream",
"text": [
"New training target classes:\n",
"[1 0 1 1 1 0 0 1 0 1 0 0 1 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 1 1 1 0 0 1 1 0\n",
" 1 1 1 1 0 1 0 1 0 1 1 0 1 1 0 0 1 0 0 0 1 1 0 1 0 1 0 1 1 1 1 1 0 1 0 1 1\n",
" 0 0 0 0 1 1 0 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 1 1\n",
" 0]\n"
],
"name": "stdout"
}
]
},
{
"metadata": {
"id": "mj_02w5mT5bi",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"ছবিটা দেখে কী মনে হচ্ছে? একটা প্রজাতি একেবারে আলাদা। এটা আমাদের জন্য ভালো। \n",
"\n",
"আমরা যদি ভালোমতো করে ছবিটা দেখি - তাহলে \"সেটোসা\" প্রজাতিতে আমরা একেবারে আলাদা হাইপারপ্লেন এ দেখতে পাচ্ছি। অর্থাৎ একটা লাইন টেনে দুটো প্রজাতিকে আলাদা করতে পারছি। ব্যাপারটা কমন মেশিন লার্নিং কনসেপ্টে। আমাদের প্রশ্ন হচ্ছে নতুন মাপজোক দিলে সেটা থেকে বের করতে হবে নতুন জিনিসটা কোন প্রজাতির? এখন বাকি প্রজাতিগুলো যেহেতু একটা আরেকটার ভেতরে ঢুকে গেছে, সেকারনে ওই দুটোকে একটা প্রজাতি হিসেবে দেখাচ্ছি। \n",
"\n",
"যেহেতু, আমরা \"সেটোসা\"কে একেবারে একটা লাইন টেনে আলাদা করতে পারছি, সেকারণে এই জিনিসটাকে একটা লিনিয়ার ক্লাসিফিকেশন মডেলে পাঠাতে পারি। মানে, একটা সোজা লাইন টেনে দুটো টার্গেট ক্লাসকে আলাদা করবো এখানে। এটাকে আমরা বলতে পারি ফিচার স্পেসে একটা হাইপারপ্লেন। দুটো ফিচার স্পেসের মধ্যে লাইনটা ডিসিশন বাউন্ডারি। কে কোন প্রজাতির, সেটা নির্ভর করবে কে ওই লাইনটার কোন দিকে আছে। \n",
"\n",
"মনে আছে, আমাদের ওই এরর কমানোর কথা? লিস্ট স্কয়ার রিগ্রেশন, লস ফাংশন? যেটা আসলে বের করে আমাদের প্রতিটা ইনস্ট্যান্স থেকে ডিসিশন বাউন্ডারি কতো দুরে। এখানে আমাদের এই অ্যালগরিদম হাইপারপ্লেনের \"কোএফিসিয়েন্ট\" জানবে লসকে কমিয়ে। এখানে আমরা ইন্টারসেপ্টও জানবো সামনে। \n",
"\n",
"এ কারণে আমরা সাইকিট লার্ন থেকে `SGDClassifier` ব্যবহার করবো এই লিনিয়ার মডেল তৈরি করতে। আমাদের সাইকিট লার্নে \"SGDClassifier\" মডেল হিসেবে থাকলেও এটা আসলে ক্লাসিফায়ার নয়। বরং এটা একটা লিনিয়ার তবে এটাকে অপ্টিমাইজড করা হয়েছে স্টোকাস্টিক গ্র্যাডিয়েন্ট ডিসেন্ট দিয়ে। \n"
]
},
{
"metadata": {
"id": "5KCIy6waT5bm",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"এই কাজ আমরা আগেও করেছি। \"linear_model\" কে ইম্পোর্ট করে নিয়ে আসছি sklearn থেকে। একটা ক্লাসিফায়ারের ইনস্ট্যান্স তৈরি করে হাইপারপ্যারামিটারকে বলছি \"লগ\" লস ফাংশন ব্যবহার করতে। এখানে ক্লাসিফায়ার হচ্ছে \"linear_model.SGDClassifier\"। এমুহুর্তে ব্যবহার করবো সব ডিফল্ট ভ্যালু। বেশি ঝামেলায় যাবো না। \n",
"\n"
]
},
{
"metadata": {
"id": "0jrNibUVT5bo",
"colab_type": "code",
"colab": {}
},
"cell_type": "code",
"source": [
"from sklearn import linear_model \n",
"clf = linear_model.SGDClassifier(loss='log', random_state=42)"
],
"execution_count": 0,
"outputs": []
},
{
"metadata": {
"id": "djVcNsMYT5bv",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"এখন কি বাকি? ট্রেনিং করানো। ফিট মেথড কল করছি আমাদের ক্লাসিফায়ারকে ট্রেনিং করানোর জন্য। এখানে আমাদের ট্রেনিং ডেটা হচ্ছে \"সেটোসা\" সেট। \n"
]
},
{
"metadata": {
"id": "h9Tf4RvNT5bx",
"colab_type": "code",
"outputId": "e606bfcd-43e5-4896-f67d-4f315dbfa28d",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 171
}
},
"cell_type": "code",
"source": [
"clf.fit(X_train, y_train_setosa)\n",
"\n",
" "
],
"execution_count": 7,
"outputs": [
{
"output_type": "stream",
"text": [
"/usr/local/lib/python3.6/dist-packages/sklearn/linear_model/stochastic_gradient.py:166: FutureWarning: max_iter and tol parameters have been added in SGDClassifier in 0.19. If both are left unset, they default to max_iter=5 and tol=None. If tol is not None, max_iter defaults to max_iter=1000. From 0.21, default max_iter will be 1000, and default tol will be 1e-3.\n",
" FutureWarning)\n"
],
"name": "stderr"
},
{
"output_type": "execute_result",
"data": {
"text/plain": [
"SGDClassifier(alpha=0.0001, average=False, class_weight=None,\n",
" early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,\n",
" l1_ratio=0.15, learning_rate='optimal', loss='log', max_iter=None,\n",
" n_iter=None, n_iter_no_change=5, n_jobs=None, penalty='l2',\n",
" power_t=0.5, random_state=42, shuffle=True, tol=None,\n",
" validation_fraction=0.1, verbose=0, warm_start=False)"
]
},
"metadata": {
"tags": []
},
"execution_count": 7
}
]
},
{
"metadata": {
"id": "dVVYycW3T5b0",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"লিনিয়ার মডেল। মনে আছে \"y = mx + b\" এর কথা? নাহ, অংক পিছু ছাড়ছেই না, আমাদেরকে m এবং b পেতে হবে। মানে, clf.coef_ এবং clf.intercept_ ছাড়া আমাদের গতি নেই। \n",
"\n",
"\n",
"এখন এই সমীকরণকে y = mx + b ধারণায় লিখলে কেমন দেখা যাবে?"
]
},
{
"metadata": {
"id": "94ScDMvbT5b1",
"colab_type": "code",
"outputId": "ce1d81f0-8162-46fd-9ebd-1e47330ac0b1",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 34
}
},
"cell_type": "code",
"source": [
"print (clf.coef_,clf.intercept_)\n"
],
"execution_count": 8,
"outputs": [
{
"output_type": "stream",
"text": [
"[[ 31.0790909 -17.78632765]] [17.31337552]\n"
],
"name": "stdout"
}
]
},
{
"metadata": {
"id": "bg1L0kSLT5b5",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"এখন তো ডিসিশন বাউন্ডারি আঁকাই যায়, কি বলুন? কোড দিলাম না ইচ্ছে করে। মেইন লিংকে পাওয়া যাবে। \n",
"\n",
"![](https://drive.google.com/uc?export=view&id=1qa2eGu6sPNS7YqMSuB_07TBQnfu2s8B5)"
]
},
{
"metadata": {
"id": "ViC_b6UrT5b-",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"ঠিক ধরেছেন। এই নীল/কালো রেখাটাই হচ্ছে আমাদের ডিসিশন বাউন্ডারি। প্রতিবার ৩০. x \"সিপাল দৈর্ঘ্য\" - ১৭.৭৮ x \"সিপাল প্রস্থ্য\" - ১৭.৩১ এর আউটপুট যখন শূন্য থেকে বড় হবে তখন সেটা হবে আইরিস সেটোসা, মানে ক্লাস ০। \n",
"\n",
"চলুন, একটা প্রেডিক্ট করি। ফুলটা কি সেটোসা কি না? যদি একটা ফুলের পেটাল প্রস্থ্য .৬ এবং পেটাল দৈর্ঘ্য ৩.২ হয়, তাহলে প্রজাতিটা কি সেটোসা হবে কি হবে না? "
]
},
{
"metadata": {
"id": "J3_a65KZ8Si6",
"colab_type": "code",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 34
},
"outputId": "6aa64133-9d0d-4812-99a0-8bef6f1bd9e3"
},
"cell_type": "code",
"source": [
"print ('If the flower has 4.6 petal width and 3.2 petal length is a {}'.format(\n",
" iris.target_names[clf.predict(scaler.transform([[4.6, 3.2]]))]))"
],
"execution_count": 9,
"outputs": [
{
"output_type": "stream",
"text": [
"If the flower has 4.6 petal width and 3.2 petal length is a ['setosa']\n"
],
"name": "stdout"
}
]
},
{
"metadata": {
"id": "gVKeWGJq9gZ4",
"colab_type": "text"
},
"cell_type": "markdown",
"source": [
"উত্তর: সেটোসা!"
]
}
]
}