mirror of
https://github.com/donnemartin/data-science-ipython-notebooks.git
synced 2024-03-22 13:30:56 +08:00
488 lines
51 KiB
Python
488 lines
51 KiB
Python
|
{
|
|||
|
"nbformat": 4,
|
|||
|
"nbformat_minor": 0,
|
|||
|
"metadata": {
|
|||
|
"colab": {
|
|||
|
"name": "linear-clf.ipynb",
|
|||
|
"version": "0.3.2",
|
|||
|
"provenance": [],
|
|||
|
"collapsed_sections": [],
|
|||
|
"include_colab_link": true
|
|||
|
},
|
|||
|
"kernelspec": {
|
|||
|
"name": "python3",
|
|||
|
"display_name": "Python 3"
|
|||
|
},
|
|||
|
"accelerator": "GPU"
|
|||
|
},
|
|||
|
"cells": [
|
|||
|
{
|
|||
|
"cell_type": "markdown",
|
|||
|
"metadata": {
|
|||
|
"id": "view-in-github",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"source": [
|
|||
|
"<a href=\"https://colab.research.google.com/github/raqueeb/ml-python/blob/master/linear_clf.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "ri6UiGU5T5aj",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"**সাইকিট-লার্ন দিয়ে একটা সহজ লিনিয়ার ক্লাসিফিকেশন **\n",
|
|||
|
"\n",
|
|||
|
"চারটার জায়গায় দুটো ফিচার, তিনটার জায়গায় দুটো টার্গেট ভ্যারিয়েবল"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"colab_type": "text",
|
|||
|
"id": "3sKNXPKNBqwO"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"চারটার জায়গায় দুটো। প্রস্তাব - এটাকে দুটো দিয়ে দেখান না কেন? বুঝলাম - জিনিসটাকে আরো পানির মতো করতে হবে। আমাকে অনেকে বলেন, আইরিস ডেটাসেটে চারটা অ্যাট্রিবিউট। ফলে ডেটা ভিজ্যুয়ালাইজেশনে একটার ভেতরে আরেকটা চলে যায়। খালি চোখে ডেটার মধ্যে ফারাক বের করা তো দুস্কর। প্রস্তাবটা ভালো। এটা একটা বড় সমস্যাকে আরো রিফাইন করে আনবে আমাদের ভালোভাবে বুঝতে। \n",
|
|||
|
"\n",
|
|||
|
" সত্যি বলতে সেই আইডিয়াটা নিয়ে লিখেছেন বেশ কয়েকজন লেখক। তবে, এখানে আইডিয়াটা এলো আমার একটা প্রিয় বই থেকে, ২০১৩তে লেখা। লার্নিং সাইকিট-লার্ন:: মেশিন লার্নিং ইন পাইথন, রাউল গ্যারেটার। \"কী করবো সামনে?\" চ্যাপ্টারে দ্রষ্টব্য। \n",
|
|||
|
"\n",
|
|||
|
"আচ্ছা, তিনটা প্রজাতি না বের করে, একটা প্রজাতি বের করা যায় না? আরো, ভালো! তাহলে তো একটা প্রজাতি ভার্সেস ওই প্রজাতি নয়। মানে, প্রেডিক্ট করতে হবে - ধরুন, ফুলটা \"সেটোসা\" অথবা \"সেটোসা নয়\"! তাহলে তো জিনিসটা একদম পানি হয়ে যাবে। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "gfRxmu0QT5a5",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"## লোড করে নেই আইরিস ডেটাসেট "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "c32_FG83T5a7",
|
|||
|
"colab_type": "code",
|
|||
|
"colab": {}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"import sklearn\n",
|
|||
|
"from sklearn import datasets\n",
|
|||
|
"\n",
|
|||
|
"iris = datasets.load_iris()\n",
|
|||
|
"X_temp = iris.data\n",
|
|||
|
"y_temp = iris.target"
|
|||
|
],
|
|||
|
"execution_count": 0,
|
|||
|
"outputs": []
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "TrVDNHPBT5bL",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"### ভাগ করে ফেলি টেস্ট এবং ট্রেনিং ডেটাসেট (ফিচার স্কেলিং সহ)"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "zTvelXXOT5bM",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"এখানে আমাদের কাজ হচ্ছে ডেটাসেটকে দুভাগে ভাগ করে ফেলা। ৭৫% ব্যবহার হবে আমাদের ক্লাসিফায়ারকে ট্রেনিং করাতে। ২৫% যাবে ইভ্যালুয়েট করতে। ৪টা ফিচারের জায়গায় আমরা ব্যবহার করবো ২টা মাত্র। সিপাল দৈর্ঘ্য এবং প্রস্থ। শুধুমাত্র সিপাল অংশ। \n",
|
|||
|
"\n",
|
|||
|
"এর পাশাপাশি আমরা ফিচার স্কেলিং করবো আমাদের ফিচারগুলোর ডেটা রেঞ্জ স্ট্যান্ডার্ডাইজ করার জন্য। প্রতিটা ফিচারের জন্য এটা সব ভ্যালুকে গড় করে সেটাকে বিয়োগ দেয় ওই ফিচার ভ্যালু থেকে। এরপর তার উত্তরকে ভাগ দেয় সেটার স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে। আমাদের এই স্কেলিং এর পর প্রতিটা ফিচারের গড় হবে শূন্য। পাশাপাশি স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে ১। \n",
|
|||
|
"\n",
|
|||
|
"এর ফলে ভ্যালুগুলোর স্ট্যান্ডার্ডাইজেশন হয়ে আসে। এটা খানিকটা স্ট্যান্ডার্ড প্র্যাক্টিস হয়ে গেছে ইন্ডিপেন্ডেন্ট ফিচার/ভ্যারিয়েবলগুলোর রেঞ্জকে একটা স্কেলের মধ্যে নিয়ে আসা। এটাকে আমরা ডেটা নর্মালাইজেশন বলতে পারি। এটা আমরা করি ডেটা প্রি-প্রসেসিং এর সময়। \n",
|
|||
|
"\n",
|
|||
|
"ডেটার রেঞ্জ নিয়ে আমাদের যেহেতু কোন ফিল্টার নেই, সেকারণে একটা ডেটাসেটে বিক্ষিপ্ত ডেটা মেশিন লার্নিংকে বিপদে ফেলতে পারে। বড় বড় ভ্যালুগুলো ফাইনাল আউটকামে সমস্যা করে। আর সেকারণে মেশিন লার্নিং অ্যালগরিদমকে ভালোভাবে কাজ করানোর জন্য এই স্কেলিং দরকার পড়ে অনেক সময়। তবে, \"\"গ্রাডিয়েন্ট ডিসেন্ট\"\" কনভার্জেন্স ভালো কাজ করে স্কেলিং দিয়ে। মজার কথা হচ্ছে এক্স ভ্যালুগুলোকে প্লট করলে আগে এবং পরে একই জিনিস পাওয়া যায়। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "RknPx8MPT5bN",
|
|||
|
"colab_type": "code",
|
|||
|
"colab": {}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"from sklearn.model_selection import train_test_split\n",
|
|||
|
"from sklearn import preprocessing\n",
|
|||
|
"\n",
|
|||
|
"# শুধুমাত্র প্রথম দুটো অ্যাট্রিবিউট নিয়ে আমাদের ডেটাসেট \n",
|
|||
|
"X, y = X_temp[:, [0,1]], y_temp\n",
|
|||
|
"# আমাদের টেস্টসেট হবে ২৫%, দৈবচয়নের ভিত্তিতে \n",
|
|||
|
"X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)\n",
|
|||
|
" \n",
|
|||
|
"# ফিচারগুলোকে স্ট্যান্ডার্ডাইজ করছি এখানে \n",
|
|||
|
"scaler = preprocessing.StandardScaler().fit(X_train)\n",
|
|||
|
"X_train = scaler.transform(X_train)\n",
|
|||
|
"X_test = scaler.transform(X_test)"
|
|||
|
],
|
|||
|
"execution_count": 0,
|
|||
|
"outputs": []
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "IRRoCZxmT5bQ",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"চলুন, দেখি ফিচার স্কেলিং এর পর কি অবস্থা? এখানে গড় হচ্ছে \"০\", স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে \"১\"। ট্রেনিংসেটে ঠিকমতো হবে সবকিছু, তবে টেস্টসেটে ব্যাপারটা কাছাকাছি হবে। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "Xon7VkoGT5bR",
|
|||
|
"colab_type": "code",
|
|||
|
"outputId": "5ead9da0-71c7-4f2e-95c5-6862ebec473d",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 50
|
|||
|
}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"import numpy as np\n",
|
|||
|
"print ('Training set mean:{:.2f} and standard deviation:{:.2f}'.format(np.average(X_train),np.std(X_train)))\n",
|
|||
|
"print ('Testing set mean:{:.2f} and standard deviation:{:.2f}'.format(np.average(X_test),np.std(X_test)))\n"
|
|||
|
],
|
|||
|
"execution_count": 3,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"Training set mean:0.00 and standard deviation:1.00\n",
|
|||
|
"Testing set mean:0.13 and standard deviation:0.71\n"
|
|||
|
],
|
|||
|
"name": "stdout"
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "jFf9lDTeT5bV",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"ফিচার স্কেলিং এর পর ট্রেনিং ডেটাকে প্লটিং করি। একই জিনিস। "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "DPCGNVefT5bW",
|
|||
|
"colab_type": "code",
|
|||
|
"outputId": "e853a9f3-480a-4dea-86fe-630cf69b9618",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 377
|
|||
|
}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"# প্লটিং লাইব্রেরি লোড করে নেই \n",
|
|||
|
"import matplotlib.pyplot as plt\n",
|
|||
|
"\n",
|
|||
|
"# তিন প্রজাতির তিনটা আলাদা রং, মার্কার সহ \n",
|
|||
|
"colour_mk = [ ['red','s'], ['green','o'], ['blue','x']]\n",
|
|||
|
"plt.figure('Training Data')\n",
|
|||
|
"\n",
|
|||
|
"# লুপে ফেলে দিলাম, x এবং y এক্সিসে \n",
|
|||
|
"for i in range(len(colour_mk)):\n",
|
|||
|
" xs = X_train[:, 0][y_train == i]\n",
|
|||
|
" ys = X_train[:, 1][y_train == i]\n",
|
|||
|
" plt.scatter(xs, ys, c=colour_mk[i][0], marker=colour_mk[i][1])\n",
|
|||
|
"\n",
|
|||
|
"# সাদা ব্যাকগ্রাউন্ড দরকার আমার, গুগল কোলাবে বাড়তি শেড দরকার নেই \n",
|
|||
|
"# plt.rcParams['axes.facecolor'] = 'white'\n",
|
|||
|
"plt.style.use('default')\n",
|
|||
|
"plt.grid(c='grey')\n",
|
|||
|
"\n",
|
|||
|
"# প্লটিং প্যারামিটার \n",
|
|||
|
"plt.title('Training instances, after scaling')\n",
|
|||
|
"plt.legend(iris.target_names)\n",
|
|||
|
"plt.xlabel('Sepal length')\n",
|
|||
|
"plt.ylabel('Sepal width')\n",
|
|||
|
"plt.show()\n"
|
|||
|
],
|
|||
|
"execution_count": 4,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "display_data",
|
|||
|
"data": {
|
|||
|
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAfAAAAFoCAYAAAComanIAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDMuMC4zLCBo\ndHRwOi8vbWF0cGxvdGxpYi5vcmcvnQurowAAIABJREFUeJzt3XtcFOX+B/DPsgsCgqJgiMpRUbzh\nDfCSppiGGoqXIM2jaWanJDuaoWlaiZVWWkd/ZSl5jOyi55iImSid0i52xDRJQ7zlDQUR4qICct1l\nfn/sYXGFhV3Y2Znd/bxfL1+688w++51nFr7OzDPfUQiCIICIiIisioPUARAREZHpmMCJiIisEBM4\nERGRFWICJyIiskJM4ERERFaICZyIiMgKMYGT3dFoNAgMDERWVpZZ1zXVhx9+iBUrVpi9X1ty8eJF\nTJw4EYGBgdi2bZvU4RglOTkZo0aN0r0eO3Ysjh8/LmFEZKsUvA+c5C4wMFD379LSUjg5OUGpVAIA\nXnvtNUycOFGq0CR39epVjBkzBufPn5c6FFEsXboUrVu3xtKlSwEAixcvRseOHTF//nyJIzMsOTkZ\nr7zyCr7//nupQyEbp5I6AKKGnDhxQvfvUaNGYdWqVRg6dKjB9dVqNVQqfrVtQVZWFgYPHmy2/vjd\nIFvCU+hk9davX4+FCxciOjoagYGB+Prrr3HixAlMnToVAwYMwLBhw7Bq1SpUVlYC0P4S7969OzIz\nMwFoj+pWrVqFv/3tbwgMDMRjjz2GjIwMk9cFgJ9++gljx45FcHAw3njjDUybNg0JCQkG437ppZcA\naI+ku3fvjq+++gohISG4//77sXnzZt26J0+exCOPPIKgoCAMHToUa9asAQDMmDEDgPYsRWBgIFJT\nU5Geno6ZM2di0KBBGDx4MF588UUUFRXp+goJCcEnn3yCCRMmIDg4GNHR0aioqNC1f/vtt5g0aRKC\ngoIwevRo/Pe//wUAFBYWYtmyZRg2bBhCQkLw3nvvoaqqCgBw5coVzJgxA8HBwRg8eDAWLVpk1L6r\nL9YZM2bg+PHjiImJ0Z1CT0pKwkcffYTAwEA899xzAIDs7Gw899xzuP/++zFq1Ci9U+11fTfu9cMP\nPyAsLAyBgYEICQnB1q1bGxyLnTt36t4TGhqKnTt3GtzGkJAQHD16VBdPdHQ0Fi9ejMDAQISHh+P0\n6dO6dU+dOoVJkyYhMDAQL7zwAhYsWIANGzYYNZZkhwQiKzJy5Ejh8OHDesvWrVsnBAQECAcPHhQ0\nGo1QWloq/P7778LJkyeFyspK4dq1a8KYMWOEzz//XBAEQaisrBS6desmZGRkCIIgCIsWLRIGDRok\npKamChUVFcLzzz8vLFq0yOR18/LyhP79+wvfffedUFFRIcTFxQm9evUSdu3aVee2rFu3Tli6dKkg\nCIKQnp4udOvWTXj11VeFsrIyIS0tTQgICBCuXLkiCIIgRERECHv37hUEQRCKioqEkydP6r3vbpcv\nXxaSk5OF8vJyIS8vT3jssceEt99+W9c+fPhwYcqUKcKff/4pFBQUCGPGjBG+/PJLQRAEISUlRQgO\nDhaSk5MFjUYjZGVlCZcuXRIEQRDmzp0rxMTECCUlJUJubq7wyCOP6N43f/584aOPPhI0Go1QVlYm\nHD9+3Kj92VCs06ZN0xu/RYsWCe+//77utUajESZOnChs2rRJKC8vF9LT04WRI0cKycnJujG+97tx\nr8GDBwspKSmCIAjCzZs3hbS0tAbH4uDBg8K1a9eEqqoqITk5WejTp49w9uxZQRAE4fDhw8LIkSP1\nxvuXX37RxdOnTx/h0KFDglqtFt5++21h2rRpgiAIQnl5uTB8+HDh888/FyoqKoT9+/cLvXr10tte\norvxCJxsQlBQEEaNGgUHBwc4Ozujb9++6NevH1QqFXx9fTF16lQcO3bM4PvHjh2LPn36wNHRERMm\nTMC5c+dMXveHH35Az549ERoaCkdHR8yePRutWrUyaTvmz5+PZs2aISAgAP7+/rq+HR0dkZ6ejps3\nb8LNzQ39+vUz2Efnzp0xZMgQODk5wdPTE7Nnz6617U888QTatGmDVq1a4cEHH8TZs2cBAPHx8Zgy\nZQqGDBkCBwcH+Pj4wM/PDzk5OUhOTsby5cvh4uICLy8vzJo1C/v379fFd/36deTm5qJZs2YIDg42\nanuNibU+J06cQHFxMaKiouDk5ISOHTsiMjIS+/bt061z73fjXiqVCpcuXUJxcTE8PDwQEBBQ71gA\n2ks5vr6+UCgUGDJkCIYMGYKUlBSjYh44cCCGDx8OpVKJSZMm6fZxSkoKHBwc8Pjjj8PR0RFhYWG6\nWIjqwotBZBN8fHz0Xl+6dAlr1qzB6dOnUVpaCo1Gg759+xp8f5s2bXT/dnFxQUlJicnr/vnnn3px\nKBQKeHt7m7Qdd/ft7Oys6/vNN9/Ehg0b8PDDD8PX1xfz58/HiBEj6uwjNzcXq1atwm+//YY7d+5A\nEIRa/5Hw8vLS+5zbt28D0J6O7tOnT60+r1+/joqKCr25B1VVVWjfvj0A7WSz9957D5GRkWjVqhXm\nzJmDRx55pMHtNSbW+mRlZeHGjRsYMGCAbplGo9G7bn7vd+NeH374ITZt2oS1a9eiR48eWLx4Mfr1\n62dwLADtf9Y2btyIq1evoqqqCmVlZQbXvVd935+2bdvqrXvva6K7MYGTTVAoFHqvY2Ji0K9fP6xf\nvx7NmzfHxx9/jB9//FHUGNq0aYPDhw/rXguCgJycHLP07efnh/Xr16OqqgrffPMN5s+fj19//bXW\ndgPAu+++CycnJ+zduxceHh745ptvsHbtWqM+p23btrh27Vqt5T4+PnBxccGxY8fg4FD7xN19992H\n1atXAwB+/fVXPPnkkxgwYAB8fX3r/TxTY713e318fNCxY0ckJSUZ/Z579evXD7GxsaisrMRnn32G\nF154Ad9//73BsSgrK8OCBQuwfv16jBgxAo6Ojpg7dy6EJt7Qc99999X6vmRnZ8Pf379J/ZLt4il0\nskl37tyBu7s7XF1dcenSJezYsUP0zxw5ciTOnDmD77//Hmq1Gp9++ilu3rxplr6/+uorFBQUwMHB\nAW5ublAoFFAoFGjdujUUCoXeRLo7d+7AxcUF7u7uuHHjBuLi4oz+nEcffRTx8fH45ZdfUFVVhezs\nbFy+fBk+Pj4YOHAg1qxZg+LiYlRVVeHq1av49ddfAQD79+/XJR93d3coFArdrX5//etfsXHjxjo/\nz9RYvby89La1f//+cHR0RFxcHMrLy6HRaHD+/HmkpaUZtb1lZWXYu3cviouL4ejoiObNm+v+g2Jo\nLCoqKlBZWYlWrVpBqVTihx9+wJEjR4z6vPoEBwdDrVZj+/btUKvV+M9//qM3wY3oXkzgZJOWLl2K\n3bt3IygoCCtWrEBYWJjon+nl5YX169fj7bffxuDBg5GRkYGePXvCycmpyX0fOnQI48aNQ2BgINau\nXYv169fDyckJbm5umDt3LqZMmYIBAwbg1KlTmD9/Pk6dOoUBAwbg2WefxZgxY4z+nKCgILzxxhtY\nvXo1goODMWvWLGRnZwMA3nnnHZSWlmLcuHEYOHAgnn/+eeTm5gIAUlNTERkZif79+2P+/PlYsWIF\n2rVrB0B7FBkUFFTn55ka66OPPopz585h4MCBWLBgAVQqFf75z38iNTUVo0aNwv3334+YmBgUFxcb\nvc1fffUVRo4ciaCgIMTHx+Odd96pdyxatGiBZcuW4e9//zsGDRqE//znP3jwwQeN/jxDnJyc8OGH\nH+Lf//43Bg4ciKSkJISEhJjl+0O2iYVciESi0WgwfPhwvP/++3rXaO1JZmYmlixZgu3bt0sdilWK\niIjArFmzMHnyZKlDIRniETiRGR06dAiFhYWoqKjAxo0boVKp6p08Z+s6dOjA5G2Co0ePIi8vD2q1\nGjt37sTly5cxf
|
|||
|
"text/plain": [
|
|||
|
"<Figure size 576x396 with 1 Axes>"
|
|||
|
]
|
|||
|
},
|
|||
|
"metadata": {
|
|||
|
"tags": []
|
|||
|
}
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "-fYy0VkkT5bb",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"### একটা লিনিয়ার বাইনারি ক্লাসিফিকেশন "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "pfEKD6K5T5bc",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"মানুষের মাথা প্যাটার্ন বুঝতে ওস্তাদ। এই প্লট থেকে কী বুঝতে পারছেন? ঠিক ধরেছেন। খালি চোখে সেটোসা প্রজাতিকে বোঝা যাচ্ছে একদম আলাদা করে। কেমন হয়, কমপ্লেক্সিটি এড়াতে আমরা যদি বের করতে চাই শুধুমাত্র সেটোসা প্রজাতি বের করতে চাই। মানে, প্রেডিক্ট করতে হবে হয় \"সেটোসা\" অথবা \"সেটোসা না\"? এখন আমাদের দুটো টার্গেট ভ্যারিয়েবল। সেকারণে এটাকে আমরা কনভার্ট করছি বাইনারি ক্লাসিফিকেশন টাস্কে। আমাদের দুটো টার্গেট। হয় \"০\" অথবা \"১\", তাহলে কী করতে হবে? \"১\" নম্বর এবং \"২\" নম্বর ক্লাসকে আমরা \"১\" বানিয়ে ফেলেছি। \n",
|
|||
|
"\n"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "yLoZKBnCT5bd",
|
|||
|
"colab_type": "code",
|
|||
|
"outputId": "b98e1fa2-654a-48ee-9b42-fba39dd88b49",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 101
|
|||
|
}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"import copy \n",
|
|||
|
"y_train_setosa = copy.copy(y_train) \n",
|
|||
|
"# আমাদের ট্রেনিংসেটের ১ এবং ২ ক্লাসকে ১ বানিয়ে ফেলছি \n",
|
|||
|
"y_train_setosa[y_train_setosa > 0]=1\n",
|
|||
|
"y_test_setosa = copy.copy(y_test)\n",
|
|||
|
"y_test_setosa[y_test_setosa > 0]=1\n",
|
|||
|
"# এখন দেখি ট্রেনিং টার্গেট ক্লাসগুলো কী কী?\n",
|
|||
|
"print ('New training target classes:\\n{0}'.format(y_train_setosa))\n"
|
|||
|
],
|
|||
|
"execution_count": 5,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"New training target classes:\n",
|
|||
|
"[1 0 1 1 1 0 0 1 0 1 0 0 1 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 1 1 1 0 0 1 1 0\n",
|
|||
|
" 1 1 1 1 0 1 0 1 0 1 1 0 1 1 0 0 1 0 0 0 1 1 0 1 0 1 0 1 1 1 1 1 0 1 0 1 1\n",
|
|||
|
" 0 0 0 0 1 1 0 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1 0 1 0 0 0 1 1 1 1 1 1 1\n",
|
|||
|
" 0]\n"
|
|||
|
],
|
|||
|
"name": "stdout"
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "mj_02w5mT5bi",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"ছবিটা দেখে কী মনে হচ্ছে? একটা প্রজাতি একেবারে আলাদা। এটা আমাদের জন্য ভালো। \n",
|
|||
|
"\n",
|
|||
|
"আমরা যদি ভালোমতো করে ছবিটা দেখি - তাহলে \"সেটোসা\" প্রজাতিতে আমরা একেবারে আলাদা হাইপারপ্লেন এ দেখতে পাচ্ছি। অর্থাৎ একটা লাইন টেনে দুটো প্রজাতিকে আলাদা করতে পারছি। ব্যাপারটা কমন মেশিন লার্নিং কনসেপ্টে। আমাদের প্রশ্ন হচ্ছে নতুন মাপজোক দিলে সেটা থেকে বের করতে হবে নতুন জিনিসটা কোন প্রজাতির? এখন বাকি প্রজাতিগুলো যেহেতু একটা আরেকটার ভেতরে ঢুকে গেছে, সেকারনে ওই দুটোকে একটা প্রজাতি হিসেবে দেখাচ্ছি। \n",
|
|||
|
"\n",
|
|||
|
"যেহেতু, আমরা \"সেটোসা\"কে একেবারে একটা লাইন টেনে আলাদা করতে পারছি, সেকারণে এই জিনিসটাকে একটা লিনিয়ার ক্লাসিফিকেশন মডেলে পাঠাতে পারি। মানে, একটা সোজা লাইন টেনে দুটো টার্গেট ক্লাসকে আলাদা করবো এখানে। এটাকে আমরা বলতে পারি ফিচার স্পেসে একটা হাইপারপ্লেন। দুটো ফিচার স্পেসের মধ্যে লাইনটা ডিসিশন বাউন্ডারি। কে কোন প্রজাতির, সেটা নির্ভর করবে কে ওই লাইনটার কোন দিকে আছে। \n",
|
|||
|
"\n",
|
|||
|
"মনে আছে, আমাদের ওই এরর কমানোর কথা? লিস্ট স্কয়ার রিগ্রেশন, লস ফাংশন? যেটা আসলে বের করে আমাদের প্রতিটা ইনস্ট্যান্স থেকে ডিসিশন বাউন্ডারি কতো দুরে। এখানে আমাদের এই অ্যালগরিদম হাইপারপ্লেনের \"কোএফিসিয়েন্ট\" জানবে লসকে কমিয়ে। এখানে আমরা ইন্টারসেপ্টও জানবো সামনে। \n",
|
|||
|
"\n",
|
|||
|
"এ কারণে আমরা সাইকিট লার্ন থেকে `SGDClassifier` ব্যবহার করবো এই লিনিয়ার মডেল তৈরি করতে। আমাদের সাইকিট লার্নে \"SGDClassifier\" মডেল হিসেবে থাকলেও এটা আসলে ক্লাসিফায়ার নয়। বরং এটা একটা লিনিয়ার তবে এটাকে অপ্টিমাইজড করা হয়েছে স্টোকাস্টিক গ্র্যাডিয়েন্ট ডিসেন্ট দিয়ে। \n"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "5KCIy6waT5bm",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"এই কাজ আমরা আগেও করেছি। \"linear_model\" কে ইম্পোর্ট করে নিয়ে আসছি sklearn থেকে। একটা ক্লাসিফায়ারের ইনস্ট্যান্স তৈরি করে হাইপারপ্যারামিটারকে বলছি \"লগ\" লস ফাংশন ব্যবহার করতে। এখানে ক্লাসিফায়ার হচ্ছে \"linear_model.SGDClassifier\"। এমুহুর্তে ব্যবহার করবো সব ডিফল্ট ভ্যালু। বেশি ঝামেলায় যাবো না। \n",
|
|||
|
"\n"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "0jrNibUVT5bo",
|
|||
|
"colab_type": "code",
|
|||
|
"colab": {}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"from sklearn import linear_model \n",
|
|||
|
"clf = linear_model.SGDClassifier(loss='log', random_state=42)"
|
|||
|
],
|
|||
|
"execution_count": 0,
|
|||
|
"outputs": []
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "djVcNsMYT5bv",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"এখন কি বাকি? ট্রেনিং করানো। ফিট মেথড কল করছি আমাদের ক্লাসিফায়ারকে ট্রেনিং করানোর জন্য। এখানে আমাদের ট্রেনিং ডেটা হচ্ছে \"সেটোসা\" সেট। \n"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "h9Tf4RvNT5bx",
|
|||
|
"colab_type": "code",
|
|||
|
"outputId": "e606bfcd-43e5-4896-f67d-4f315dbfa28d",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 171
|
|||
|
}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"clf.fit(X_train, y_train_setosa)\n",
|
|||
|
"\n",
|
|||
|
" "
|
|||
|
],
|
|||
|
"execution_count": 7,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"/usr/local/lib/python3.6/dist-packages/sklearn/linear_model/stochastic_gradient.py:166: FutureWarning: max_iter and tol parameters have been added in SGDClassifier in 0.19. If both are left unset, they default to max_iter=5 and tol=None. If tol is not None, max_iter defaults to max_iter=1000. From 0.21, default max_iter will be 1000, and default tol will be 1e-3.\n",
|
|||
|
" FutureWarning)\n"
|
|||
|
],
|
|||
|
"name": "stderr"
|
|||
|
},
|
|||
|
{
|
|||
|
"output_type": "execute_result",
|
|||
|
"data": {
|
|||
|
"text/plain": [
|
|||
|
"SGDClassifier(alpha=0.0001, average=False, class_weight=None,\n",
|
|||
|
" early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,\n",
|
|||
|
" l1_ratio=0.15, learning_rate='optimal', loss='log', max_iter=None,\n",
|
|||
|
" n_iter=None, n_iter_no_change=5, n_jobs=None, penalty='l2',\n",
|
|||
|
" power_t=0.5, random_state=42, shuffle=True, tol=None,\n",
|
|||
|
" validation_fraction=0.1, verbose=0, warm_start=False)"
|
|||
|
]
|
|||
|
},
|
|||
|
"metadata": {
|
|||
|
"tags": []
|
|||
|
},
|
|||
|
"execution_count": 7
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "dVVYycW3T5b0",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"লিনিয়ার মডেল। মনে আছে \"y = mx + b\" এর কথা? নাহ, অংক পিছু ছাড়ছেই না, আমাদেরকে m এবং b পেতে হবে। মানে, clf.coef_ এবং clf.intercept_ ছাড়া আমাদের গতি নেই। \n",
|
|||
|
"\n",
|
|||
|
"\n",
|
|||
|
"এখন এই সমীকরণকে y = mx + b ধারণায় লিখলে কেমন দেখা যাবে?"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "94ScDMvbT5b1",
|
|||
|
"colab_type": "code",
|
|||
|
"outputId": "ce1d81f0-8162-46fd-9ebd-1e47330ac0b1",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 34
|
|||
|
}
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"print (clf.coef_,clf.intercept_)\n"
|
|||
|
],
|
|||
|
"execution_count": 8,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"[[ 31.0790909 -17.78632765]] [17.31337552]\n"
|
|||
|
],
|
|||
|
"name": "stdout"
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "bg1L0kSLT5b5",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"এখন তো ডিসিশন বাউন্ডারি আঁকাই যায়, কি বলুন? কোড দিলাম না ইচ্ছে করে। মেইন লিংকে পাওয়া যাবে। \n",
|
|||
|
"\n",
|
|||
|
"![](https://drive.google.com/uc?export=view&id=1qa2eGu6sPNS7YqMSuB_07TBQnfu2s8B5)"
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "ViC_b6UrT5b-",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"ঠিক ধরেছেন। এই নীল/কালো রেখাটাই হচ্ছে আমাদের ডিসিশন বাউন্ডারি। প্রতিবার ৩০.০৭ x \"সিপাল দৈর্ঘ্য\" - ১৭.৭৮ x \"সিপাল প্রস্থ্য\" - ১৭.৩১ এর আউটপুট যখন শূন্য থেকে বড় হবে তখন সেটা হবে আইরিস সেটোসা, মানে ক্লাস ০। \n",
|
|||
|
"\n",
|
|||
|
"চলুন, একটা প্রেডিক্ট করি। ফুলটা কি সেটোসা কি না? যদি একটা ফুলের পেটাল প্রস্থ্য ৪.৬ এবং পেটাল দৈর্ঘ্য ৩.২ হয়, তাহলে প্রজাতিটা কি সেটোসা হবে কি হবে না? "
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "J3_a65KZ8Si6",
|
|||
|
"colab_type": "code",
|
|||
|
"colab": {
|
|||
|
"base_uri": "https://localhost:8080/",
|
|||
|
"height": 34
|
|||
|
},
|
|||
|
"outputId": "6aa64133-9d0d-4812-99a0-8bef6f1bd9e3"
|
|||
|
},
|
|||
|
"cell_type": "code",
|
|||
|
"source": [
|
|||
|
"print ('If the flower has 4.6 petal width and 3.2 petal length is a {}'.format(\n",
|
|||
|
" iris.target_names[clf.predict(scaler.transform([[4.6, 3.2]]))]))"
|
|||
|
],
|
|||
|
"execution_count": 9,
|
|||
|
"outputs": [
|
|||
|
{
|
|||
|
"output_type": "stream",
|
|||
|
"text": [
|
|||
|
"If the flower has 4.6 petal width and 3.2 petal length is a ['setosa']\n"
|
|||
|
],
|
|||
|
"name": "stdout"
|
|||
|
}
|
|||
|
]
|
|||
|
},
|
|||
|
{
|
|||
|
"metadata": {
|
|||
|
"id": "gVKeWGJq9gZ4",
|
|||
|
"colab_type": "text"
|
|||
|
},
|
|||
|
"cell_type": "markdown",
|
|||
|
"source": [
|
|||
|
"উত্তর: সেটোসা!"
|
|||
|
]
|
|||
|
}
|
|||
|
]
|
|||
|
}
|