mirror of
https://github.com/donnemartin/data-science-ipython-notebooks.git
synced 2024-03-22 13:30:56 +08:00
Added IPython Notebook for cleaning data with Pandas. Added snippets for replacing strings.
This commit is contained in:
parent
23e62231d2
commit
89ce172c77
256
pandas/pandas_clean.ipynb
Normal file
256
pandas/pandas_clean.ipynb
Normal file
|
@ -0,0 +1,256 @@
|
|||
{
|
||||
"metadata": {
|
||||
"name": "",
|
||||
"signature": "sha256:3d55aefd3368aca223546c0d26816eb99aed51fe2f81f1f2f68d7bdbcc73651d"
|
||||
},
|
||||
"nbformat": 3,
|
||||
"nbformat_minor": 0,
|
||||
"worksheets": [
|
||||
{
|
||||
"cells": [
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"# Pandas Cleaning\n",
|
||||
"* Clean\n",
|
||||
"* Transform\n",
|
||||
"* Merge\n",
|
||||
"* Reshape"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"collapsed": false,
|
||||
"input": [
|
||||
"from pandas import Series, DataFrame\n",
|
||||
"import pandas as pd"
|
||||
],
|
||||
"language": "python",
|
||||
"metadata": {},
|
||||
"outputs": [],
|
||||
"prompt_number": 1
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"collapsed": false,
|
||||
"input": [
|
||||
"data_1 = {'state' : ['VA', 'VA', 'VA', 'MD', 'MD'],\n",
|
||||
" 'year' : [2012, 2013, 2014, 2014, 2015],\n",
|
||||
" 'pop' : [5.0, 5.1, 5.2, 4.0, 4.1]}\n",
|
||||
"df_1 = DataFrame(data_1)\n",
|
||||
"df_1"
|
||||
],
|
||||
"language": "python",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
{
|
||||
"html": [
|
||||
"<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
|
||||
"<table border=\"1\" class=\"dataframe\">\n",
|
||||
" <thead>\n",
|
||||
" <tr style=\"text-align: right;\">\n",
|
||||
" <th></th>\n",
|
||||
" <th>pop</th>\n",
|
||||
" <th>state</th>\n",
|
||||
" <th>year</th>\n",
|
||||
" </tr>\n",
|
||||
" </thead>\n",
|
||||
" <tbody>\n",
|
||||
" <tr>\n",
|
||||
" <th>0</th>\n",
|
||||
" <td> 5.0</td>\n",
|
||||
" <td> VA</td>\n",
|
||||
" <td> 2012</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>1</th>\n",
|
||||
" <td> 5.1</td>\n",
|
||||
" <td> VA</td>\n",
|
||||
" <td> 2013</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>2</th>\n",
|
||||
" <td> 5.2</td>\n",
|
||||
" <td> VA</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>3</th>\n",
|
||||
" <td> 4.0</td>\n",
|
||||
" <td> MD</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>4</th>\n",
|
||||
" <td> 4.1</td>\n",
|
||||
" <td> MD</td>\n",
|
||||
" <td> 2015</td>\n",
|
||||
" </tr>\n",
|
||||
" </tbody>\n",
|
||||
"</table>\n",
|
||||
"</div>"
|
||||
],
|
||||
"metadata": {},
|
||||
"output_type": "pyout",
|
||||
"prompt_number": 2,
|
||||
"text": [
|
||||
" pop state year\n",
|
||||
"0 5.0 VA 2012\n",
|
||||
"1 5.1 VA 2013\n",
|
||||
"2 5.2 VA 2014\n",
|
||||
"3 4.0 MD 2014\n",
|
||||
"4 4.1 MD 2015"
|
||||
]
|
||||
}
|
||||
],
|
||||
"prompt_number": 2
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"collapsed": false,
|
||||
"input": [
|
||||
"df_1.replace('VA', 'VIRGINIA', inplace=True)\n",
|
||||
"df_1"
|
||||
],
|
||||
"language": "python",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
{
|
||||
"html": [
|
||||
"<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
|
||||
"<table border=\"1\" class=\"dataframe\">\n",
|
||||
" <thead>\n",
|
||||
" <tr style=\"text-align: right;\">\n",
|
||||
" <th></th>\n",
|
||||
" <th>pop</th>\n",
|
||||
" <th>state</th>\n",
|
||||
" <th>year</th>\n",
|
||||
" </tr>\n",
|
||||
" </thead>\n",
|
||||
" <tbody>\n",
|
||||
" <tr>\n",
|
||||
" <th>0</th>\n",
|
||||
" <td> 5.0</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2012</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>1</th>\n",
|
||||
" <td> 5.1</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2013</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>2</th>\n",
|
||||
" <td> 5.2</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>3</th>\n",
|
||||
" <td> 4.0</td>\n",
|
||||
" <td> MD</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>4</th>\n",
|
||||
" <td> 4.1</td>\n",
|
||||
" <td> MD</td>\n",
|
||||
" <td> 2015</td>\n",
|
||||
" </tr>\n",
|
||||
" </tbody>\n",
|
||||
"</table>\n",
|
||||
"</div>"
|
||||
],
|
||||
"metadata": {},
|
||||
"output_type": "pyout",
|
||||
"prompt_number": 3,
|
||||
"text": [
|
||||
" pop state year\n",
|
||||
"0 5.0 VIRGINIA 2012\n",
|
||||
"1 5.1 VIRGINIA 2013\n",
|
||||
"2 5.2 VIRGINIA 2014\n",
|
||||
"3 4.0 MD 2014\n",
|
||||
"4 4.1 MD 2015"
|
||||
]
|
||||
}
|
||||
],
|
||||
"prompt_number": 3
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"collapsed": false,
|
||||
"input": [
|
||||
"df_1.replace({'state' : { 'MD' : 'MARYLAND' }})"
|
||||
],
|
||||
"language": "python",
|
||||
"metadata": {},
|
||||
"outputs": [
|
||||
{
|
||||
"html": [
|
||||
"<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
|
||||
"<table border=\"1\" class=\"dataframe\">\n",
|
||||
" <thead>\n",
|
||||
" <tr style=\"text-align: right;\">\n",
|
||||
" <th></th>\n",
|
||||
" <th>pop</th>\n",
|
||||
" <th>state</th>\n",
|
||||
" <th>year</th>\n",
|
||||
" </tr>\n",
|
||||
" </thead>\n",
|
||||
" <tbody>\n",
|
||||
" <tr>\n",
|
||||
" <th>0</th>\n",
|
||||
" <td> 5.0</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2012</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>1</th>\n",
|
||||
" <td> 5.1</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2013</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>2</th>\n",
|
||||
" <td> 5.2</td>\n",
|
||||
" <td> VIRGINIA</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>3</th>\n",
|
||||
" <td> 4.0</td>\n",
|
||||
" <td> MARYLAND</td>\n",
|
||||
" <td> 2014</td>\n",
|
||||
" </tr>\n",
|
||||
" <tr>\n",
|
||||
" <th>4</th>\n",
|
||||
" <td> 4.1</td>\n",
|
||||
" <td> MARYLAND</td>\n",
|
||||
" <td> 2015</td>\n",
|
||||
" </tr>\n",
|
||||
" </tbody>\n",
|
||||
"</table>\n",
|
||||
"</div>"
|
||||
],
|
||||
"metadata": {},
|
||||
"output_type": "pyout",
|
||||
"prompt_number": 6,
|
||||
"text": [
|
||||
" pop state year\n",
|
||||
"0 5.0 VIRGINIA 2012\n",
|
||||
"1 5.1 VIRGINIA 2013\n",
|
||||
"2 5.2 VIRGINIA 2014\n",
|
||||
"3 4.0 MARYLAND 2014\n",
|
||||
"4 4.1 MARYLAND 2015"
|
||||
]
|
||||
}
|
||||
],
|
||||
"prompt_number": 6
|
||||
}
|
||||
],
|
||||
"metadata": {}
|
||||
}
|
||||
]
|
||||
}
|
Loading…
Reference in New Issue
Block a user