Added DataFrames section and cleared outputs

2024-03-22 13:30:56 +08:00 · 2016-02-20 19:49:32 +01:00 · 2016-02-20 19:49:32 +01:00 · b15edb7585
commit b15edb7585
parent d4450573c3
2 changed files with 7 additions and 38 deletions
--- a/.DS_Store
+++ b/.DS_Store
--- a/spark/spark.ipynb
+++ b/spark/spark.ipynb
@ -64,19 +64,11 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": null,
   "metadata": {
    "collapsed": false
   },
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "/bin/sh: pyspark: command not found\r\n"
-     ]
-    }
-   ],
+   "outputs": [],
   "source": [
    "!pyspark"
   ]
@ -90,22 +82,11 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": null,
   "metadata": {
    "collapsed": false
   },
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "<pyspark.context.SparkContext at 0x103923610>"
-      ]
-     },
-     "execution_count": 2,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
   "source": [
    "sc"
   ]
@ -132,7 +113,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": null,
   "metadata": {
    "collapsed": false
   },
@ -555,23 +536,11 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": null,
   "metadata": {
    "collapsed": false
   },
-   "outputs": [
-    {
-     "ename": "NameError",
-     "evalue": "name 'df' is not defined",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
-      "\u001b[0;32m<ipython-input-5-af17cfa6d2c8>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mdf\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mgroupBy\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"column_name\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mcount\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
-      "\u001b[0;31mNameError\u001b[0m: name 'df' is not defined"
-     ]
-    }
-   ],
+   "outputs": [],
   "source": [
    "df.groupBy(\"column_name\").count()"
   ]