Corrected instructions for installing local PySpark on Windows 10

pybokeh · pybokeh · commit 526add26cdf6 · 2022-01-02T22:06:43.000-05:00
diff --git a/sql/PySpark/PySpark_Local_Example.ipynb b/sql/PySpark/PySpark_Local_Example.ipynb
@@ -13,15 +13,15 @@
    "id": "050423fd-758c-462e-94cf-3c36e97e026b",
    "metadata": {},
    "source": [
-    "1. Install Java 1.8 from Software Center\n",
+    "1. Install Java 1.8 from Sun Java [site](https://www.java.com/download/ie_manual.jsp).  Include path to java.exe in your PATH environment variable.\n",
     "2. Install Python\n",
     "3. Create pyspark_dev virtual environment\n",
     "4. Activate \"pyspark_dev\" environment, then: pip install pyspark[sql] ipykernel\n",
     "5. Install kernel: python -m ipykernel install --user --name pyspark_dev --display-name \"Python (pyspark_dev)\"\n",
     "6. Set environment variables: PYSPARK_PYTHON=[path_to_python.exe] and SPARK_HOME=[path_to_site_packages/pyspark_folder]\n",
     "7. Download winutils.exe from https://github.com/cdarlint/winutils, save locally to \"hadoop/bin\" folder and then\n",
     "8. set HADOOP_HOME=[path_to_hadoop_folder]\n",
-    "9. Activate jupyterlab environment and then launch: jupyter lab\n",
+    "9. Activate python virutal environment that has jupyterlab installed and then launch: jupyter lab\n",
     "\n",
     "See this article https://phoenixnap.com/kb/install-spark-on-windows-10"
    ]
@@ -31,23 +31,10 @@
    "execution_count": 1,
    "id": "664504f6-bbac-466e-982d-42c62fb82a37",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "22/01/02 20:21:59 WARN Utils: Your hostname, asus-laptop resolves to a loopback address: 127.0.1.1; using 172.30.59.173 instead (on interface eth0)\n",
-      "22/01/02 20:21:59 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address\n",
-      "Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties\n",
-      "Setting default log level to \"WARN\".\n",
-      "To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).\n",
-      "22/01/02 20:22:00 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "from pyspark.sql import SparkSession\n",
-    "spark = SparkSession.builder.master(\"local[*]\").getOrCreate()\n",
+    "spark = SparkSession.builder.master(\"local[*]\").appName(\"local_pyspark\").getOrCreate()\n",
     "spark.conf.set(\"spark.sql.repl.eagerEval.enabled\", True)"
    ]
   },
@@ -92,7 +79,7 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Py3.8 (pyspark_dev)",
+   "display_name": "Py3.9 (pyspark_dev)",
    "language": "python",
    "name": "pyspark_dev"
   },
@@ -106,7 +93,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.8.10"
+   "version": "3.9.7"
   }
  },
  "nbformat": 4,