fixed readme examples, fixed scala printlns not showing up the second time in jupyter cells, working on streams being allowed to be interrupted in jupyter

Jolanrensen · Jolanrensen · commit a841611b3a9f · 2022-05-16T22:34:26.000+02:00
diff --git a/README.md b/README.md
@@ -271,7 +271,7 @@ For more information, check the [wiki](https://github.com/JetBrains/kotlin-spark
 
 ## Examples
 
-For more, check out [examples](https://github.com/JetBrains/kotlin-spark-api/tree/master/examples/src/main/kotlin/org/jetbrains/kotlinx/spark/examples) module.
+For more, check out [examples](examples/src/main/kotlin/org/jetbrains/kotlinx/spark/examples) module.
 To get up and running quickly, check out this [tutorial](https://github.com/JetBrains/kotlin-spark-api/wiki/Quick-Start-Guide). 
 
 ## Reporting issues/Support
diff --git a/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/Integration.kt b/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/Integration.kt
@@ -22,6 +22,7 @@ package org.jetbrains.kotlinx.spark.api.jupyter
 import org.apache.spark.api.java.JavaRDDLike
 import org.apache.spark.rdd.RDD
 import org.apache.spark.sql.Dataset
+import org.jetbrains.kotlinx.jupyter.api.FieldValue
 import org.jetbrains.kotlinx.jupyter.api.HTML
 import org.jetbrains.kotlinx.jupyter.api.KotlinKernelHost
 import org.jetbrains.kotlinx.jupyter.api.libraries.JupyterIntegration
@@ -33,50 +34,65 @@ abstract class Integration : JupyterIntegration() {
     private val scalaVersion = "2.12.15"
     private val spark3Version = "3.2.1"
 
+    /**
+     * Will be run after importing all dependencies
+     */
     abstract fun KotlinKernelHost.onLoaded()
 
-    override fun Builder.onLoaded() {
+    abstract fun KotlinKernelHost.afterCellExecution(snippetInstance: Any, result: FieldValue)
+
+    open val dependencies: Array<String> = arrayOf(
+        "org.apache.spark:spark-repl_$scalaCompatVersion:$spark3Version",
+        "org.jetbrains.kotlin:kotlin-stdlib-jdk8:$kotlinVersion",
+        "org.jetbrains.kotlin:kotlin-reflect:$kotlinVersion",
+        "org.apache.spark:spark-sql_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-streaming_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-mllib_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-sql_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-graphx_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-launcher_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-catalyst_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-streaming_$scalaCompatVersion:$spark3Version",
+        "org.apache.spark:spark-core_$scalaCompatVersion:$spark3Version",
+        "org.scala-lang:scala-library:$scalaVersion",
+        "org.scala-lang.modules:scala-xml_$scalaCompatVersion:2.0.1",
+        "org.scala-lang:scala-reflect:$scalaVersion",
+        "org.scala-lang:scala-compiler:$scalaVersion",
+        "commons-io:commons-io:2.11.0",
+    )
 
-        dependencies(
-            "org.apache.spark:spark-repl_$scalaCompatVersion:$spark3Version",
-            "org.jetbrains.kotlin:kotlin-stdlib-jdk8:$kotlinVersion",
-            "org.jetbrains.kotlin:kotlin-reflect:$kotlinVersion",
-            "org.apache.spark:spark-sql_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-streaming_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-mllib_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-sql_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-graphx_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-launcher_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-catalyst_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-streaming_$scalaCompatVersion:$spark3Version",
-            "org.apache.spark:spark-core_$scalaCompatVersion:$spark3Version",
-            "org.scala-lang:scala-library:$scalaVersion",
-            "org.scala-lang.modules:scala-xml_$scalaCompatVersion:2.0.1",
-            "org.scala-lang:scala-reflect:$scalaVersion",
-            "org.scala-lang:scala-compiler:$scalaVersion",
-            "commons-io:commons-io:2.11.0",
-        )
+    open val imports: Array<String> = arrayOf(
+        "org.jetbrains.kotlinx.spark.api.*",
+        "org.jetbrains.kotlinx.spark.api.tuples.*",
+        *(1..22).map { "scala.Tuple$it" }.toTypedArray(),
+        "org.apache.spark.sql.functions.*",
+        "org.apache.spark.*",
+        "org.apache.spark.sql.*",
+        "org.apache.spark.api.java.*",
+        "scala.collection.Seq",
+        "org.apache.spark.rdd.*",
+        "java.io.Serializable",
+        "org.apache.spark.streaming.api.java.*",
+        "org.apache.spark.streaming.api.*",
+        "org.apache.spark.streaming.*",
+    )
 
-        import(
-            "org.jetbrains.kotlinx.spark.api.*",
-            "org.jetbrains.kotlinx.spark.api.tuples.*",
-            *(1..22).map { "scala.Tuple$it" }.toTypedArray(),
-            "org.apache.spark.sql.functions.*",
-            "org.apache.spark.*",
-            "org.apache.spark.sql.*",
-            "org.apache.spark.api.java.*",
-            "scala.collection.Seq",
-            "org.apache.spark.rdd.*",
-            "java.io.Serializable",
-            "org.apache.spark.streaming.api.java.*",
-            "org.apache.spark.streaming.api.*",
-            "org.apache.spark.streaming.*",
-        )
+    override fun Builder.onLoaded() {
+        dependencies(*dependencies)
+        import(*imports)
 
         onLoaded {
             onLoaded()
         }
 
+        beforeCellExecution {
+            execute("""scala.Console.setOut(System.out)""")
+        }
+
+        afterCellExecution { snippetInstance, result ->
+            afterCellExecution(snippetInstance, result)
+        }
+
         // Render Dataset
         render<Dataset<*>> {
             HTML(it.toHtml())
diff --git a/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/SparkIntegration.kt b/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/SparkIntegration.kt
@@ -21,6 +21,7 @@ package org.jetbrains.kotlinx.spark.api.jupyter
 
 
 import org.intellij.lang.annotations.Language
+import org.jetbrains.kotlinx.jupyter.api.FieldValue
 import org.jetbrains.kotlinx.jupyter.api.KotlinKernelHost
 
 /**
@@ -68,4 +69,6 @@ internal class SparkIntegration : Integration() {
                 val udf: UDFRegistration get() = spark.udf()""".trimIndent(),
         ).map(::execute)
     }
+
+    override fun KotlinKernelHost.afterCellExecution(snippetInstance: Any, result: FieldValue) = Unit
 }
diff --git a/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/SparkStreamingIntegration.kt b/jupyter/src/main/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/SparkStreamingIntegration.kt
@@ -33,6 +33,8 @@ import java.io.InputStreamReader
 
 
 import org.apache.spark.*
+import org.apache.spark.streaming.api.java.JavaStreamingContext
+import org.jetbrains.kotlinx.jupyter.api.FieldValue
 import org.jetbrains.kotlinx.jupyter.api.KotlinKernelHost
 import scala.collection.*
 import org.jetbrains.kotlinx.spark.api.SparkSession
@@ -48,13 +50,100 @@ import scala.collection.Iterator as ScalaIterator
 @OptIn(ExperimentalStdlibApi::class)
 internal class SparkStreamingIntegration : Integration() {
 
+    override val imports: Array<String> = super.imports + arrayOf(
+        "org.apache.spark.deploy.SparkHadoopUtil",
+        "org.apache.hadoop.conf.Configuration",
+    )
+
     override fun KotlinKernelHost.onLoaded() {
         val _0 = execute("""%dumpClassesForSpark""")
 
         @Language("kts")
         val _1 = listOf(
+            """
+                 val sscCollection = mutableSetOf<JavaStreamingContext>()
+            """.trimIndent(),
+            """
+                @JvmOverloads
+                fun withSparkStreaming(
+                    batchDuration: Duration = Durations.seconds(1L),
+                    checkpointPath: String? = null,
+                    hadoopConf: Configuration = SparkHadoopUtil.get().conf(),
+                    createOnError: Boolean = false,
+                    props: Map<String, Any> = emptyMap(),
+                    master: String = SparkConf().get("spark.master", "local[*]"),
+                    appName: String = "Kotlin Spark Sample",
+                    timeout: Long = -1L,
+                    startStreamingContext: Boolean = true,
+                    func: KSparkStreamingSession.() -> Unit,
+                ) {
+                    var ssc: JavaStreamingContext? = null
+                    try {
+
+                        // will only be set when a new context is created
+                        var kSparkStreamingSession: KSparkStreamingSession? = null
+
+                        val creatingFunc = {
+                            val sc = SparkConf()
+                                .setAppName(appName)
+                                .setMaster(master)
+                                .setAll(
+                                    props
+                                        .map { (key, value) -> key X value.toString() }
+                                        .asScalaIterable()
+                                )
+
+                            val ssc1 = JavaStreamingContext(sc, batchDuration)
+                            ssc1.checkpoint(checkpointPath)
+
+                            kSparkStreamingSession = KSparkStreamingSession(ssc1)
+                            func(kSparkStreamingSession!!)
+
+                            ssc1
+                        }
+
+                        ssc = when {
+                            checkpointPath != null ->
+                                JavaStreamingContext.getOrCreate(checkpointPath, creatingFunc, hadoopConf, createOnError)
+
+                            else -> creatingFunc()
+                        }
+    
+                        sscCollection += ssc!!
+
+                        if (startStreamingContext) {
+                            ssc!!.start()
+                            kSparkStreamingSession?.invokeRunAfterStart()
+                        }
+                        ssc!!.awaitTerminationOrTimeout(timeout)
+                    } finally {
+                        ssc?.stop()
+                        println("stopping ssc")
+                        ssc?.awaitTermination()
+                        println("ssc stopped")
+                        ssc?.let(sscCollection::remove)   
+                    }
+                }
+            """.trimIndent(),
             """
                 println("To start a spark streaming session, simply use `withSparkStreaming { }` inside a cell. To use Spark normally, use `withSpark { }` in a cell, or use `%use spark` to start a Spark session for the whole notebook.")""".trimIndent(),
         ).map(::execute)
     }
+
+    override fun KotlinKernelHost.afterCellExecution(snippetInstance: Any, result: FieldValue) {
+
+        @Language("kts")
+        val _1 = listOf(
+            """
+                while (sscCollection.isNotEmpty())
+                    sscCollection.first().let {
+                        it.stop()
+                        sscCollection.remove(it)
+                    }
+            """.trimIndent(),
+            """
+                println("afterCellExecution cleanup!")
+            """.trimIndent()
+        ).map(::execute)
+    }
 }
diff --git a/jupyter/src/test/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/JupyterTests.kt b/jupyter/src/test/kotlin/org/jetbrains/kotlinx/spark/api/jupyter/JupyterTests.kt
@@ -30,6 +30,7 @@ import io.kotest.matchers.types.shouldBeInstanceOf
 import jupyter.kotlin.DependsOn
 import org.apache.spark.api.java.JavaSparkContext
 import org.apache.spark.streaming.Duration
+import org.apache.spark.streaming.api.java.JavaStreamingContext
 import org.intellij.lang.annotations.Language
 import org.jetbrains.kotlinx.jupyter.EvalRequestData
 import org.jetbrains.kotlinx.jupyter.ReplForJupyter
@@ -155,16 +156,19 @@ class JupyterTests : ShouldSpec({
             should("render JavaRDDs with custom class") {
 
                 @Language("kts")
-                val klass = exec("""
+                val klass = exec(
+                    """
                     data class Test(
                         val longFirstName: String,
                         val second: LongArray,
                         val somethingSpecial: Map<Int, String>,
                     ): Serializable
-                """.trimIndent())
+                """.trimIndent()
+                )
 
                 @Language("kts")
-                val html = execHtml("""
+                val html = execHtml(
+                    """
                     val rdd = sc.parallelize(
                         listOf(
                             Test("aaaaaaaaa", longArrayOf(1L, 100000L, 24L), mapOf(1 to "one", 2 to "two")),
@@ -246,8 +250,10 @@ class JupyterStreamingTests : ShouldSpec({
                     host = this,
                     integrationTypeNameRules = listOf(
                         PatternNameAcceptanceRule(false, "org.jetbrains.kotlinx.spark.api.jupyter.**"),
-                        PatternNameAcceptanceRule(true,
-                            "org.jetbrains.kotlinx.spark.api.jupyter.SparkStreamingIntegration"),
+                        PatternNameAcceptanceRule(
+                            true,
+                            "org.jetbrains.kotlinx.spark.api.jupyter.SparkStreamingIntegration"
+                        ),
                     ),
                 )
             }
@@ -263,6 +269,13 @@ class JupyterStreamingTests : ShouldSpec({
     context("Jupyter") {
         withRepl {
 
+            should("Have sscCollection instance") {
+
+                @Language("kts")
+                val sscCollection = exec("""sscCollection""")
+                sscCollection as? MutableSet<JavaStreamingContext> shouldNotBe null
+            }
+
             should("Not have spark instance") {
                 shouldThrowAny {
                     @Language("kts")
diff --git a/kotlin-spark-api/3.2/src/main/kotlin/org/jetbrains/kotlinx/spark/api/SparkSession.kt b/kotlin-spark-api/3.2/src/main/kotlin/org/jetbrains/kotlinx/spark/api/SparkSession.kt
@@ -308,42 +308,50 @@ fun withSparkStreaming(
     startStreamingContext: Boolean = true,
     func: KSparkStreamingSession.() -> Unit,
 ) {
+    var ssc: JavaStreamingContext? = null
+    try {
 
-    // will only be set when a new context is created
-    var kSparkStreamingSession: KSparkStreamingSession? = null
+        // will only be set when a new context is created
+        var kSparkStreamingSession: KSparkStreamingSession? = null
 
-    val creatingFunc = {
-        val sc = SparkConf()
-            .setAppName(appName)
-            .setMaster(master)
-            .setAll(
-                props
-                    .map { (key, value) -> key X value.toString() }
-                    .asScalaIterable()
-            )
+        val creatingFunc = {
+            val sc = SparkConf()
+                .setAppName(appName)
+                .setMaster(master)
+                .setAll(
+                    props
+                        .map { (key, value) -> key X value.toString() }
+                        .asScalaIterable()
+                )
 
-        val ssc = JavaStreamingContext(sc, batchDuration)
-        ssc.checkpoint(checkpointPath)
+            val ssc = JavaStreamingContext(sc, batchDuration)
+            ssc.checkpoint(checkpointPath)
 
-        kSparkStreamingSession = KSparkStreamingSession(ssc)
-        func(kSparkStreamingSession!!)
+            kSparkStreamingSession = KSparkStreamingSession(ssc)
+            func(kSparkStreamingSession!!)
 
-        ssc
-    }
+            ssc
+        }
 
-    val ssc = when {
-        checkpointPath != null ->
-            JavaStreamingContext.getOrCreate(checkpointPath, creatingFunc, hadoopConf, createOnError)
+        ssc = when {
+            checkpointPath != null ->
+                JavaStreamingContext.getOrCreate(checkpointPath, creatingFunc, hadoopConf, createOnError)
 
-        else -> creatingFunc()
-    }
+            else -> creatingFunc()
+        }
 
-    if (startStreamingContext) {
-        ssc.start()
-        kSparkStreamingSession?.invokeRunAfterStart()
+        if (startStreamingContext) {
+            ssc!!.start()
+            kSparkStreamingSession?.invokeRunAfterStart()
+        }
+        ssc!!.awaitTerminationOrTimeout(timeout)
+    } finally {
+        // TODO remove printlns
+        ssc?.stop()
+        println("stopping ssc")
+        ssc?.awaitTermination()
+        println("ssc stopped")
     }
-    ssc.awaitTerminationOrTimeout(timeout)
-    ssc.stop()
 }
 
 

Original file line number	Diff line number	Diff line change
`@@ -21,6 +21,7 @@ package org.jetbrains.kotlinx.spark.api.jupyter`
`21`	`21`
`22`	`22`
`23`	`23`	`import org.intellij.lang.annotations.Language`
	`24`	`+import org.jetbrains.kotlinx.jupyter.api.FieldValue`
`24`	`25`	`import org.jetbrains.kotlinx.jupyter.api.KotlinKernelHost`
`25`	`26`
`26`	`27`	`/**`
`@@ -68,4 +69,6 @@ internal class SparkIntegration : Integration() {`
`68`	`69`	`val udf: UDFRegistration get() = spark.udf()""".trimIndent(),`
`69`	`70`	`).map(::execute)`
`70`	`71`	`}`
	`72`	`+`
	`73`	`+ override fun KotlinKernelHost.afterCellExecution(snippetInstance: Any, result: FieldValue) = Unit`
`71`	`74`	`}`