From 96130c30d90abf155731346488f79c034bcaaf6a Mon Sep 17 00:00:00 2001
From: Gavin Li <lyo.gavin@gmail.com>
Date: Wed, 3 Jul 2013 05:49:04 +0000
Subject: add compression codec trait and snappy compression

---
 core/src/main/scala/spark/storage/BlockManager.scala | 20 ++++++++++++++++++--
 .../main/scala/spark/storage/CompressionCodec.scala  | 13 +++++++++++++
 core/src/main/scala/spark/storage/DiskStore.scala    |  1 -
 .../scala/spark/storage/LZFCompressionCodec.scala    | 16 ++++++++++++++++
 .../scala/spark/storage/SnappyCompressionCodec.scala | 18 ++++++++++++++++++
 5 files changed, 65 insertions(+), 3 deletions(-)
 create mode 100644 core/src/main/scala/spark/storage/CompressionCodec.scala
 create mode 100644 core/src/main/scala/spark/storage/LZFCompressionCodec.scala
 create mode 100644 core/src/main/scala/spark/storage/SnappyCompressionCodec.scala

(limited to 'core')

diff --git a/core/src/main/scala/spark/storage/BlockManager.scala b/core/src/main/scala/spark/storage/BlockManager.scala
index 9b39d3aadf..2d4a3502c6 100644
--- a/core/src/main/scala/spark/storage/BlockManager.scala
+++ b/core/src/main/scala/spark/storage/BlockManager.scala
@@ -141,6 +141,8 @@ private[spark] class BlockManager(
   val metadataCleaner = new MetadataCleaner("BlockManager", this.dropOldBlocks)
   initialize()
 
+  var compressionCodec: CompressionCodec = null
+
   /**
    * Construct a BlockManager with a memory limit set based on system properties.
    */
@@ -902,8 +904,15 @@ private[spark] class BlockManager(
    * Wrap an output stream for compression if block compression is enabled for its block type
    */
   def wrapForCompression(blockId: String, s: OutputStream): OutputStream = {
+    if (compressionCodec == null) {
+      compressionCodec = Class.forName(System.getProperty("spark.storage.compression.codec",
+        "spark.storage.LZFCompressionCodec"), true, Thread.currentThread.getContextClassLoader)
+        .newInstance().asInstanceOf[CompressionCodec]
+    }
+
     if (shouldCompress(blockId)) {
-      (new LZFOutputStream(s)).setFinishBlockOnFlush(true)
+      //(new LZFOutputStream(s)).setFinishBlockOnFlush(true)
+      compressionCodec.compressionOutputStream(s)
     } else {
       s
     }
@@ -913,7 +922,14 @@ private[spark] class BlockManager(
    * Wrap an input stream for compression if block compression is enabled for its block type
    */
   def wrapForCompression(blockId: String, s: InputStream): InputStream = {
-    if (shouldCompress(blockId)) new LZFInputStream(s) else s
+    if (compressionCodec == null) {
+      compressionCodec = Class.forName(System.getProperty("spark.storage.compression.codec",
+        "spark.storage.LZFCompressionCodec"), true, Thread.currentThread.getContextClassLoader)
+        .newInstance().asInstanceOf[CompressionCodec]
+    }
+
+    if (shouldCompress(blockId)) /*new LZFInputStream(s) */
+      compressionCodec.compressionInputStream(s) else s
   }
 
   def dataSerialize(
diff --git a/core/src/main/scala/spark/storage/CompressionCodec.scala b/core/src/main/scala/spark/storage/CompressionCodec.scala
new file mode 100644
index 0000000000..cd80de33f6
--- /dev/null
+++ b/core/src/main/scala/spark/storage/CompressionCodec.scala
@@ -0,0 +1,13 @@
+package spark.storage
+
+import java.io.{InputStream, OutputStream}
+
+
+/**
+ * CompressionCodec allows the customization of the compression codec
+ */
+trait CompressionCodec {
+  def compressionOutputStream(s: OutputStream): OutputStream
+
+  def compressionInputStream(s: InputStream): InputStream
+}
diff --git a/core/src/main/scala/spark/storage/DiskStore.scala b/core/src/main/scala/spark/storage/DiskStore.scala
index da859eebcb..221e285192 100644
--- a/core/src/main/scala/spark/storage/DiskStore.scala
+++ b/core/src/main/scala/spark/storage/DiskStore.scala
@@ -49,7 +49,6 @@ private class DiskStore(blockManager: BlockManager, rootDirs: String)
     override def close() {
       if (initialized) {
         objOut.close()
-        bs.close()
         channel = null
         bs = null
         objOut = null
diff --git a/core/src/main/scala/spark/storage/LZFCompressionCodec.scala b/core/src/main/scala/spark/storage/LZFCompressionCodec.scala
new file mode 100644
index 0000000000..3328b949ef
--- /dev/null
+++ b/core/src/main/scala/spark/storage/LZFCompressionCodec.scala
@@ -0,0 +1,16 @@
+package spark.storage
+
+import java.io.{InputStream, OutputStream}
+
+import com.ning.compress.lzf.{LZFInputStream, LZFOutputStream}
+
+/**
+ * LZF implementation of [[spark.storage.CompressionCodec]]
+ */
+class LZFCompressionCodec extends CompressionCodec {
+  def compressionOutputStream(s: OutputStream): OutputStream =
+    (new LZFOutputStream(s)).setFinishBlockOnFlush(true)
+
+  def compressionInputStream(s: InputStream): InputStream =
+    new LZFInputStream(s)
+}
diff --git a/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala b/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala
new file mode 100644
index 0000000000..dc8546b039
--- /dev/null
+++ b/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala
@@ -0,0 +1,18 @@
+package spark.storage
+
+import java.io.{InputStream, OutputStream}
+
+import org.xerial.snappy.SnappyOutputStream
+
+/**
+ * Snappy implementation of [[spark.storage.CompressionCodec]]
+ * block size can be configured by spark.snappy.block.size
+ */
+class SnappyCompressionCodec extends CompressionCodec {
+  def compressionOutputStream(s: OutputStream): OutputStream =
+    new SnappyOutputStream(s, 
+      System.getProperty("spark.snappy.block.size", "32768").toInt)
+
+  def compressionInputStream(s: InputStream): InputStream =
+    new SnappyInputStream(s)
+}
-- 
cgit v1.2.3


From 94238aae57475030f6e88102a83c7809c5835494 Mon Sep 17 00:00:00 2001
From: Gavin Li <lyo.gavin@gmail.com>
Date: Wed, 3 Jul 2013 18:08:38 +0000
Subject: fix dependencies

---
 core/src/main/scala/spark/storage/SnappyCompressionCodec.scala | 2 +-
 project/SparkBuild.scala                                       | 3 ++-
 2 files changed, 3 insertions(+), 2 deletions(-)

(limited to 'core')

diff --git a/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala b/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala
index dc8546b039..62b00ef3f6 100644
--- a/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala
+++ b/core/src/main/scala/spark/storage/SnappyCompressionCodec.scala
@@ -2,7 +2,7 @@ package spark.storage
 
 import java.io.{InputStream, OutputStream}
 
-import org.xerial.snappy.SnappyOutputStream
+import org.xerial.snappy.{SnappyInputStream, SnappyOutputStream}
 
 /**
  * Snappy implementation of [[spark.storage.CompressionCodec]]
diff --git a/project/SparkBuild.scala b/project/SparkBuild.scala
index 07572201de..f824826af3 100644
--- a/project/SparkBuild.scala
+++ b/project/SparkBuild.scala
@@ -162,7 +162,8 @@ object SparkBuild extends Build {
       "cc.spray" % "spray-json_2.9.2" % "1.1.1" excludeAll(excludeNetty),
       "org.apache.mesos" % "mesos" % "0.9.0-incubating",
       "io.netty" % "netty-all" % "4.0.0.Beta2",
-      "org.apache.derby" % "derby" % "10.4.2.0" % "test"
+      "org.apache.derby" % "derby" % "10.4.2.0" % "test",
+      "org.xerial.snappy" % "snappy-java" % "1.0.5"
     ) ++ (
       if (HADOOP_MAJOR_VERSION == "2") {
         if (HADOOP_YARN) {
-- 
cgit v1.2.3