Turn on caching in KMeans.main

author: Matei Zaharia <matei@eecs.berkeley.edu> 2013-07-31 23:08:12 -0700
committer: Matei Zaharia <matei@eecs.berkeley.edu> 2013-07-31 23:08:12 -0700
commit: 52dba89261ee6dddafff5c746322980567252843 (patch)
tree: 1c0e101b3fe13d407bc7a2457ba293e23566794b /mllib
parent: f607ffb9e1f799d73818f1d37c633007a6b900fb (diff)
download: spark-52dba89261ee6dddafff5c746322980567252843.tar.gz
spark-52dba89261ee6dddafff5c746322980567252843.tar.bz2
spark-52dba89261ee6dddafff5c746322980567252843.zip
1 files changed, 1 insertions, 1 deletions
diff --git a/mllib/src/main/scala/spark/mllib/clustering/KMeans.scala b/mllib/src/main/scala/spark/mllib/clustering/KMeans.scala
index a2ed42d7a5..b402c71ed2 100644
--- a/mllib/src/main/scala/spark/mllib/clustering/KMeans.scala
+++ b/mllib/src/main/scala/spark/mllib/clustering/KMeans.scala
@@ -322,7 +322,7 @@ object KMeans {
     val (master, inputFile, k, iters) = (args(0), args(1), args(2).toInt, args(3).toInt)
     val runs = if (args.length >= 5) args(4).toInt else 1
     val sc = new SparkContext(master, "KMeans")
-    val data = sc.textFile(inputFile).map(line => line.split(' ').map(_.toDouble))
+    val data = sc.textFile(inputFile).map(line => line.split(' ').map(_.toDouble)).cache()
     val model = KMeans.train(data, k, iters, runs)
     val cost = model.computeCost(data)
     println("Cluster centers:")
author	Matei Zaharia <matei@eecs.berkeley.edu>	2013-07-31 23:08:12 -0700
committer	Matei Zaharia <matei@eecs.berkeley.edu>	2013-07-31 23:08:12 -0700
commit	52dba89261ee6dddafff5c746322980567252843 (patch)
tree	1c0e101b3fe13d407bc7a2457ba293e23566794b /mllib
parent	f607ffb9e1f799d73818f1d37c633007a6b900fb (diff)
download	spark-52dba89261ee6dddafff5c746322980567252843.tar.gz spark-52dba89261ee6dddafff5c746322980567252843.tar.bz2 spark-52dba89261ee6dddafff5c746322980567252843.zip