[SPARK-7593] [ML] Python Api for ml.feature.Bucketizer

Added `ml.feature.Bucketizer` to PySpark. cc mengxr Author: Burak Yavuz <brkyvz@gmail.com> Closes #6124 from brkyvz/ml-bucket and squashes the following commits: 05285be [Burak Yavuz] added sphinx doc 6abb6ed [Burak Yavuz] added support for Bucketizer
author: Burak Yavuz <brkyvz@gmail.com> 2015-05-13 13:21:36 -0700
committer: Xiangrui Meng <meng@databricks.com> 2015-05-13 13:21:36 -0700
commit: 5db18ba6e1bd8c6307c41549176c53590cf344a0 (patch)
tree: a1fe0d90d324f009c563a1d4d4122c0f246ef895 /mllib
parent: 51030b8a9d4f3feb7a5d2249cc867fd6a06f0336 (diff)
download: spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.tar.gz
spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.tar.bz2
spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.zip
2 files changed, 15 insertions, 2 deletions
diff --git a/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala b/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala
index b28c88aaae..e52d797293 100644
--- a/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala
+++ b/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala
@@ -48,7 +48,7 @@ final class Bucketizer private[ml] (override val parent: Estimator[Bucketizer])
    * otherwise, values outside the splits specified will be treated as errors.
    * @group param
    */
-  val splits: Param[Array[Double]] = new Param[Array[Double]](this, "splits",
+  val splits: DoubleArrayParam = new DoubleArrayParam(this, "splits",
     "Split points for mapping continuous features into buckets. With n+1 splits, there are n " +
       "buckets. A bucket defined by splits x,y holds values in the range [x,y) except the last " +
       "bucket, which also includes y. The splits should be strictly increasing. " +
diff --git a/mllib/src/main/scala/org/apache/spark/ml/param/params.scala b/mllib/src/main/scala/org/apache/spark/ml/param/params.scala
index 7ebbf106ee..5a7ec29aac 100644
--- a/mllib/src/main/scala/org/apache/spark/ml/param/params.scala
+++ b/mllib/src/main/scala/org/apache/spark/ml/param/params.scala
@@ -219,7 +219,7 @@ class BooleanParam(parent: Params, name: String, doc: String) // No need for isV
   override def w(value: Boolean): ParamPair[Boolean] = super.w(value)
 }
 
-/** Specialized version of [[Param[Array[T]]]] for Java. */
+/** Specialized version of [[Param[Array[String]]]] for Java. */
 class StringArrayParam(parent: Params, name: String, doc: String, isValid: Array[String] => Boolean)
   extends Param[Array[String]](parent, name, doc, isValid) {
 
@@ -232,6 +232,19 @@ class StringArrayParam(parent: Params, name: String, doc: String, isValid: Array
   def w(value: java.util.List[String]): ParamPair[Array[String]] = w(value.asScala.toArray)
 }
 
+/** Specialized version of [[Param[Array[Double]]]] for Java. */
+class DoubleArrayParam(parent: Params, name: String, doc: String, isValid: Array[Double] => Boolean)
+  extends Param[Array[Double]](parent, name, doc, isValid) {
+
+  def this(parent: Params, name: String, doc: String) =
+    this(parent, name, doc, ParamValidators.alwaysTrue)
+
+  override def w(value: Array[Double]): ParamPair[Array[Double]] = super.w(value)
+
+  /** Creates a param pair with a [[java.util.List]] of values (for Java and Python). */
+  def w(value: java.util.List[Double]): ParamPair[Array[Double]] = w(value.asScala.toArray)
+}
+
 /**
  * A param amd its value.
  */
author	Burak Yavuz <brkyvz@gmail.com>	2015-05-13 13:21:36 -0700
committer	Xiangrui Meng <meng@databricks.com>	2015-05-13 13:21:36 -0700
commit	5db18ba6e1bd8c6307c41549176c53590cf344a0 (patch)
tree	a1fe0d90d324f009c563a1d4d4122c0f246ef895 /mllib
parent	51030b8a9d4f3feb7a5d2249cc867fd6a06f0336 (diff)
download	spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.tar.gz spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.tar.bz2 spark-5db18ba6e1bd8c6307c41549176c53590cf344a0.zip