path: root/site/docs/1.5.0/api/python/_modules/pyspark/ml/feature.html



<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">


<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    
    <title>pyspark.ml.feature &mdash; PySpark 1.5.0 documentation</title>
    
    <link rel="stylesheet" href="../../../_static/nature.css" type="text/css" />
    <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
    
    <script type="text/javascript">
      var DOCUMENTATION_OPTIONS = {
        URL_ROOT:    '../../../',
        VERSION:     '1.5.0',
        COLLAPSE_INDEX: false,
        FILE_SUFFIX: '.html',
        HAS_SOURCE:  true
      };
    </script>
    <script type="text/javascript" src="../../../_static/jquery.js"></script>
    <script type="text/javascript" src="../../../_static/underscore.js"></script>
    <script type="text/javascript" src="../../../_static/doctools.js"></script>
    <link rel="top" title="PySpark 1.5.0 documentation" href="../../../index.html" />
    <link rel="up" title="Module code" href="../../index.html" /> 
  </head>
  <body role="document">
    <div class="related" role="navigation" aria-label="related navigation">
      <h3>Navigation</h3>
      <ul>
        <li class="nav-item nav-item-0"><a href="../../../index.html">PySpark 1.5.0 documentation</a> &raquo;</li>
          <li class="nav-item nav-item-1"><a href="../../index.html" accesskey="U">Module code</a> &raquo;</li> 
      </ul>
    </div>  

    <div class="document">
      <div class="documentwrapper">
        <div class="bodywrapper">
          <div class="body" role="main">
            
  <h1>Source code for pyspark.ml.feature</h1><div class="highlight"><pre>
<span class="c">#</span>
<span class="c"># Licensed to the Apache Software Foundation (ASF) under one or more</span>
<span class="c"># contributor license agreements.  See the NOTICE file distributed with</span>
<span class="c"># this work for additional information regarding copyright ownership.</span>
<span class="c"># The ASF licenses this file to You under the Apache License, Version 2.0</span>
<span class="c"># (the &quot;License&quot;); you may not use this file except in compliance with</span>
<span class="c"># the License.  You may obtain a copy of the License at</span>
<span class="c">#</span>
<span class="c">#    http://www.apache.org/licenses/LICENSE-2.0</span>
<span class="c">#</span>
<span class="c"># Unless required by applicable law or agreed to in writing, software</span>
<span class="c"># distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
<span class="c"># WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
<span class="c"># See the License for the specific language governing permissions and</span>
<span class="c"># limitations under the License.</span>
<span class="c">#</span>

<span class="kn">import</span> <span class="nn">sys</span>
<span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">version</span> <span class="o">&gt;</span> <span class="s">&#39;3&#39;</span><span class="p">:</span>
    <span class="nb">basestring</span> <span class="o">=</span> <span class="nb">str</span>

<span class="kn">from</span> <span class="nn">pyspark.rdd</span> <span class="kn">import</span> <span class="n">ignore_unicode_prefix</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.param.shared</span> <span class="kn">import</span> <span class="o">*</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.util</span> <span class="kn">import</span> <span class="n">keyword_only</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.wrapper</span> <span class="kn">import</span> <span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">JavaModel</span><span class="p">,</span> <span class="n">JavaTransformer</span>
<span class="kn">from</span> <span class="nn">pyspark.mllib.common</span> <span class="kn">import</span> <span class="n">inherit_doc</span>
<span class="kn">from</span> <span class="nn">pyspark.mllib.linalg</span> <span class="kn">import</span> <span class="n">_convert_to_vector</span>

<span class="n">__all__</span> <span class="o">=</span> <span class="p">[</span><span class="s">&#39;Binarizer&#39;</span><span class="p">,</span> <span class="s">&#39;Bucketizer&#39;</span><span class="p">,</span> <span class="s">&#39;ElementwiseProduct&#39;</span><span class="p">,</span> <span class="s">&#39;HashingTF&#39;</span><span class="p">,</span> <span class="s">&#39;IDF&#39;</span><span class="p">,</span> <span class="s">&#39;IDFModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;NGram&#39;</span><span class="p">,</span> <span class="s">&#39;Normalizer&#39;</span><span class="p">,</span> <span class="s">&#39;OneHotEncoder&#39;</span><span class="p">,</span> <span class="s">&#39;PolynomialExpansion&#39;</span><span class="p">,</span> <span class="s">&#39;RegexTokenizer&#39;</span><span class="p">,</span>
           <span class="s">&#39;StandardScaler&#39;</span><span class="p">,</span> <span class="s">&#39;StandardScalerModel&#39;</span><span class="p">,</span> <span class="s">&#39;StringIndexer&#39;</span><span class="p">,</span> <span class="s">&#39;StringIndexerModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;Tokenizer&#39;</span><span class="p">,</span> <span class="s">&#39;VectorAssembler&#39;</span><span class="p">,</span> <span class="s">&#39;VectorIndexer&#39;</span><span class="p">,</span> <span class="s">&#39;Word2Vec&#39;</span><span class="p">,</span> <span class="s">&#39;Word2VecModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;PCA&#39;</span><span class="p">,</span> <span class="s">&#39;PCAModel&#39;</span><span class="p">,</span> <span class="s">&#39;RFormula&#39;</span><span class="p">,</span> <span class="s">&#39;RFormulaModel&#39;</span><span class="p">]</span>


<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Binarizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer">[docs]</a><span class="k">class</span> <span class="nc">Binarizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Binarize a column of continuous features given a threshold.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(0.5,)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; binarizer = Binarizer(threshold=1.0, inputCol=&quot;values&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; binarizer.transform(df).head().features</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; binarizer.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; params = {binarizer.threshold: -0.5, binarizer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; binarizer.transform(df, params).head().vector</span>
<span class="sd">    1.0</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">threshold</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;threshold&quot;</span><span class="p">,</span>
                      <span class="s">&quot;threshold in binary classification prediction, in range [0, 1]&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, threshold=0.0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Binarizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Binarizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">threshold</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;threshold&quot;</span><span class="p">,</span>
                               <span class="s">&quot;threshold in binary classification prediction, in range [0, 1]&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Binarizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, threshold=0.0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Binarizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Binarizer.setThreshold"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.setThreshold">[docs]</a>    <span class="k">def</span> <span class="nf">setThreshold</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`threshold`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">threshold</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Binarizer.getThreshold"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.getThreshold">[docs]</a>    <span class="k">def</span> <span class="nf">getThreshold</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of threshold or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">threshold</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Bucketizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer">[docs]</a><span class="k">class</span> <span class="nc">Bucketizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Maps a column of continuous features to a column of feature buckets.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(0.1,), (0.4,), (1.2,), (1.5,)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; bucketizer = Bucketizer(splits=[-float(&quot;inf&quot;), 0.5, 1.4, float(&quot;inf&quot;)],</span>
<span class="sd">    ...     inputCol=&quot;values&quot;, outputCol=&quot;buckets&quot;)</span>
<span class="sd">    &gt;&gt;&gt; bucketed = bucketizer.transform(df).collect()</span>
<span class="sd">    &gt;&gt;&gt; bucketed[0].buckets</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[1].buckets</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[2].buckets</span>
<span class="sd">    1.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[3].buckets</span>
<span class="sd">    2.0</span>
<span class="sd">    &gt;&gt;&gt; bucketizer.setParams(outputCol=&quot;b&quot;).transform(df).head().b</span>
<span class="sd">    0.0</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">splits</span> <span class="o">=</span> \
        <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;splits&quot;</span><span class="p">,</span>
              <span class="s">&quot;Split points for mapping continuous features into buckets. With n+1 splits, &quot;</span> <span class="o">+</span>
              <span class="s">&quot;there are n buckets. A bucket defined by splits x,y holds values in the &quot;</span> <span class="o">+</span>
              <span class="s">&quot;range [x,y) except the last bucket, which also includes y. The splits &quot;</span> <span class="o">+</span>
              <span class="s">&quot;should be strictly increasing. Values at -inf, inf must be explicitly &quot;</span> <span class="o">+</span>
              <span class="s">&quot;provided to cover all Double values; otherwise, values outside the splits &quot;</span> <span class="o">+</span>
              <span class="s">&quot;specified will be treated as errors.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">splits</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, splits=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Bucketizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Bucketizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="c">#: param for Splitting points for mapping continuous features into buckets. With n+1 splits,</span>
        <span class="c">#  there are n buckets. A bucket defined by splits x,y holds values in the range [x,y)</span>
        <span class="c">#  except the last bucket, which also includes y. The splits should be strictly increasing.</span>
        <span class="c">#  Values at -inf, inf must be explicitly provided to cover all Double values; otherwise,</span>
        <span class="c">#  values outside the splits specified will be treated as errors.</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">splits</span> <span class="o">=</span> \
            <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;splits&quot;</span><span class="p">,</span>
                  <span class="s">&quot;Split points for mapping continuous features into buckets. With n+1 splits, &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;there are n buckets. A bucket defined by splits x,y holds values in the &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;range [x,y) except the last bucket, which also includes y. The splits &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;should be strictly increasing. Values at -inf, inf must be explicitly &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;provided to cover all Double values; otherwise, values outside the splits &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;specified will be treated as errors.&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Bucketizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">splits</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, splits=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Bucketizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Bucketizer.setSplits"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.setSplits">[docs]</a>    <span class="k">def</span> <span class="nf">setSplits</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`splits`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">splits</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Bucketizer.getSplits"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.getSplits">[docs]</a>    <span class="k">def</span> <span class="nf">getSplits</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of threshold or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">splits</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="ElementwiseProduct"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct">[docs]</a><span class="k">class</span> <span class="nc">ElementwiseProduct</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Outputs the Hadamard product (i.e., the element-wise product) of each input vector</span>
<span class="sd">    with a provided &quot;weight&quot; vector. In other words, it scales each column of the dataset</span>
<span class="sd">    by a scalar multiplier.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([2.0, 1.0, 3.0]),)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; ep = ElementwiseProduct(scalingVec=Vectors.dense([1.0, 2.0, 3.0]),</span>
<span class="sd">    ...     inputCol=&quot;values&quot;, outputCol=&quot;eprod&quot;)</span>
<span class="sd">    &gt;&gt;&gt; ep.transform(df).head().eprod</span>
<span class="sd">    DenseVector([2.0, 2.0, 9.0])</span>
<span class="sd">    &gt;&gt;&gt; ep.setParams(scalingVec=Vectors.dense([2.0, 3.0, 5.0])).transform(df).head().eprod</span>
<span class="sd">    DenseVector([4.0, 3.0, 15.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">scalingVec</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;scalingVec&quot;</span><span class="p">,</span> <span class="s">&quot;vector for hadamard product, &quot;</span> <span class="o">+</span>
                       <span class="s">&quot;it must be MLlib Vector type.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">scalingVec</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, scalingVec=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">ElementwiseProduct</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.ElementwiseProduct&quot;</span><span class="p">,</span>
                                            <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;scalingVec&quot;</span><span class="p">,</span> <span class="s">&quot;vector for hadamard product, &quot;</span> <span class="o">+</span>
                                <span class="s">&quot;it must be MLlib Vector type.&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="ElementwiseProduct.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">scalingVec</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, scalingVec=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this ElementwiseProduct.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="ElementwiseProduct.setScalingVec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.setScalingVec">[docs]</a>    <span class="k">def</span> <span class="nf">setScalingVec</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`scalingVec`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="ElementwiseProduct.getScalingVec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.getScalingVec">[docs]</a>    <span class="k">def</span> <span class="nf">getScalingVec</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of scalingVec or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="HashingTF"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.HashingTF">[docs]</a><span class="k">class</span> <span class="nc">HashingTF</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">,</span> <span class="n">HasNumFeatures</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Maps a sequence of terms to their term frequencies using the</span>
<span class="sd">    hashing trick.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([([&quot;a&quot;, &quot;b&quot;, &quot;c&quot;],)], [&quot;words&quot;])</span>
<span class="sd">    &gt;&gt;&gt; hashingTF = HashingTF(numFeatures=10, inputCol=&quot;words&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.transform(df).head().features</span>
<span class="sd">    SparseVector(10, {7: 1.0, 8: 1.0, 9: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    SparseVector(10, {7: 1.0, 8: 1.0, 9: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; params = {hashingTF.numFeatures: 5, hashingTF.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.transform(df, params).head().vector</span>
<span class="sd">    SparseVector(5, {2: 1.0, 3: 1.0, 4: 1.0})</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, numFeatures=1 &lt;&lt; 18, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">HashingTF</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.HashingTF&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="HashingTF.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.HashingTF.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, numFeatures=1 &lt;&lt; 18, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this HashingTF.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="IDF"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF">[docs]</a><span class="k">class</span> <span class="nc">IDF</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Compute the Inverse Document Frequency (IDF) given a collection of documents.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import DenseVector</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(DenseVector([1.0, 2.0]),),</span>
<span class="sd">    ...     (DenseVector([0.0, 1.0]),), (DenseVector([3.0, 0.2]),)], [&quot;tf&quot;])</span>
<span class="sd">    &gt;&gt;&gt; idf = IDF(minDocFreq=3, inputCol=&quot;tf&quot;, outputCol=&quot;idf&quot;)</span>
<span class="sd">    &gt;&gt;&gt; idf.fit(df).transform(df).head().idf</span>
<span class="sd">    DenseVector([0.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; idf.setParams(outputCol=&quot;freqs&quot;).fit(df).transform(df).collect()[1].freqs</span>
<span class="sd">    DenseVector([0.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {idf.minDocFreq: 1, idf.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; idf.fit(df, params).transform(df).head().vector</span>
<span class="sd">    DenseVector([0.2877, 0.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">minDocFreq</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minDocFreq&quot;</span><span class="p">,</span>
                       <span class="s">&quot;minimum of documents in which a term should appear for filtering&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, minDocFreq=0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">IDF</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.IDF&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minDocFreq&quot;</span><span class="p">,</span>
                                <span class="s">&quot;minimum of documents in which a term should appear for filtering&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="IDF.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minDocFreq=0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this IDF.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="IDF.setMinDocFreq"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.setMinDocFreq">[docs]</a>    <span class="k">def</span> <span class="nf">setMinDocFreq</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minDocFreq`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="IDF.getMinDocFreq"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.getMinDocFreq">[docs]</a>    <span class="k">def</span> <span class="nf">getMinDocFreq</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minDocFreq or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">IDFModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="IDFModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDFModel">[docs]</a><span class="k">class</span> <span class="nc">IDFModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by IDF.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="NGram"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram">[docs]</a><span class="k">class</span> <span class="nc">NGram</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A feature transformer that converts the input array of strings into an array of n-grams. Null</span>
<span class="sd">    values in the input array are ignored.</span>
<span class="sd">    It returns an array of n-grams where each n-gram is represented by a space-separated string of</span>
<span class="sd">    words.</span>
<span class="sd">    When the input is empty, an empty array is returned.</span>
<span class="sd">    When the input array length is less than n (number of elements per n-gram), no n-grams are</span>
<span class="sd">    returned.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([Row(inputTokens=[&quot;a&quot;, &quot;b&quot;, &quot;c&quot;, &quot;d&quot;, &quot;e&quot;])])</span>
<span class="sd">    &gt;&gt;&gt; ngram = NGram(n=2, inputCol=&quot;inputTokens&quot;, outputCol=&quot;nGrams&quot;)</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b&#39;, u&#39;b c&#39;, u&#39;c d&#39;, u&#39;d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change n-gram length</span>
<span class="sd">    &gt;&gt;&gt; ngram.setParams(n=4).transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify output column.</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df, {ngram.outputCol: &quot;output&quot;}).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], output=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; ngram.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">n</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;n&quot;</span><span class="p">,</span> <span class="s">&quot;number of elements per n-gram (&gt;=1)&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, n=2, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">NGram</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.NGram&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;n&quot;</span><span class="p">,</span> <span class="s">&quot;number of elements per n-gram (&gt;=1)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="NGram.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, n=2, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this NGram.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="NGram.setN"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.setN">[docs]</a>    <span class="k">def</span> <span class="nf">setN</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`n`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="NGram.getN"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.getN">[docs]</a>    <span class="k">def</span> <span class="nf">getN</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of n or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Normalizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer">[docs]</a><span class="k">class</span> <span class="nc">Normalizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">     Normalize a vector to have unit norm using the given p-norm.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; svec = Vectors.sparse(4, {1: 4.0, 3: 3.0})</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([3.0, -4.0]), svec)], [&quot;dense&quot;, &quot;sparse&quot;])</span>
<span class="sd">    &gt;&gt;&gt; normalizer = Normalizer(p=2.0, inputCol=&quot;dense&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; normalizer.transform(df).head().features</span>
<span class="sd">    DenseVector([0.6, -0.8])</span>
<span class="sd">    &gt;&gt;&gt; normalizer.setParams(inputCol=&quot;sparse&quot;, outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    SparseVector(4, {1: 0.8, 3: 0.6})</span>
<span class="sd">    &gt;&gt;&gt; params = {normalizer.p: 1.0, normalizer.inputCol: &quot;dense&quot;, normalizer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; normalizer.transform(df, params).head().vector</span>
<span class="sd">    DenseVector([0.4286, -0.5714])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">p</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;p&quot;</span><span class="p">,</span> <span class="s">&quot;the p norm value.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, p=2.0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Normalizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Normalizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">p</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;p&quot;</span><span class="p">,</span> <span class="s">&quot;the p norm value.&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Normalizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, p=2.0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Normalizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Normalizer.setP"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.setP">[docs]</a>    <span class="k">def</span> <span class="nf">setP</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`p`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">p</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Normalizer.getP"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.getP">[docs]</a>    <span class="k">def</span> <span class="nf">getP</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of p or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">p</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="OneHotEncoder"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder">[docs]</a><span class="k">class</span> <span class="nc">OneHotEncoder</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A one-hot encoder that maps a column of category indices to a</span>
<span class="sd">    column of binary vectors, with at most a single one-value per row</span>
<span class="sd">    that indicates the input category index.</span>
<span class="sd">    For example with 5 categories, an input value of 2.0 would map to</span>
<span class="sd">    an output vector of `[0.0, 0.0, 1.0, 0.0]`.</span>
<span class="sd">    The last category is not included by default (configurable via</span>
<span class="sd">    :py:attr:`dropLast`) because it makes the vector entries sum up to</span>
<span class="sd">    one, and hence linearly dependent.</span>
<span class="sd">    So an input value of 4.0 maps to `[0.0, 0.0, 0.0, 0.0]`.</span>
<span class="sd">    Note that this is different from scikit-learn&#39;s OneHotEncoder,</span>
<span class="sd">    which keeps all categories.</span>
<span class="sd">    The output vectors are sparse.</span>

<span class="sd">    .. seealso::</span>

<span class="sd">       :py:class:`StringIndexer` for converting categorical values into</span>
<span class="sd">       category indices</span>

<span class="sd">    &gt;&gt;&gt; stringIndexer = StringIndexer(inputCol=&quot;label&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = stringIndexer.fit(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; td = model.transform(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; encoder = OneHotEncoder(inputCol=&quot;indexed&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; encoder.transform(td).head().features</span>
<span class="sd">    SparseVector(2, {0: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; encoder.setParams(outputCol=&quot;freqs&quot;).transform(td).head().freqs</span>
<span class="sd">    SparseVector(2, {0: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; params = {encoder.dropLast: False, encoder.outputCol: &quot;test&quot;}</span>
<span class="sd">    &gt;&gt;&gt; encoder.transform(td, params).head().test</span>
<span class="sd">    SparseVector(3, {0: 1.0})</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">dropLast</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;dropLast&quot;</span><span class="p">,</span> <span class="s">&quot;whether to drop the last category&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, includeFirst=True, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">OneHotEncoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.OneHotEncoder&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;dropLast&quot;</span><span class="p">,</span> <span class="s">&quot;whether to drop the last category&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="OneHotEncoder.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, dropLast=True, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this OneHotEncoder.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="OneHotEncoder.setDropLast"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.setDropLast">[docs]</a>    <span class="k">def</span> <span class="nf">setDropLast</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`dropLast`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="OneHotEncoder.getDropLast"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.getDropLast">[docs]</a>    <span class="k">def</span> <span class="nf">getDropLast</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of dropLast or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="PolynomialExpansion"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion">[docs]</a><span class="k">class</span> <span class="nc">PolynomialExpansion</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Perform feature expansion in a polynomial space. As said in wikipedia of Polynomial Expansion,</span>
<span class="sd">    which is available at `http://en.wikipedia.org/wiki/Polynomial_expansion`, &quot;In mathematics, an</span>
<span class="sd">    expansion of a product of sums expresses it as a sum of products by using the fact that</span>
<span class="sd">    multiplication distributes over addition&quot;. Take a 2-variable feature vector as an example:</span>
<span class="sd">    `(x, y)`, if we want to expand it with degree 2, then we get `(x, x * x, y, x * y, y * y)`.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([0.5, 2.0]),)], [&quot;dense&quot;])</span>
<span class="sd">    &gt;&gt;&gt; px = PolynomialExpansion(degree=2, inputCol=&quot;dense&quot;, outputCol=&quot;expanded&quot;)</span>
<span class="sd">    &gt;&gt;&gt; px.transform(df).head().expanded</span>
<span class="sd">    DenseVector([0.5, 0.25, 2.0, 1.0, 4.0])</span>
<span class="sd">    &gt;&gt;&gt; px.setParams(outputCol=&quot;test&quot;).transform(df).head().test</span>
<span class="sd">    DenseVector([0.5, 0.25, 2.0, 1.0, 4.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">degree</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;degree&quot;</span><span class="p">,</span> <span class="s">&quot;the polynomial degree to expand (&gt;= 1)&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, degree=2, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">PolynomialExpansion</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span>
            <span class="s">&quot;org.apache.spark.ml.feature.PolynomialExpansion&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">degree</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;degree&quot;</span><span class="p">,</span> <span class="s">&quot;the polynomial degree to expand (&gt;= 1)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="PolynomialExpansion.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, degree=2, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this PolynomialExpansion.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="PolynomialExpansion.setDegree"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.setDegree">[docs]</a>    <span class="k">def</span> <span class="nf">setDegree</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`degree`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">degree</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="PolynomialExpansion.getDegree"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.getDegree">[docs]</a>    <span class="k">def</span> <span class="nf">getDegree</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of degree or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">degree</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="RegexTokenizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer">[docs]</a><span class="k">class</span> <span class="nc">RegexTokenizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A regex based tokenizer that extracts tokens either by using the</span>
<span class="sd">    provided regex pattern (in Java dialect) to split the text</span>
<span class="sd">    (default) or repeatedly matching the regex (if gaps is false).</span>
<span class="sd">    Optional parameters also allow filtering tokens using a minimal</span>
<span class="sd">    length.</span>
<span class="sd">    It returns an array of strings that can be empty.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(&quot;a b  c&quot;,)], [&quot;text&quot;])</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer = RegexTokenizer(inputCol=&quot;text&quot;, outputCol=&quot;words&quot;)</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change a parameter.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.setParams(outputCol=&quot;tokens&quot;).transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify a parameter.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df, {reTokenizer.outputCol: &quot;words&quot;}).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">minTokenLength</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minTokenLength&quot;</span><span class="p">,</span> <span class="s">&quot;minimum token length (&gt;= 0)&quot;</span><span class="p">)</span>
    <span class="n">gaps</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;gaps&quot;</span><span class="p">,</span> <span class="s">&quot;whether regex splits on gaps (True) or matches tokens&quot;</span><span class="p">)</span>
    <span class="n">pattern</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;pattern&quot;</span><span class="p">,</span> <span class="s">&quot;regex pattern (Java dialect) used for tokenizing&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, minTokenLength=1, gaps=True, pattern=&quot;\\s+&quot;, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">RegexTokenizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.RegexTokenizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minTokenLength&quot;</span><span class="p">,</span> <span class="s">&quot;minimum token length (&gt;= 0)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">gaps</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;gaps&quot;</span><span class="p">,</span> <span class="s">&quot;whether regex splits on gaps (True) or matches tokens&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;pattern&quot;</span><span class="p">,</span> <span class="s">&quot;regex pattern (Java dialect) used for tokenizing&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="RegexTokenizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minTokenLength=1, gaps=True, pattern=&quot;\\s+&quot;, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this RegexTokenizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setMinTokenLength"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setMinTokenLength">[docs]</a>    <span class="k">def</span> <span class="nf">setMinTokenLength</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minTokenLength`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getMinTokenLength"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getMinTokenLength">[docs]</a>    <span class="k">def</span> <span class="nf">getMinTokenLength</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minTokenLength or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setGaps"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setGaps">[docs]</a>    <span class="k">def</span> <span class="nf">setGaps</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`gaps`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">gaps</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getGaps"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getGaps">[docs]</a>    <span class="k">def</span> <span class="nf">getGaps</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of gaps or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gaps</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setPattern"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setPattern">[docs]</a>    <span class="k">def</span> <span class="nf">setPattern</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`pattern`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getPattern"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getPattern">[docs]</a>    <span class="k">def</span> <span class="nf">getPattern</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of pattern or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="StandardScaler"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler">[docs]</a><span class="k">class</span> <span class="nc">StandardScaler</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Standardizes features by removing the mean and scaling to unit variance using column summary</span>
<span class="sd">    statistics on the samples in the training set.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], [&quot;a&quot;])</span>
<span class="sd">    &gt;&gt;&gt; standardScaler = StandardScaler(inputCol=&quot;a&quot;, outputCol=&quot;scaled&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = standardScaler.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.mean</span>
<span class="sd">    DenseVector([1.0])</span>
<span class="sd">    &gt;&gt;&gt; model.std</span>
<span class="sd">    DenseVector([1.4142])</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).collect()[1].scaled</span>
<span class="sd">    DenseVector([1.4142])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">withMean</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;withMean&quot;</span><span class="p">,</span> <span class="s">&quot;Center data with mean&quot;</span><span class="p">)</span>
    <span class="n">withStd</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;withStd&quot;</span><span class="p">,</span> <span class="s">&quot;Scale to unit standard deviation&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, withMean=False, withStd=True, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">StandardScaler</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.StandardScaler&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">withMean</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;withMean&quot;</span><span class="p">,</span> <span class="s">&quot;Center data with mean&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">withStd</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;withStd&quot;</span><span class="p">,</span> <span class="s">&quot;Scale to unit standard deviation&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="StandardScaler.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, withMean=False, withStd=True, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this StandardScaler.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="StandardScaler.setWithMean"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setWithMean">[docs]</a>    <span class="k">def</span> <span class="nf">setWithMean</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`withMean`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">withMean</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="StandardScaler.getWithMean"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.getWithMean">[docs]</a>    <span class="k">def</span> <span class="nf">getWithMean</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of withMean or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">withMean</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="StandardScaler.setWithStd"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setWithStd">[docs]</a>    <span class="k">def</span> <span class="nf">setWithStd</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`withStd`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">withStd</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="StandardScaler.getWithStd"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.getWithStd">[docs]</a>    <span class="k">def</span> <span class="nf">getWithStd</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of withStd or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">withStd</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">StandardScalerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="StandardScalerModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScalerModel">[docs]</a><span class="k">class</span> <span class="nc">StandardScalerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by StandardScaler.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@property</span>
    <span class="k">def</span> <span class="nf">std</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Standard deviation of the StandardScalerModel.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;std&quot;</span><span class="p">)</span>

    <span class="nd">@property</span>
    <span class="k">def</span> <span class="nf">mean</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Mean of the StandardScalerModel.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;mean&quot;</span><span class="p">)</span>

</div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="StringIndexer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexer">[docs]</a><span class="k">class</span> <span class="nc">StringIndexer</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A label indexer that maps a string column of labels to an ML column of label indices.</span>
<span class="sd">    If the input column is numeric, we cast it to string and index the string values.</span>
<span class="sd">    The indices are in [0, numLabels), ordered by label frequencies.</span>
<span class="sd">    So the most frequent label gets index 0.</span>

<span class="sd">    &gt;&gt;&gt; stringIndexer = StringIndexer(inputCol=&quot;label&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = stringIndexer.fit(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; td = model.transform(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; sorted(set([(i[0], i[1]) for i in td.select(td.id, td.indexed).collect()]),</span>
<span class="sd">    ...     key=lambda x: x[0])</span>
<span class="sd">    [(0, 0.0), (1, 2.0), (2, 1.0), (3, 0.0), (4, 0.0), (5, 1.0)]</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">StringIndexer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.StringIndexer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="StringIndexer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this StringIndexer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">StringIndexerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="StringIndexerModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexerModel">[docs]</a><span class="k">class</span> <span class="nc">StringIndexerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by StringIndexer.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="Tokenizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Tokenizer">[docs]</a><span class="k">class</span> <span class="nc">Tokenizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A tokenizer that converts the input string to lowercase and then</span>
<span class="sd">    splits it by white spaces.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(&quot;a b c&quot;,)], [&quot;text&quot;])</span>
<span class="sd">    &gt;&gt;&gt; tokenizer = Tokenizer(inputCol=&quot;text&quot;, outputCol=&quot;words&quot;)</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change a parameter.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.setParams(outputCol=&quot;tokens&quot;).transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify a parameter.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df, {tokenizer.outputCol: &quot;words&quot;}).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Tokenizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Tokenizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Tokenizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Tokenizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCol=&quot;input&quot;, outputCol=&quot;output&quot;)</span>
<span class="sd">        Sets params for this Tokenizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="VectorAssembler"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorAssembler">[docs]</a><span class="k">class</span> <span class="nc">VectorAssembler</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCols</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A feature transformer that merges multiple columns into a vector column.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(1, 0, 3)], [&quot;a&quot;, &quot;b&quot;, &quot;c&quot;])</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler = VectorAssembler(inputCols=[&quot;a&quot;, &quot;b&quot;, &quot;c&quot;], outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.transform(df).head().features</span>
<span class="sd">    DenseVector([1.0, 0.0, 3.0])</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    DenseVector([1.0, 0.0, 3.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {vecAssembler.inputCols: [&quot;b&quot;, &quot;a&quot;], vecAssembler.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.transform(df, params).head().vector</span>
<span class="sd">    DenseVector([0.0, 1.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCols</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCols=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">VectorAssembler</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.VectorAssembler&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="VectorAssembler.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorAssembler.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCols</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCols=None, outputCol=None)</span>
<span class="sd">        Sets params for this VectorAssembler.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="VectorIndexer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer">[docs]</a><span class="k">class</span> <span class="nc">VectorIndexer</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Class for indexing categorical feature columns in a dataset of [[Vector]].</span>

<span class="sd">    This has 2 usage modes:</span>
<span class="sd">      - Automatically identify categorical features (default behavior)</span>
<span class="sd">         - This helps process a dataset of unknown vectors into a dataset with some continuous</span>
<span class="sd">           features and some categorical features. The choice between continuous and categorical</span>
<span class="sd">           is based upon a maxCategories parameter.</span>
<span class="sd">         - Set maxCategories to the maximum number of categorical any categorical feature should</span>
<span class="sd">           have.</span>
<span class="sd">         - E.g.: Feature 0 has unique values {-1.0, 0.0}, and feature 1 values {1.0, 3.0, 5.0}.</span>
<span class="sd">           If maxCategories = 2, then feature 0 will be declared categorical and use indices {0, 1},</span>
<span class="sd">           and feature 1 will be declared continuous.</span>
<span class="sd">      - Index all features, if all features are categorical</span>
<span class="sd">         - If maxCategories is set to be very large, then this will build an index of unique</span>
<span class="sd">           values for all features.</span>
<span class="sd">         - Warning: This can cause problems if features are continuous since this will collect ALL</span>
<span class="sd">           unique values to the driver.</span>
<span class="sd">         - E.g.: Feature 0 has unique values {-1.0, 0.0}, and feature 1 values {1.0, 3.0, 5.0}.</span>
<span class="sd">           If maxCategories &gt;= 3, then both features will be declared categorical.</span>

<span class="sd">     This returns a model which can transform categorical features to use 0-based indices.</span>

<span class="sd">    Index stability:</span>
<span class="sd">      - This is not guaranteed to choose the same category index across multiple runs.</span>
<span class="sd">      - If a categorical feature includes value 0, then this is guaranteed to map value 0 to</span>
<span class="sd">        index 0. This maintains vector sparsity.</span>
<span class="sd">      - More stability may be added in the future.</span>

<span class="sd">     TODO: Future extensions: The following functionality is planned for the future:</span>
<span class="sd">      - Preserve metadata in transform; if a feature&#39;s metadata is already present,</span>
<span class="sd">        do not recompute.</span>
<span class="sd">      - Specify certain features to not index, either via a parameter or via existing metadata.</span>
<span class="sd">      - Add warning if a categorical feature has only 1 category.</span>
<span class="sd">      - Add option for allowing unknown categories.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([-1.0, 0.0]),),</span>
<span class="sd">    ...     (Vectors.dense([0.0, 1.0]),), (Vectors.dense([0.0, 2.0]),)], [&quot;a&quot;])</span>
<span class="sd">    &gt;&gt;&gt; indexer = VectorIndexer(maxCategories=2, inputCol=&quot;a&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = indexer.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).head().indexed</span>
<span class="sd">    DenseVector([1.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; indexer.setParams(outputCol=&quot;test&quot;).fit(df).transform(df).collect()[1].test</span>
<span class="sd">    DenseVector([0.0, 1.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {indexer.maxCategories: 3, indexer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; model2 = indexer.fit(df, params)</span>
<span class="sd">    &gt;&gt;&gt; model2.transform(df).head().vector</span>
<span class="sd">    DenseVector([1.0, 0.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">maxCategories</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;maxCategories&quot;</span><span class="p">,</span>
                          <span class="s">&quot;Threshold for the number of values a categorical feature can take &quot;</span> <span class="o">+</span>
                          <span class="s">&quot;(&gt;= 2). If a feature is found to have &gt; maxCategories values, then &quot;</span> <span class="o">+</span>
                          <span class="s">&quot;it is declared continuous.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, maxCategories=20, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">VectorIndexer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.VectorIndexer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;maxCategories&quot;</span><span class="p">,</span>
                                   <span class="s">&quot;Threshold for the number of values a categorical feature &quot;</span> <span class="o">+</span>
                                   <span class="s">&quot;can take (&gt;= 2). If a feature is found to have &quot;</span> <span class="o">+</span>
                                   <span class="s">&quot;&gt; maxCategories values, then it is declared continuous.&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="VectorIndexer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, maxCategories=20, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this VectorIndexer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="VectorIndexer.setMaxCategories"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.setMaxCategories">[docs]</a>    <span class="k">def</span> <span class="nf">setMaxCategories</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`maxCategories`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="VectorIndexer.getMaxCategories"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.getMaxCategories">[docs]</a>    <span class="k">def</span> <span class="nf">getMaxCategories</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of maxCategories or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">VectorIndexerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<span class="k">class</span> <span class="nc">VectorIndexerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by VectorIndexer.</span>
<span class="sd">    &quot;&quot;&quot;</span>


<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="Word2Vec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec">[docs]</a><span class="k">class</span> <span class="nc">Word2Vec</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasStepSize</span><span class="p">,</span> <span class="n">HasMaxIter</span><span class="p">,</span> <span class="n">HasSeed</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Word2Vec trains a model of `Map(String, Vector)`, i.e. transforms a word into a code for further</span>
<span class="sd">    natural language processing or machine learning process.</span>

<span class="sd">    &gt;&gt;&gt; sent = (&quot;a b &quot; * 100 + &quot;a c &quot; * 10).split(&quot; &quot;)</span>
<span class="sd">    &gt;&gt;&gt; doc = sqlContext.createDataFrame([(sent,), (sent,)], [&quot;sentence&quot;])</span>
<span class="sd">    &gt;&gt;&gt; model = Word2Vec(vectorSize=5, seed=42, inputCol=&quot;sentence&quot;, outputCol=&quot;model&quot;).fit(doc)</span>
<span class="sd">    &gt;&gt;&gt; model.getVectors().show()</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    |word|              vector|</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    |   a|[-0.3511952459812...|</span>
<span class="sd">    |   b|[0.29077222943305...|</span>
<span class="sd">    |   c|[0.02315592765808...|</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; model.findSynonyms(&quot;a&quot;, 2).show()</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    |word|         similarity|</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    |   b|0.29255685145799626|</span>
<span class="sd">    |   c|-0.5414068302988307|</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; model.transform(doc).head().model</span>
<span class="sd">    DenseVector([-0.0422, -0.5138, -0.2546, 0.6885, 0.276])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">vectorSize</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;vectorSize&quot;</span><span class="p">,</span>
                       <span class="s">&quot;the dimension of codes after transforming from words&quot;</span><span class="p">)</span>
    <span class="n">numPartitions</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;numPartitions&quot;</span><span class="p">,</span>
                          <span class="s">&quot;number of partitions for sentences of words&quot;</span><span class="p">)</span>
    <span class="n">minCount</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minCount&quot;</span><span class="p">,</span>
                     <span class="s">&quot;the minimum number of times a token must appear to be included in the &quot;</span> <span class="o">+</span>
                     <span class="s">&quot;word2vec model&#39;s vocabulary&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                 <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, vectorSize=100, minCount=5, numPartitions=1, stepSize=0.025, maxIter=1, \</span>
<span class="sd">                 seed=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Word2Vec</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Word2Vec&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;vectorSize&quot;</span><span class="p">,</span>
                                <span class="s">&quot;the dimension of codes after transforming from words&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;numPartitions&quot;</span><span class="p">,</span>
                                   <span class="s">&quot;number of partitions for sentences of words&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minCount</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minCount&quot;</span><span class="p">,</span>
                              <span class="s">&quot;the minimum number of times a token must appear to be included &quot;</span> <span class="o">+</span>
                              <span class="s">&quot;in the word2vec model&#39;s vocabulary&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                         <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Word2Vec.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                  <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minCount=5, numPartitions=1, stepSize=0.025, maxIter=1, seed=None, \</span>
<span class="sd">                 inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Word2Vec.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setVectorSize"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setVectorSize">[docs]</a>    <span class="k">def</span> <span class="nf">setVectorSize</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`vectorSize`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getVectorSize"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getVectorSize">[docs]</a>    <span class="k">def</span> <span class="nf">getVectorSize</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of vectorSize or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setNumPartitions"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setNumPartitions">[docs]</a>    <span class="k">def</span> <span class="nf">setNumPartitions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`numPartitions`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getNumPartitions"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getNumPartitions">[docs]</a>    <span class="k">def</span> <span class="nf">getNumPartitions</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of numPartitions or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setMinCount"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setMinCount">[docs]</a>    <span class="k">def</span> <span class="nf">setMinCount</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minCount`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minCount</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getMinCount"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getMinCount">[docs]</a>    <span class="k">def</span> <span class="nf">getMinCount</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minCount or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minCount</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">Word2VecModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="Word2VecModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel">[docs]</a><span class="k">class</span> <span class="nc">Word2VecModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by Word2Vec.</span>
<span class="sd">    &quot;&quot;&quot;</span>

<div class="viewcode-block" id="Word2VecModel.getVectors"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel.getVectors">[docs]</a>    <span class="k">def</span> <span class="nf">getVectors</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Returns the vector representation of the words as a dataframe</span>
<span class="sd">        with two fields, word and vector.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;getVectors&quot;</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2VecModel.findSynonyms"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel.findSynonyms">[docs]</a>    <span class="k">def</span> <span class="nf">findSynonyms</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">num</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Find &quot;num&quot; number of words closest in similarity to &quot;word&quot;.</span>
<span class="sd">        word can be a string or vector representation.</span>
<span class="sd">        Returns a dataframe with two fields word and similarity (which</span>
<span class="sd">        gives the cosine similarity).</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="nb">basestring</span><span class="p">):</span>
            <span class="n">word</span> <span class="o">=</span> <span class="n">_convert_to_vector</span><span class="p">(</span><span class="n">word</span><span class="p">)</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;findSynonyms&quot;</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">num</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="PCA"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA">[docs]</a><span class="k">class</span> <span class="nc">PCA</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    PCA trains a model to project vectors to a low-dimensional space using PCA.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; data = [(Vectors.sparse(5, [(1, 1.0), (3, 7.0)]),),</span>
<span class="sd">    ...     (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),</span>
<span class="sd">    ...     (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame(data,[&quot;features&quot;])</span>
<span class="sd">    &gt;&gt;&gt; pca = PCA(k=2, inputCol=&quot;features&quot;, outputCol=&quot;pca_features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = pca.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).collect()[0].pca_features</span>
<span class="sd">    DenseVector([1.648..., -4.013...])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">k</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;k&quot;</span><span class="p">,</span> <span class="s">&quot;the number of principal components&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, k=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">PCA</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.PCA&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;k&quot;</span><span class="p">,</span> <span class="s">&quot;the number of principal components&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="PCA.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, k=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Set params for this PCA.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="PCA.setK"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.setK">[docs]</a>    <span class="k">def</span> <span class="nf">setK</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`k`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="PCA.getK"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.getK">[docs]</a>    <span class="k">def</span> <span class="nf">getK</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of k or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">PCAModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="PCAModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCAModel">[docs]</a><span class="k">class</span> <span class="nc">PCAModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by PCA.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="RFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula">[docs]</a><span class="k">class</span> <span class="nc">RFormula</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasFeaturesCol</span><span class="p">,</span> <span class="n">HasLabelCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    .. note:: Experimental</span>

<span class="sd">    Implements the transforms required for fitting a dataset against an</span>
<span class="sd">    R model formula. Currently we support a limited subset of the R</span>
<span class="sd">    operators, including &#39;~&#39;, &#39;+&#39;, &#39;-&#39;, and &#39;.&#39;. Also see the R formula</span>
<span class="sd">    docs:</span>
<span class="sd">    http://stat.ethz.ch/R-manual/R-patched/library/stats/html/formula.html</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([</span>
<span class="sd">    ...     (1.0, 1.0, &quot;a&quot;),</span>
<span class="sd">    ...     (0.0, 2.0, &quot;b&quot;),</span>
<span class="sd">    ...     (0.0, 0.0, &quot;a&quot;)</span>
<span class="sd">    ... ], [&quot;y&quot;, &quot;x&quot;, &quot;s&quot;])</span>
<span class="sd">    &gt;&gt;&gt; rf = RFormula(formula=&quot;y ~ x + s&quot;)</span>
<span class="sd">    &gt;&gt;&gt; rf.fit(df).transform(df).show()</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    |  y|  x|  s| features|label|</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    |1.0|1.0|  a|[1.0,1.0]|  1.0|</span>
<span class="sd">    |0.0|2.0|  b|[2.0,0.0]|  0.0|</span>
<span class="sd">    |0.0|0.0|  a|[0.0,1.0]|  0.0|</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; rf.fit(df, {rf.formula: &quot;y ~ . - s&quot;}).transform(df).show()</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    |  y|  x|  s|features|label|</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    |1.0|1.0|  a|   [1.0]|  1.0|</span>
<span class="sd">    |0.0|2.0|  b|   [2.0]|  0.0|</span>
<span class="sd">    |0.0|0.0|  a|   [0.0]|  0.0|</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    ...</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">formula</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;formula&quot;</span><span class="p">,</span> <span class="s">&quot;R model formula&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">formula</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">featuresCol</span><span class="o">=</span><span class="s">&quot;features&quot;</span><span class="p">,</span> <span class="n">labelCol</span><span class="o">=</span><span class="s">&quot;label&quot;</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, formula=None, featuresCol=&quot;features&quot;, labelCol=&quot;label&quot;)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">RFormula</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.RFormula&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">formula</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;formula&quot;</span><span class="p">,</span> <span class="s">&quot;R model formula&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="RFormula.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">formula</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">featuresCol</span><span class="o">=</span><span class="s">&quot;features&quot;</span><span class="p">,</span> <span class="n">labelCol</span><span class="o">=</span><span class="s">&quot;label&quot;</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, formula=None, featuresCol=&quot;features&quot;, labelCol=&quot;label&quot;)</span>
<span class="sd">        Sets params for RFormula.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RFormula.setFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.setFormula">[docs]</a>    <span class="k">def</span> <span class="nf">setFormula</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`formula`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">formula</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RFormula.getFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.getFormula">[docs]</a>    <span class="k">def</span> <span class="nf">getFormula</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of :py:attr:`formula`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">formula</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">RFormulaModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="RFormulaModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormulaModel">[docs]</a><span class="k">class</span> <span class="nc">RFormulaModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by :py:class:`RFormula`.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="k">if</span> <span class="n">__name__</span> <span class="o">==</span> <span class="s">&quot;__main__&quot;</span><span class="p">:</span>
    <span class="kn">import</span> <span class="nn">doctest</span>
    <span class="kn">from</span> <span class="nn">pyspark.context</span> <span class="kn">import</span> <span class="n">SparkContext</span>
    <span class="kn">from</span> <span class="nn">pyspark.sql</span> <span class="kn">import</span> <span class="n">Row</span><span class="p">,</span> <span class="n">SQLContext</span>
    <span class="n">globs</span> <span class="o">=</span> <span class="nb">globals</span><span class="p">()</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
    <span class="c"># The small batch size here ensures that we see multiple batches,</span>
    <span class="c"># even in these small test examples:</span>
    <span class="n">sc</span> <span class="o">=</span> <span class="n">SparkContext</span><span class="p">(</span><span class="s">&quot;local[2]&quot;</span><span class="p">,</span> <span class="s">&quot;ml.feature tests&quot;</span><span class="p">)</span>
    <span class="n">sqlContext</span> <span class="o">=</span> <span class="n">SQLContext</span><span class="p">(</span><span class="n">sc</span><span class="p">)</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;sc&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sc</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;sqlContext&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sqlContext</span>
    <span class="n">testData</span> <span class="o">=</span> <span class="n">sc</span><span class="o">.</span><span class="n">parallelize</span><span class="p">([</span><span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;b&quot;</span><span class="p">),</span>
                               <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;c&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">3</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span>
                               <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;c&quot;</span><span class="p">)],</span> <span class="mi">2</span><span class="p">)</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;stringIndDf&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sqlContext</span><span class="o">.</span><span class="n">createDataFrame</span><span class="p">(</span><span class="n">testData</span><span class="p">)</span>
    <span class="p">(</span><span class="n">failure_count</span><span class="p">,</span> <span class="n">test_count</span><span class="p">)</span> <span class="o">=</span> <span class="n">doctest</span><span class="o">.</span><span class="n">testmod</span><span class="p">(</span><span class="n">globs</span><span class="o">=</span><span class="n">globs</span><span class="p">,</span> <span class="n">optionflags</span><span class="o">=</span><span class="n">doctest</span><span class="o">.</span><span class="n">ELLIPSIS</span><span class="p">)</span>
    <span class="n">sc</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
    <span class="k">if</span> <span class="n">failure_count</span><span class="p">:</span>
        <span class="nb">exit</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
</pre></div>

          </div>
        </div>
      </div>
      <div class="sphinxsidebar" role="navigation" aria-label="main navigation">
        <div class="sphinxsidebarwrapper">
            <p class="logo"><a href="../../../index.html">
              <img class="logo" src="../../../_static/spark-logo-hd.png" alt="Logo"/>
            </a></p>
<div id="searchbox" style="display: none" role="search">
  <h3>Quick search</h3>
    <form class="search" action="../../../search.html" method="get">
      <input type="text" name="q" />
      <input type="submit" value="Go" />
      <input type="hidden" name="check_keywords" value="yes" />
      <input type="hidden" name="area" value="default" />
    </form>
    <p class="searchtip" style="font-size: 90%">
    Enter search terms or a module, class or function name.
    </p>
</div>
<script type="text/javascript">$('#searchbox').show(0);</script>
        </div>
      </div>
      <div class="clearer"></div>
    </div>
    <div class="related" role="navigation" aria-label="related navigation">
      <h3>Navigation</h3>
      <ul>
        <li class="nav-item nav-item-0"><a href="../../../index.html">PySpark 1.5.0 documentation</a> &raquo;</li>
          <li class="nav-item nav-item-1"><a href="../../index.html" >Module code</a> &raquo;</li> 
      </ul>
    </div>
    <div class="footer" role="contentinfo">
        &copy; Copyright .
      Created using <a href="http://sphinx-doc.org/">Sphinx</a> 1.3.1.
    </div>
  </body>
</html>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">


<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    
    <title>pyspark.ml.feature &mdash; PySpark 1.5.0 documentation</title>
    
    <link rel="stylesheet" href="../../../_static/nature.css" type="text/css" />
    <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
    
    <script type="text/javascript">
      var DOCUMENTATION_OPTIONS = {
        URL_ROOT:    '../../../',
        VERSION:     '1.5.0',
        COLLAPSE_INDEX: false,
        FILE_SUFFIX: '.html',
        HAS_SOURCE:  true
      };
    </script>
    <script type="text/javascript" src="../../../_static/jquery.js"></script>
    <script type="text/javascript" src="../../../_static/underscore.js"></script>
    <script type="text/javascript" src="../../../_static/doctools.js"></script>
    <link rel="top" title="PySpark 1.5.0 documentation" href="../../../index.html" />
    <link rel="up" title="Module code" href="../../index.html" /> 
  </head>
  <body role="document">
    <div class="related" role="navigation" aria-label="related navigation">
      <h3>Navigation</h3>
      <ul>
        <li class="nav-item nav-item-0"><a href="../../../index.html">PySpark 1.5.0 documentation</a> &raquo;</li>
          <li class="nav-item nav-item-1"><a href="../../index.html" accesskey="U">Module code</a> &raquo;</li> 
      </ul>
    </div>  

    <div class="document">
      <div class="documentwrapper">
        <div class="bodywrapper">
          <div class="body" role="main">
            
  <h1>Source code for pyspark.ml.feature</h1><div class="highlight"><pre>
<span class="c">#</span>
<span class="c"># Licensed to the Apache Software Foundation (ASF) under one or more</span>
<span class="c"># contributor license agreements.  See the NOTICE file distributed with</span>
<span class="c"># this work for additional information regarding copyright ownership.</span>
<span class="c"># The ASF licenses this file to You under the Apache License, Version 2.0</span>
<span class="c"># (the &quot;License&quot;); you may not use this file except in compliance with</span>
<span class="c"># the License.  You may obtain a copy of the License at</span>
<span class="c">#</span>
<span class="c">#    http://www.apache.org/licenses/LICENSE-2.0</span>
<span class="c">#</span>
<span class="c"># Unless required by applicable law or agreed to in writing, software</span>
<span class="c"># distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
<span class="c"># WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
<span class="c"># See the License for the specific language governing permissions and</span>
<span class="c"># limitations under the License.</span>
<span class="c">#</span>

<span class="kn">import</span> <span class="nn">sys</span>
<span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">version</span> <span class="o">&gt;</span> <span class="s">&#39;3&#39;</span><span class="p">:</span>
    <span class="nb">basestring</span> <span class="o">=</span> <span class="nb">str</span>

<span class="kn">from</span> <span class="nn">pyspark.rdd</span> <span class="kn">import</span> <span class="n">ignore_unicode_prefix</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.param.shared</span> <span class="kn">import</span> <span class="o">*</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.util</span> <span class="kn">import</span> <span class="n">keyword_only</span>
<span class="kn">from</span> <span class="nn">pyspark.ml.wrapper</span> <span class="kn">import</span> <span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">JavaModel</span><span class="p">,</span> <span class="n">JavaTransformer</span>
<span class="kn">from</span> <span class="nn">pyspark.mllib.common</span> <span class="kn">import</span> <span class="n">inherit_doc</span>
<span class="kn">from</span> <span class="nn">pyspark.mllib.linalg</span> <span class="kn">import</span> <span class="n">_convert_to_vector</span>

<span class="n">__all__</span> <span class="o">=</span> <span class="p">[</span><span class="s">&#39;Binarizer&#39;</span><span class="p">,</span> <span class="s">&#39;Bucketizer&#39;</span><span class="p">,</span> <span class="s">&#39;ElementwiseProduct&#39;</span><span class="p">,</span> <span class="s">&#39;HashingTF&#39;</span><span class="p">,</span> <span class="s">&#39;IDF&#39;</span><span class="p">,</span> <span class="s">&#39;IDFModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;NGram&#39;</span><span class="p">,</span> <span class="s">&#39;Normalizer&#39;</span><span class="p">,</span> <span class="s">&#39;OneHotEncoder&#39;</span><span class="p">,</span> <span class="s">&#39;PolynomialExpansion&#39;</span><span class="p">,</span> <span class="s">&#39;RegexTokenizer&#39;</span><span class="p">,</span>
           <span class="s">&#39;StandardScaler&#39;</span><span class="p">,</span> <span class="s">&#39;StandardScalerModel&#39;</span><span class="p">,</span> <span class="s">&#39;StringIndexer&#39;</span><span class="p">,</span> <span class="s">&#39;StringIndexerModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;Tokenizer&#39;</span><span class="p">,</span> <span class="s">&#39;VectorAssembler&#39;</span><span class="p">,</span> <span class="s">&#39;VectorIndexer&#39;</span><span class="p">,</span> <span class="s">&#39;Word2Vec&#39;</span><span class="p">,</span> <span class="s">&#39;Word2VecModel&#39;</span><span class="p">,</span>
           <span class="s">&#39;PCA&#39;</span><span class="p">,</span> <span class="s">&#39;PCAModel&#39;</span><span class="p">,</span> <span class="s">&#39;RFormula&#39;</span><span class="p">,</span> <span class="s">&#39;RFormulaModel&#39;</span><span class="p">]</span>


<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Binarizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer">[docs]</a><span class="k">class</span> <span class="nc">Binarizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Binarize a column of continuous features given a threshold.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(0.5,)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; binarizer = Binarizer(threshold=1.0, inputCol=&quot;values&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; binarizer.transform(df).head().features</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; binarizer.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; params = {binarizer.threshold: -0.5, binarizer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; binarizer.transform(df, params).head().vector</span>
<span class="sd">    1.0</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">threshold</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;threshold&quot;</span><span class="p">,</span>
                      <span class="s">&quot;threshold in binary classification prediction, in range [0, 1]&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, threshold=0.0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Binarizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Binarizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">threshold</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;threshold&quot;</span><span class="p">,</span>
                               <span class="s">&quot;threshold in binary classification prediction, in range [0, 1]&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Binarizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">threshold</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, threshold=0.0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Binarizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Binarizer.setThreshold"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.setThreshold">[docs]</a>    <span class="k">def</span> <span class="nf">setThreshold</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`threshold`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">threshold</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Binarizer.getThreshold"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Binarizer.getThreshold">[docs]</a>    <span class="k">def</span> <span class="nf">getThreshold</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of threshold or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">threshold</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Bucketizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer">[docs]</a><span class="k">class</span> <span class="nc">Bucketizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Maps a column of continuous features to a column of feature buckets.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(0.1,), (0.4,), (1.2,), (1.5,)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; bucketizer = Bucketizer(splits=[-float(&quot;inf&quot;), 0.5, 1.4, float(&quot;inf&quot;)],</span>
<span class="sd">    ...     inputCol=&quot;values&quot;, outputCol=&quot;buckets&quot;)</span>
<span class="sd">    &gt;&gt;&gt; bucketed = bucketizer.transform(df).collect()</span>
<span class="sd">    &gt;&gt;&gt; bucketed[0].buckets</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[1].buckets</span>
<span class="sd">    0.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[2].buckets</span>
<span class="sd">    1.0</span>
<span class="sd">    &gt;&gt;&gt; bucketed[3].buckets</span>
<span class="sd">    2.0</span>
<span class="sd">    &gt;&gt;&gt; bucketizer.setParams(outputCol=&quot;b&quot;).transform(df).head().b</span>
<span class="sd">    0.0</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">splits</span> <span class="o">=</span> \
        <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;splits&quot;</span><span class="p">,</span>
              <span class="s">&quot;Split points for mapping continuous features into buckets. With n+1 splits, &quot;</span> <span class="o">+</span>
              <span class="s">&quot;there are n buckets. A bucket defined by splits x,y holds values in the &quot;</span> <span class="o">+</span>
              <span class="s">&quot;range [x,y) except the last bucket, which also includes y. The splits &quot;</span> <span class="o">+</span>
              <span class="s">&quot;should be strictly increasing. Values at -inf, inf must be explicitly &quot;</span> <span class="o">+</span>
              <span class="s">&quot;provided to cover all Double values; otherwise, values outside the splits &quot;</span> <span class="o">+</span>
              <span class="s">&quot;specified will be treated as errors.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">splits</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, splits=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Bucketizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Bucketizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="c">#: param for Splitting points for mapping continuous features into buckets. With n+1 splits,</span>
        <span class="c">#  there are n buckets. A bucket defined by splits x,y holds values in the range [x,y)</span>
        <span class="c">#  except the last bucket, which also includes y. The splits should be strictly increasing.</span>
        <span class="c">#  Values at -inf, inf must be explicitly provided to cover all Double values; otherwise,</span>
        <span class="c">#  values outside the splits specified will be treated as errors.</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">splits</span> <span class="o">=</span> \
            <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;splits&quot;</span><span class="p">,</span>
                  <span class="s">&quot;Split points for mapping continuous features into buckets. With n+1 splits, &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;there are n buckets. A bucket defined by splits x,y holds values in the &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;range [x,y) except the last bucket, which also includes y. The splits &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;should be strictly increasing. Values at -inf, inf must be explicitly &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;provided to cover all Double values; otherwise, values outside the splits &quot;</span> <span class="o">+</span>
                  <span class="s">&quot;specified will be treated as errors.&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Bucketizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">splits</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, splits=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Bucketizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Bucketizer.setSplits"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.setSplits">[docs]</a>    <span class="k">def</span> <span class="nf">setSplits</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`splits`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">splits</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Bucketizer.getSplits"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Bucketizer.getSplits">[docs]</a>    <span class="k">def</span> <span class="nf">getSplits</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of threshold or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">splits</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="ElementwiseProduct"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct">[docs]</a><span class="k">class</span> <span class="nc">ElementwiseProduct</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Outputs the Hadamard product (i.e., the element-wise product) of each input vector</span>
<span class="sd">    with a provided &quot;weight&quot; vector. In other words, it scales each column of the dataset</span>
<span class="sd">    by a scalar multiplier.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([2.0, 1.0, 3.0]),)], [&quot;values&quot;])</span>
<span class="sd">    &gt;&gt;&gt; ep = ElementwiseProduct(scalingVec=Vectors.dense([1.0, 2.0, 3.0]),</span>
<span class="sd">    ...     inputCol=&quot;values&quot;, outputCol=&quot;eprod&quot;)</span>
<span class="sd">    &gt;&gt;&gt; ep.transform(df).head().eprod</span>
<span class="sd">    DenseVector([2.0, 2.0, 9.0])</span>
<span class="sd">    &gt;&gt;&gt; ep.setParams(scalingVec=Vectors.dense([2.0, 3.0, 5.0])).transform(df).head().eprod</span>
<span class="sd">    DenseVector([4.0, 3.0, 15.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">scalingVec</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;scalingVec&quot;</span><span class="p">,</span> <span class="s">&quot;vector for hadamard product, &quot;</span> <span class="o">+</span>
                       <span class="s">&quot;it must be MLlib Vector type.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">scalingVec</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, scalingVec=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">ElementwiseProduct</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.ElementwiseProduct&quot;</span><span class="p">,</span>
                                            <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;scalingVec&quot;</span><span class="p">,</span> <span class="s">&quot;vector for hadamard product, &quot;</span> <span class="o">+</span>
                                <span class="s">&quot;it must be MLlib Vector type.&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="ElementwiseProduct.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">scalingVec</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, scalingVec=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this ElementwiseProduct.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="ElementwiseProduct.setScalingVec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.setScalingVec">[docs]</a>    <span class="k">def</span> <span class="nf">setScalingVec</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`scalingVec`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="ElementwiseProduct.getScalingVec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.ElementwiseProduct.getScalingVec">[docs]</a>    <span class="k">def</span> <span class="nf">getScalingVec</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of scalingVec or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">scalingVec</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="HashingTF"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.HashingTF">[docs]</a><span class="k">class</span> <span class="nc">HashingTF</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">,</span> <span class="n">HasNumFeatures</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Maps a sequence of terms to their term frequencies using the</span>
<span class="sd">    hashing trick.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([([&quot;a&quot;, &quot;b&quot;, &quot;c&quot;],)], [&quot;words&quot;])</span>
<span class="sd">    &gt;&gt;&gt; hashingTF = HashingTF(numFeatures=10, inputCol=&quot;words&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.transform(df).head().features</span>
<span class="sd">    SparseVector(10, {7: 1.0, 8: 1.0, 9: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    SparseVector(10, {7: 1.0, 8: 1.0, 9: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; params = {hashingTF.numFeatures: 5, hashingTF.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; hashingTF.transform(df, params).head().vector</span>
<span class="sd">    SparseVector(5, {2: 1.0, 3: 1.0, 4: 1.0})</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, numFeatures=1 &lt;&lt; 18, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">HashingTF</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.HashingTF&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="HashingTF.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.HashingTF.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">numFeatures</span><span class="o">=</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">18</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, numFeatures=1 &lt;&lt; 18, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this HashingTF.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="IDF"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF">[docs]</a><span class="k">class</span> <span class="nc">IDF</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Compute the Inverse Document Frequency (IDF) given a collection of documents.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import DenseVector</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(DenseVector([1.0, 2.0]),),</span>
<span class="sd">    ...     (DenseVector([0.0, 1.0]),), (DenseVector([3.0, 0.2]),)], [&quot;tf&quot;])</span>
<span class="sd">    &gt;&gt;&gt; idf = IDF(minDocFreq=3, inputCol=&quot;tf&quot;, outputCol=&quot;idf&quot;)</span>
<span class="sd">    &gt;&gt;&gt; idf.fit(df).transform(df).head().idf</span>
<span class="sd">    DenseVector([0.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; idf.setParams(outputCol=&quot;freqs&quot;).fit(df).transform(df).collect()[1].freqs</span>
<span class="sd">    DenseVector([0.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {idf.minDocFreq: 1, idf.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; idf.fit(df, params).transform(df).head().vector</span>
<span class="sd">    DenseVector([0.2877, 0.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">minDocFreq</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minDocFreq&quot;</span><span class="p">,</span>
                       <span class="s">&quot;minimum of documents in which a term should appear for filtering&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, minDocFreq=0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">IDF</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.IDF&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minDocFreq&quot;</span><span class="p">,</span>
                                <span class="s">&quot;minimum of documents in which a term should appear for filtering&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="IDF.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minDocFreq</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minDocFreq=0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this IDF.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="IDF.setMinDocFreq"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.setMinDocFreq">[docs]</a>    <span class="k">def</span> <span class="nf">setMinDocFreq</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minDocFreq`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="IDF.getMinDocFreq"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDF.getMinDocFreq">[docs]</a>    <span class="k">def</span> <span class="nf">getMinDocFreq</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minDocFreq or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minDocFreq</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">IDFModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="IDFModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.IDFModel">[docs]</a><span class="k">class</span> <span class="nc">IDFModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by IDF.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="NGram"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram">[docs]</a><span class="k">class</span> <span class="nc">NGram</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A feature transformer that converts the input array of strings into an array of n-grams. Null</span>
<span class="sd">    values in the input array are ignored.</span>
<span class="sd">    It returns an array of n-grams where each n-gram is represented by a space-separated string of</span>
<span class="sd">    words.</span>
<span class="sd">    When the input is empty, an empty array is returned.</span>
<span class="sd">    When the input array length is less than n (number of elements per n-gram), no n-grams are</span>
<span class="sd">    returned.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([Row(inputTokens=[&quot;a&quot;, &quot;b&quot;, &quot;c&quot;, &quot;d&quot;, &quot;e&quot;])])</span>
<span class="sd">    &gt;&gt;&gt; ngram = NGram(n=2, inputCol=&quot;inputTokens&quot;, outputCol=&quot;nGrams&quot;)</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b&#39;, u&#39;b c&#39;, u&#39;c d&#39;, u&#39;d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change n-gram length</span>
<span class="sd">    &gt;&gt;&gt; ngram.setParams(n=4).transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify output column.</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df, {ngram.outputCol: &quot;output&quot;}).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], output=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; ngram.transform(df).head()</span>
<span class="sd">    Row(inputTokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;, u&#39;d&#39;, u&#39;e&#39;], nGrams=[u&#39;a b c d&#39;, u&#39;b c d e&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; ngram.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">n</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;n&quot;</span><span class="p">,</span> <span class="s">&quot;number of elements per n-gram (&gt;=1)&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, n=2, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">NGram</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.NGram&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;n&quot;</span><span class="p">,</span> <span class="s">&quot;number of elements per n-gram (&gt;=1)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="NGram.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, n=2, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this NGram.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="NGram.setN"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.setN">[docs]</a>    <span class="k">def</span> <span class="nf">setN</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`n`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="NGram.getN"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.NGram.getN">[docs]</a>    <span class="k">def</span> <span class="nf">getN</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of n or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="Normalizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer">[docs]</a><span class="k">class</span> <span class="nc">Normalizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">     Normalize a vector to have unit norm using the given p-norm.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; svec = Vectors.sparse(4, {1: 4.0, 3: 3.0})</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([3.0, -4.0]), svec)], [&quot;dense&quot;, &quot;sparse&quot;])</span>
<span class="sd">    &gt;&gt;&gt; normalizer = Normalizer(p=2.0, inputCol=&quot;dense&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; normalizer.transform(df).head().features</span>
<span class="sd">    DenseVector([0.6, -0.8])</span>
<span class="sd">    &gt;&gt;&gt; normalizer.setParams(inputCol=&quot;sparse&quot;, outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    SparseVector(4, {1: 0.8, 3: 0.6})</span>
<span class="sd">    &gt;&gt;&gt; params = {normalizer.p: 1.0, normalizer.inputCol: &quot;dense&quot;, normalizer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; normalizer.transform(df, params).head().vector</span>
<span class="sd">    DenseVector([0.4286, -0.5714])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">p</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;p&quot;</span><span class="p">,</span> <span class="s">&quot;the p norm value.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, p=2.0, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Normalizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Normalizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">p</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;p&quot;</span><span class="p">,</span> <span class="s">&quot;the p norm value.&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Normalizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="o">=</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, p=2.0, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Normalizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Normalizer.setP"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.setP">[docs]</a>    <span class="k">def</span> <span class="nf">setP</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`p`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">p</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Normalizer.getP"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Normalizer.getP">[docs]</a>    <span class="k">def</span> <span class="nf">getP</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of p or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">p</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="OneHotEncoder"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder">[docs]</a><span class="k">class</span> <span class="nc">OneHotEncoder</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A one-hot encoder that maps a column of category indices to a</span>
<span class="sd">    column of binary vectors, with at most a single one-value per row</span>
<span class="sd">    that indicates the input category index.</span>
<span class="sd">    For example with 5 categories, an input value of 2.0 would map to</span>
<span class="sd">    an output vector of `[0.0, 0.0, 1.0, 0.0]`.</span>
<span class="sd">    The last category is not included by default (configurable via</span>
<span class="sd">    :py:attr:`dropLast`) because it makes the vector entries sum up to</span>
<span class="sd">    one, and hence linearly dependent.</span>
<span class="sd">    So an input value of 4.0 maps to `[0.0, 0.0, 0.0, 0.0]`.</span>
<span class="sd">    Note that this is different from scikit-learn&#39;s OneHotEncoder,</span>
<span class="sd">    which keeps all categories.</span>
<span class="sd">    The output vectors are sparse.</span>

<span class="sd">    .. seealso::</span>

<span class="sd">       :py:class:`StringIndexer` for converting categorical values into</span>
<span class="sd">       category indices</span>

<span class="sd">    &gt;&gt;&gt; stringIndexer = StringIndexer(inputCol=&quot;label&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = stringIndexer.fit(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; td = model.transform(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; encoder = OneHotEncoder(inputCol=&quot;indexed&quot;, outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; encoder.transform(td).head().features</span>
<span class="sd">    SparseVector(2, {0: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; encoder.setParams(outputCol=&quot;freqs&quot;).transform(td).head().freqs</span>
<span class="sd">    SparseVector(2, {0: 1.0})</span>
<span class="sd">    &gt;&gt;&gt; params = {encoder.dropLast: False, encoder.outputCol: &quot;test&quot;}</span>
<span class="sd">    &gt;&gt;&gt; encoder.transform(td, params).head().test</span>
<span class="sd">    SparseVector(3, {0: 1.0})</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">dropLast</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;dropLast&quot;</span><span class="p">,</span> <span class="s">&quot;whether to drop the last category&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, includeFirst=True, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">OneHotEncoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.OneHotEncoder&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;dropLast&quot;</span><span class="p">,</span> <span class="s">&quot;whether to drop the last category&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="OneHotEncoder.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dropLast</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, dropLast=True, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this OneHotEncoder.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="OneHotEncoder.setDropLast"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.setDropLast">[docs]</a>    <span class="k">def</span> <span class="nf">setDropLast</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`dropLast`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="OneHotEncoder.getDropLast"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.OneHotEncoder.getDropLast">[docs]</a>    <span class="k">def</span> <span class="nf">getDropLast</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of dropLast or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dropLast</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="PolynomialExpansion"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion">[docs]</a><span class="k">class</span> <span class="nc">PolynomialExpansion</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Perform feature expansion in a polynomial space. As said in wikipedia of Polynomial Expansion,</span>
<span class="sd">    which is available at `http://en.wikipedia.org/wiki/Polynomial_expansion`, &quot;In mathematics, an</span>
<span class="sd">    expansion of a product of sums expresses it as a sum of products by using the fact that</span>
<span class="sd">    multiplication distributes over addition&quot;. Take a 2-variable feature vector as an example:</span>
<span class="sd">    `(x, y)`, if we want to expand it with degree 2, then we get `(x, x * x, y, x * y, y * y)`.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([0.5, 2.0]),)], [&quot;dense&quot;])</span>
<span class="sd">    &gt;&gt;&gt; px = PolynomialExpansion(degree=2, inputCol=&quot;dense&quot;, outputCol=&quot;expanded&quot;)</span>
<span class="sd">    &gt;&gt;&gt; px.transform(df).head().expanded</span>
<span class="sd">    DenseVector([0.5, 0.25, 2.0, 1.0, 4.0])</span>
<span class="sd">    &gt;&gt;&gt; px.setParams(outputCol=&quot;test&quot;).transform(df).head().test</span>
<span class="sd">    DenseVector([0.5, 0.25, 2.0, 1.0, 4.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">degree</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;degree&quot;</span><span class="p">,</span> <span class="s">&quot;the polynomial degree to expand (&gt;= 1)&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, degree=2, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">PolynomialExpansion</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span>
            <span class="s">&quot;org.apache.spark.ml.feature.PolynomialExpansion&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">degree</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;degree&quot;</span><span class="p">,</span> <span class="s">&quot;the polynomial degree to expand (&gt;= 1)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="PolynomialExpansion.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">degree</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, degree=2, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this PolynomialExpansion.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="PolynomialExpansion.setDegree"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.setDegree">[docs]</a>    <span class="k">def</span> <span class="nf">setDegree</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`degree`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">degree</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="PolynomialExpansion.getDegree"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PolynomialExpansion.getDegree">[docs]</a>    <span class="k">def</span> <span class="nf">getDegree</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of degree or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">degree</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="RegexTokenizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer">[docs]</a><span class="k">class</span> <span class="nc">RegexTokenizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A regex based tokenizer that extracts tokens either by using the</span>
<span class="sd">    provided regex pattern (in Java dialect) to split the text</span>
<span class="sd">    (default) or repeatedly matching the regex (if gaps is false).</span>
<span class="sd">    Optional parameters also allow filtering tokens using a minimal</span>
<span class="sd">    length.</span>
<span class="sd">    It returns an array of strings that can be empty.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(&quot;a b  c&quot;,)], [&quot;text&quot;])</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer = RegexTokenizer(inputCol=&quot;text&quot;, outputCol=&quot;words&quot;)</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change a parameter.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.setParams(outputCol=&quot;tokens&quot;).transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify a parameter.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df, {reTokenizer.outputCol: &quot;words&quot;}).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b  c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; reTokenizer.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">minTokenLength</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minTokenLength&quot;</span><span class="p">,</span> <span class="s">&quot;minimum token length (&gt;= 0)&quot;</span><span class="p">)</span>
    <span class="n">gaps</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;gaps&quot;</span><span class="p">,</span> <span class="s">&quot;whether regex splits on gaps (True) or matches tokens&quot;</span><span class="p">)</span>
    <span class="n">pattern</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;pattern&quot;</span><span class="p">,</span> <span class="s">&quot;regex pattern (Java dialect) used for tokenizing&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, minTokenLength=1, gaps=True, pattern=&quot;\\s+&quot;, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">RegexTokenizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.RegexTokenizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minTokenLength&quot;</span><span class="p">,</span> <span class="s">&quot;minimum token length (&gt;= 0)&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">gaps</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;gaps&quot;</span><span class="p">,</span> <span class="s">&quot;whether regex splits on gaps (True) or matches tokens&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;pattern&quot;</span><span class="p">,</span> <span class="s">&quot;regex pattern (Java dialect) used for tokenizing&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="RegexTokenizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">minTokenLength</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">gaps</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">pattern</span><span class="o">=</span><span class="s">&quot;</span><span class="se">\\</span><span class="s">s+&quot;</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minTokenLength=1, gaps=True, pattern=&quot;\\s+&quot;, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this RegexTokenizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setMinTokenLength"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setMinTokenLength">[docs]</a>    <span class="k">def</span> <span class="nf">setMinTokenLength</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minTokenLength`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getMinTokenLength"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getMinTokenLength">[docs]</a>    <span class="k">def</span> <span class="nf">getMinTokenLength</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minTokenLength or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minTokenLength</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setGaps"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setGaps">[docs]</a>    <span class="k">def</span> <span class="nf">setGaps</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`gaps`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">gaps</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getGaps"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getGaps">[docs]</a>    <span class="k">def</span> <span class="nf">getGaps</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of gaps or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gaps</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.setPattern"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.setPattern">[docs]</a>    <span class="k">def</span> <span class="nf">setPattern</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`pattern`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RegexTokenizer.getPattern"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RegexTokenizer.getPattern">[docs]</a>    <span class="k">def</span> <span class="nf">getPattern</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of pattern or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="StandardScaler"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler">[docs]</a><span class="k">class</span> <span class="nc">StandardScaler</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Standardizes features by removing the mean and scaling to unit variance using column summary</span>
<span class="sd">    statistics on the samples in the training set.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], [&quot;a&quot;])</span>
<span class="sd">    &gt;&gt;&gt; standardScaler = StandardScaler(inputCol=&quot;a&quot;, outputCol=&quot;scaled&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = standardScaler.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.mean</span>
<span class="sd">    DenseVector([1.0])</span>
<span class="sd">    &gt;&gt;&gt; model.std</span>
<span class="sd">    DenseVector([1.4142])</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).collect()[1].scaled</span>
<span class="sd">    DenseVector([1.4142])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">withMean</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;withMean&quot;</span><span class="p">,</span> <span class="s">&quot;Center data with mean&quot;</span><span class="p">)</span>
    <span class="n">withStd</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;withStd&quot;</span><span class="p">,</span> <span class="s">&quot;Scale to unit standard deviation&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, withMean=False, withStd=True, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">StandardScaler</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.StandardScaler&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">withMean</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;withMean&quot;</span><span class="p">,</span> <span class="s">&quot;Center data with mean&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">withStd</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;withStd&quot;</span><span class="p">,</span> <span class="s">&quot;Scale to unit standard deviation&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="StandardScaler.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">withMean</span><span class="o">=</span><span class="bp">False</span><span class="p">,</span> <span class="n">withStd</span><span class="o">=</span><span class="bp">True</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, withMean=False, withStd=True, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this StandardScaler.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="StandardScaler.setWithMean"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setWithMean">[docs]</a>    <span class="k">def</span> <span class="nf">setWithMean</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`withMean`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">withMean</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="StandardScaler.getWithMean"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.getWithMean">[docs]</a>    <span class="k">def</span> <span class="nf">getWithMean</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of withMean or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">withMean</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="StandardScaler.setWithStd"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.setWithStd">[docs]</a>    <span class="k">def</span> <span class="nf">setWithStd</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`withStd`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">withStd</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="StandardScaler.getWithStd"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScaler.getWithStd">[docs]</a>    <span class="k">def</span> <span class="nf">getWithStd</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of withStd or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">withStd</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">StandardScalerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="StandardScalerModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StandardScalerModel">[docs]</a><span class="k">class</span> <span class="nc">StandardScalerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by StandardScaler.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@property</span>
    <span class="k">def</span> <span class="nf">std</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Standard deviation of the StandardScalerModel.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;std&quot;</span><span class="p">)</span>

    <span class="nd">@property</span>
    <span class="k">def</span> <span class="nf">mean</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Mean of the StandardScalerModel.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;mean&quot;</span><span class="p">)</span>

</div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="StringIndexer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexer">[docs]</a><span class="k">class</span> <span class="nc">StringIndexer</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A label indexer that maps a string column of labels to an ML column of label indices.</span>
<span class="sd">    If the input column is numeric, we cast it to string and index the string values.</span>
<span class="sd">    The indices are in [0, numLabels), ordered by label frequencies.</span>
<span class="sd">    So the most frequent label gets index 0.</span>

<span class="sd">    &gt;&gt;&gt; stringIndexer = StringIndexer(inputCol=&quot;label&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = stringIndexer.fit(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; td = model.transform(stringIndDf)</span>
<span class="sd">    &gt;&gt;&gt; sorted(set([(i[0], i[1]) for i in td.select(td.id, td.indexed).collect()]),</span>
<span class="sd">    ...     key=lambda x: x[0])</span>
<span class="sd">    [(0, 0.0), (1, 2.0), (2, 1.0), (3, 0.0), (4, 0.0), (5, 1.0)]</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">StringIndexer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.StringIndexer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="StringIndexer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this StringIndexer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">StringIndexerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="StringIndexerModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.StringIndexerModel">[docs]</a><span class="k">class</span> <span class="nc">StringIndexerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by StringIndexer.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="Tokenizer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Tokenizer">[docs]</a><span class="k">class</span> <span class="nc">Tokenizer</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A tokenizer that converts the input string to lowercase and then</span>
<span class="sd">    splits it by white spaces.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(&quot;a b c&quot;,)], [&quot;text&quot;])</span>
<span class="sd">    &gt;&gt;&gt; tokenizer = Tokenizer(inputCol=&quot;text&quot;, outputCol=&quot;words&quot;)</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Change a parameter.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.setParams(outputCol=&quot;tokens&quot;).transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Temporarily modify a parameter.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df, {tokenizer.outputCol: &quot;words&quot;}).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, words=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.transform(df).head()</span>
<span class="sd">    Row(text=u&#39;a b c&#39;, tokens=[u&#39;a&#39;, u&#39;b&#39;, u&#39;c&#39;])</span>
<span class="sd">    &gt;&gt;&gt; # Must use keyword arguments to specify params.</span>
<span class="sd">    &gt;&gt;&gt; tokenizer.setParams(&quot;text&quot;)</span>
<span class="sd">    Traceback (most recent call last):</span>
<span class="sd">        ...</span>
<span class="sd">    TypeError: Method setParams forces keyword arguments.</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Tokenizer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Tokenizer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Tokenizer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Tokenizer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCol=&quot;input&quot;, outputCol=&quot;output&quot;)</span>
<span class="sd">        Sets params for this Tokenizer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="VectorAssembler"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorAssembler">[docs]</a><span class="k">class</span> <span class="nc">VectorAssembler</span><span class="p">(</span><span class="n">JavaTransformer</span><span class="p">,</span> <span class="n">HasInputCols</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    A feature transformer that merges multiple columns into a vector column.</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(1, 0, 3)], [&quot;a&quot;, &quot;b&quot;, &quot;c&quot;])</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler = VectorAssembler(inputCols=[&quot;a&quot;, &quot;b&quot;, &quot;c&quot;], outputCol=&quot;features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.transform(df).head().features</span>
<span class="sd">    DenseVector([1.0, 0.0, 3.0])</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.setParams(outputCol=&quot;freqs&quot;).transform(df).head().freqs</span>
<span class="sd">    DenseVector([1.0, 0.0, 3.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {vecAssembler.inputCols: [&quot;b&quot;, &quot;a&quot;], vecAssembler.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; vecAssembler.transform(df, params).head().vector</span>
<span class="sd">    DenseVector([0.0, 1.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCols</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, inputCols=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">VectorAssembler</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.VectorAssembler&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="VectorAssembler.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorAssembler.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputCols</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, inputCols=None, outputCol=None)</span>
<span class="sd">        Sets params for this VectorAssembler.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="VectorIndexer"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer">[docs]</a><span class="k">class</span> <span class="nc">VectorIndexer</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Class for indexing categorical feature columns in a dataset of [[Vector]].</span>

<span class="sd">    This has 2 usage modes:</span>
<span class="sd">      - Automatically identify categorical features (default behavior)</span>
<span class="sd">         - This helps process a dataset of unknown vectors into a dataset with some continuous</span>
<span class="sd">           features and some categorical features. The choice between continuous and categorical</span>
<span class="sd">           is based upon a maxCategories parameter.</span>
<span class="sd">         - Set maxCategories to the maximum number of categorical any categorical feature should</span>
<span class="sd">           have.</span>
<span class="sd">         - E.g.: Feature 0 has unique values {-1.0, 0.0}, and feature 1 values {1.0, 3.0, 5.0}.</span>
<span class="sd">           If maxCategories = 2, then feature 0 will be declared categorical and use indices {0, 1},</span>
<span class="sd">           and feature 1 will be declared continuous.</span>
<span class="sd">      - Index all features, if all features are categorical</span>
<span class="sd">         - If maxCategories is set to be very large, then this will build an index of unique</span>
<span class="sd">           values for all features.</span>
<span class="sd">         - Warning: This can cause problems if features are continuous since this will collect ALL</span>
<span class="sd">           unique values to the driver.</span>
<span class="sd">         - E.g.: Feature 0 has unique values {-1.0, 0.0}, and feature 1 values {1.0, 3.0, 5.0}.</span>
<span class="sd">           If maxCategories &gt;= 3, then both features will be declared categorical.</span>

<span class="sd">     This returns a model which can transform categorical features to use 0-based indices.</span>

<span class="sd">    Index stability:</span>
<span class="sd">      - This is not guaranteed to choose the same category index across multiple runs.</span>
<span class="sd">      - If a categorical feature includes value 0, then this is guaranteed to map value 0 to</span>
<span class="sd">        index 0. This maintains vector sparsity.</span>
<span class="sd">      - More stability may be added in the future.</span>

<span class="sd">     TODO: Future extensions: The following functionality is planned for the future:</span>
<span class="sd">      - Preserve metadata in transform; if a feature&#39;s metadata is already present,</span>
<span class="sd">        do not recompute.</span>
<span class="sd">      - Specify certain features to not index, either via a parameter or via existing metadata.</span>
<span class="sd">      - Add warning if a categorical feature has only 1 category.</span>
<span class="sd">      - Add option for allowing unknown categories.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([(Vectors.dense([-1.0, 0.0]),),</span>
<span class="sd">    ...     (Vectors.dense([0.0, 1.0]),), (Vectors.dense([0.0, 2.0]),)], [&quot;a&quot;])</span>
<span class="sd">    &gt;&gt;&gt; indexer = VectorIndexer(maxCategories=2, inputCol=&quot;a&quot;, outputCol=&quot;indexed&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = indexer.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).head().indexed</span>
<span class="sd">    DenseVector([1.0, 0.0])</span>
<span class="sd">    &gt;&gt;&gt; indexer.setParams(outputCol=&quot;test&quot;).fit(df).transform(df).collect()[1].test</span>
<span class="sd">    DenseVector([0.0, 1.0])</span>
<span class="sd">    &gt;&gt;&gt; params = {indexer.maxCategories: 3, indexer.outputCol: &quot;vector&quot;}</span>
<span class="sd">    &gt;&gt;&gt; model2 = indexer.fit(df, params)</span>
<span class="sd">    &gt;&gt;&gt; model2.transform(df).head().vector</span>
<span class="sd">    DenseVector([1.0, 0.0])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">maxCategories</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;maxCategories&quot;</span><span class="p">,</span>
                          <span class="s">&quot;Threshold for the number of values a categorical feature can take &quot;</span> <span class="o">+</span>
                          <span class="s">&quot;(&gt;= 2). If a feature is found to have &gt; maxCategories values, then &quot;</span> <span class="o">+</span>
                          <span class="s">&quot;it is declared continuous.&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, maxCategories=20, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">VectorIndexer</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.VectorIndexer&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;maxCategories&quot;</span><span class="p">,</span>
                                   <span class="s">&quot;Threshold for the number of values a categorical feature &quot;</span> <span class="o">+</span>
                                   <span class="s">&quot;can take (&gt;= 2). If a feature is found to have &quot;</span> <span class="o">+</span>
                                   <span class="s">&quot;&gt; maxCategories values, then it is declared continuous.&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="VectorIndexer.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">maxCategories</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, maxCategories=20, inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this VectorIndexer.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="VectorIndexer.setMaxCategories"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.setMaxCategories">[docs]</a>    <span class="k">def</span> <span class="nf">setMaxCategories</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`maxCategories`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="VectorIndexer.getMaxCategories"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.VectorIndexer.getMaxCategories">[docs]</a>    <span class="k">def</span> <span class="nf">getMaxCategories</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of maxCategories or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">maxCategories</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">VectorIndexerModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<span class="k">class</span> <span class="nc">VectorIndexerModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by VectorIndexer.</span>
<span class="sd">    &quot;&quot;&quot;</span>


<span class="nd">@inherit_doc</span>
<span class="nd">@ignore_unicode_prefix</span>
<div class="viewcode-block" id="Word2Vec"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec">[docs]</a><span class="k">class</span> <span class="nc">Word2Vec</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasStepSize</span><span class="p">,</span> <span class="n">HasMaxIter</span><span class="p">,</span> <span class="n">HasSeed</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Word2Vec trains a model of `Map(String, Vector)`, i.e. transforms a word into a code for further</span>
<span class="sd">    natural language processing or machine learning process.</span>

<span class="sd">    &gt;&gt;&gt; sent = (&quot;a b &quot; * 100 + &quot;a c &quot; * 10).split(&quot; &quot;)</span>
<span class="sd">    &gt;&gt;&gt; doc = sqlContext.createDataFrame([(sent,), (sent,)], [&quot;sentence&quot;])</span>
<span class="sd">    &gt;&gt;&gt; model = Word2Vec(vectorSize=5, seed=42, inputCol=&quot;sentence&quot;, outputCol=&quot;model&quot;).fit(doc)</span>
<span class="sd">    &gt;&gt;&gt; model.getVectors().show()</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    |word|              vector|</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    |   a|[-0.3511952459812...|</span>
<span class="sd">    |   b|[0.29077222943305...|</span>
<span class="sd">    |   c|[0.02315592765808...|</span>
<span class="sd">    +----+--------------------+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; model.findSynonyms(&quot;a&quot;, 2).show()</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    |word|         similarity|</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    |   b|0.29255685145799626|</span>
<span class="sd">    |   c|-0.5414068302988307|</span>
<span class="sd">    +----+-------------------+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; model.transform(doc).head().model</span>
<span class="sd">    DenseVector([-0.0422, -0.5138, -0.2546, 0.6885, 0.276])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">vectorSize</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;vectorSize&quot;</span><span class="p">,</span>
                       <span class="s">&quot;the dimension of codes after transforming from words&quot;</span><span class="p">)</span>
    <span class="n">numPartitions</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;numPartitions&quot;</span><span class="p">,</span>
                          <span class="s">&quot;number of partitions for sentences of words&quot;</span><span class="p">)</span>
    <span class="n">minCount</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;minCount&quot;</span><span class="p">,</span>
                     <span class="s">&quot;the minimum number of times a token must appear to be included in the &quot;</span> <span class="o">+</span>
                     <span class="s">&quot;word2vec model&#39;s vocabulary&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                 <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, vectorSize=100, minCount=5, numPartitions=1, stepSize=0.025, maxIter=1, \</span>
<span class="sd">                 seed=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">Word2Vec</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.Word2Vec&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;vectorSize&quot;</span><span class="p">,</span>
                                <span class="s">&quot;the dimension of codes after transforming from words&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;numPartitions&quot;</span><span class="p">,</span>
                                   <span class="s">&quot;number of partitions for sentences of words&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">minCount</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;minCount&quot;</span><span class="p">,</span>
                              <span class="s">&quot;the minimum number of times a token must appear to be included &quot;</span> <span class="o">+</span>
                              <span class="s">&quot;in the word2vec model&#39;s vocabulary&quot;</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_setDefault</span><span class="p">(</span><span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                         <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="Word2Vec.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vectorSize</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">minCount</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">numPartitions</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">stepSize</span><span class="o">=</span><span class="mf">0.025</span><span class="p">,</span> <span class="n">maxIter</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
                  <span class="n">seed</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, minCount=5, numPartitions=1, stepSize=0.025, maxIter=1, seed=None, \</span>
<span class="sd">                 inputCol=None, outputCol=None)</span>
<span class="sd">        Sets params for this Word2Vec.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setVectorSize"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setVectorSize">[docs]</a>    <span class="k">def</span> <span class="nf">setVectorSize</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`vectorSize`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getVectorSize"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getVectorSize">[docs]</a>    <span class="k">def</span> <span class="nf">getVectorSize</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of vectorSize or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vectorSize</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setNumPartitions"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setNumPartitions">[docs]</a>    <span class="k">def</span> <span class="nf">setNumPartitions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`numPartitions`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getNumPartitions"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getNumPartitions">[docs]</a>    <span class="k">def</span> <span class="nf">getNumPartitions</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of numPartitions or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">numPartitions</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2Vec.setMinCount"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.setMinCount">[docs]</a>    <span class="k">def</span> <span class="nf">setMinCount</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`minCount`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">minCount</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="Word2Vec.getMinCount"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2Vec.getMinCount">[docs]</a>    <span class="k">def</span> <span class="nf">getMinCount</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of minCount or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">minCount</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">Word2VecModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="Word2VecModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel">[docs]</a><span class="k">class</span> <span class="nc">Word2VecModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by Word2Vec.</span>
<span class="sd">    &quot;&quot;&quot;</span>

<div class="viewcode-block" id="Word2VecModel.getVectors"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel.getVectors">[docs]</a>    <span class="k">def</span> <span class="nf">getVectors</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Returns the vector representation of the words as a dataframe</span>
<span class="sd">        with two fields, word and vector.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;getVectors&quot;</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="Word2VecModel.findSynonyms"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.Word2VecModel.findSynonyms">[docs]</a>    <span class="k">def</span> <span class="nf">findSynonyms</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">num</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Find &quot;num&quot; number of words closest in similarity to &quot;word&quot;.</span>
<span class="sd">        word can be a string or vector representation.</span>
<span class="sd">        Returns a dataframe with two fields word and similarity (which</span>
<span class="sd">        gives the cosine similarity).</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="nb">basestring</span><span class="p">):</span>
            <span class="n">word</span> <span class="o">=</span> <span class="n">_convert_to_vector</span><span class="p">(</span><span class="n">word</span><span class="p">)</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_call_java</span><span class="p">(</span><span class="s">&quot;findSynonyms&quot;</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">num</span><span class="p">)</span>

</div></div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="PCA"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA">[docs]</a><span class="k">class</span> <span class="nc">PCA</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasInputCol</span><span class="p">,</span> <span class="n">HasOutputCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    PCA trains a model to project vectors to a low-dimensional space using PCA.</span>

<span class="sd">    &gt;&gt;&gt; from pyspark.mllib.linalg import Vectors</span>
<span class="sd">    &gt;&gt;&gt; data = [(Vectors.sparse(5, [(1, 1.0), (3, 7.0)]),),</span>
<span class="sd">    ...     (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),</span>
<span class="sd">    ...     (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]</span>
<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame(data,[&quot;features&quot;])</span>
<span class="sd">    &gt;&gt;&gt; pca = PCA(k=2, inputCol=&quot;features&quot;, outputCol=&quot;pca_features&quot;)</span>
<span class="sd">    &gt;&gt;&gt; model = pca.fit(df)</span>
<span class="sd">    &gt;&gt;&gt; model.transform(df).collect()[0].pca_features</span>
<span class="sd">    DenseVector([1.648..., -4.013...])</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">k</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;k&quot;</span><span class="p">,</span> <span class="s">&quot;the number of principal components&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, k=None, inputCol=None, outputCol=None)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">PCA</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.PCA&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;k&quot;</span><span class="p">,</span> <span class="s">&quot;the number of principal components&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="PCA.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">inputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">outputCol</span><span class="o">=</span><span class="bp">None</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, k=None, inputCol=None, outputCol=None)</span>
<span class="sd">        Set params for this PCA.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="PCA.setK"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.setK">[docs]</a>    <span class="k">def</span> <span class="nf">setK</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`k`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="PCA.getK"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCA.getK">[docs]</a>    <span class="k">def</span> <span class="nf">getK</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of k or its default value.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">PCAModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="PCAModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.PCAModel">[docs]</a><span class="k">class</span> <span class="nc">PCAModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by PCA.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="nd">@inherit_doc</span>
<div class="viewcode-block" id="RFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula">[docs]</a><span class="k">class</span> <span class="nc">RFormula</span><span class="p">(</span><span class="n">JavaEstimator</span><span class="p">,</span> <span class="n">HasFeaturesCol</span><span class="p">,</span> <span class="n">HasLabelCol</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    .. note:: Experimental</span>

<span class="sd">    Implements the transforms required for fitting a dataset against an</span>
<span class="sd">    R model formula. Currently we support a limited subset of the R</span>
<span class="sd">    operators, including &#39;~&#39;, &#39;+&#39;, &#39;-&#39;, and &#39;.&#39;. Also see the R formula</span>
<span class="sd">    docs:</span>
<span class="sd">    http://stat.ethz.ch/R-manual/R-patched/library/stats/html/formula.html</span>

<span class="sd">    &gt;&gt;&gt; df = sqlContext.createDataFrame([</span>
<span class="sd">    ...     (1.0, 1.0, &quot;a&quot;),</span>
<span class="sd">    ...     (0.0, 2.0, &quot;b&quot;),</span>
<span class="sd">    ...     (0.0, 0.0, &quot;a&quot;)</span>
<span class="sd">    ... ], [&quot;y&quot;, &quot;x&quot;, &quot;s&quot;])</span>
<span class="sd">    &gt;&gt;&gt; rf = RFormula(formula=&quot;y ~ x + s&quot;)</span>
<span class="sd">    &gt;&gt;&gt; rf.fit(df).transform(df).show()</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    |  y|  x|  s| features|label|</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    |1.0|1.0|  a|[1.0,1.0]|  1.0|</span>
<span class="sd">    |0.0|2.0|  b|[2.0,0.0]|  0.0|</span>
<span class="sd">    |0.0|0.0|  a|[0.0,1.0]|  0.0|</span>
<span class="sd">    +---+---+---+---------+-----+</span>
<span class="sd">    ...</span>
<span class="sd">    &gt;&gt;&gt; rf.fit(df, {rf.formula: &quot;y ~ . - s&quot;}).transform(df).show()</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    |  y|  x|  s|features|label|</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    |1.0|1.0|  a|   [1.0]|  1.0|</span>
<span class="sd">    |0.0|2.0|  b|   [2.0]|  0.0|</span>
<span class="sd">    |0.0|0.0|  a|   [0.0]|  0.0|</span>
<span class="sd">    +---+---+---+--------+-----+</span>
<span class="sd">    ...</span>
<span class="sd">    &quot;&quot;&quot;</span>

    <span class="c"># a placeholder to make it appear in the generated doc</span>
    <span class="n">formula</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="n">Params</span><span class="o">.</span><span class="n">_dummy</span><span class="p">(),</span> <span class="s">&quot;formula&quot;</span><span class="p">,</span> <span class="s">&quot;R model formula&quot;</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">formula</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">featuresCol</span><span class="o">=</span><span class="s">&quot;features&quot;</span><span class="p">,</span> <span class="n">labelCol</span><span class="o">=</span><span class="s">&quot;label&quot;</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        __init__(self, formula=None, featuresCol=&quot;features&quot;, labelCol=&quot;label&quot;)</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="nb">super</span><span class="p">(</span><span class="n">RFormula</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">__init__</span><span class="p">()</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_java_obj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_new_java_obj</span><span class="p">(</span><span class="s">&quot;org.apache.spark.ml.feature.RFormula&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">uid</span><span class="p">)</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">formula</span> <span class="o">=</span> <span class="n">Param</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s">&quot;formula&quot;</span><span class="p">,</span> <span class="s">&quot;R model formula&quot;</span><span class="p">)</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">__init__</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>

    <span class="nd">@keyword_only</span>
<div class="viewcode-block" id="RFormula.setParams"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.setParams">[docs]</a>    <span class="k">def</span> <span class="nf">setParams</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">formula</span><span class="o">=</span><span class="bp">None</span><span class="p">,</span> <span class="n">featuresCol</span><span class="o">=</span><span class="s">&quot;features&quot;</span><span class="p">,</span> <span class="n">labelCol</span><span class="o">=</span><span class="s">&quot;label&quot;</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        setParams(self, formula=None, featuresCol=&quot;features&quot;, labelCol=&quot;label&quot;)</span>
<span class="sd">        Sets params for RFormula.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">kwargs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">setParams</span><span class="o">.</span><span class="n">_input_kwargs</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_set</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
</div>
<div class="viewcode-block" id="RFormula.setFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.setFormula">[docs]</a>    <span class="k">def</span> <span class="nf">setFormula</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Sets the value of :py:attr:`formula`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="bp">self</span><span class="o">.</span><span class="n">_paramMap</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">formula</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
        <span class="k">return</span> <span class="bp">self</span>
</div>
<div class="viewcode-block" id="RFormula.getFormula"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormula.getFormula">[docs]</a>    <span class="k">def</span> <span class="nf">getFormula</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        Gets the value of :py:attr:`formula`.</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">getOrDefault</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">formula</span><span class="p">)</span>
</div>
    <span class="k">def</span> <span class="nf">_create_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">java_model</span><span class="p">):</span>
        <span class="k">return</span> <span class="n">RFormulaModel</span><span class="p">(</span><span class="n">java_model</span><span class="p">)</span>

</div>
<div class="viewcode-block" id="RFormulaModel"><a class="viewcode-back" href="../../../pyspark.ml.html#pyspark.ml.feature.RFormulaModel">[docs]</a><span class="k">class</span> <span class="nc">RFormulaModel</span><span class="p">(</span><span class="n">JavaModel</span><span class="p">):</span>
    <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">    Model fitted by :py:class:`RFormula`.</span>
<span class="sd">    &quot;&quot;&quot;</span>

</div>
<span class="k">if</span> <span class="n">__name__</span> <span class="o">==</span> <span class="s">&quot;__main__&quot;</span><span class="p">:</span>
    <span class="kn">import</span> <span class="nn">doctest</span>
    <span class="kn">from</span> <span class="nn">pyspark.context</span> <span class="kn">import</span> <span class="n">SparkContext</span>
    <span class="kn">from</span> <span class="nn">pyspark.sql</span> <span class="kn">import</span> <span class="n">Row</span><span class="p">,</span> <span class="n">SQLContext</span>
    <span class="n">globs</span> <span class="o">=</span> <span class="nb">globals</span><span class="p">()</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
    <span class="c"># The small batch size here ensures that we see multiple batches,</span>
    <span class="c"># even in these small test examples:</span>
    <span class="n">sc</span> <span class="o">=</span> <span class="n">SparkContext</span><span class="p">(</span><span class="s">&quot;local[2]&quot;</span><span class="p">,</span> <span class="s">&quot;ml.feature tests&quot;</span><span class="p">)</span>
    <span class="n">sqlContext</span> <span class="o">=</span> <span class="n">SQLContext</span><span class="p">(</span><span class="n">sc</span><span class="p">)</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;sc&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sc</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;sqlContext&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sqlContext</span>
    <span class="n">testData</span> <span class="o">=</span> <span class="n">sc</span><span class="o">.</span><span class="n">parallelize</span><span class="p">([</span><span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;b&quot;</span><span class="p">),</span>
                               <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;c&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">3</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span>
                               <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;a&quot;</span><span class="p">),</span> <span class="n">Row</span><span class="p">(</span><span class="nb">id</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s">&quot;c&quot;</span><span class="p">)],</span> <span class="mi">2</span><span class="p">)</span>
    <span class="n">globs</span><span class="p">[</span><span class="s">&#39;stringIndDf&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">sqlContext</span><span class="o">.</span><span class="n">createDataFrame</span><span class="p">(</span><span class="n">testData</span><span class="p">)</span>
    <span class="p">(</span><span class="n">failure_count</span><span class="p">,</span> <span class="n">test_count</span><span class="p">)</span> <span class="o">=</span> <span class="n">doctest</span><span class="o">.</span><span class="n">testmod</span><span class="p">(</span><span class="n">globs</span><span class="o">=</span><span class="n">globs</span><span class="p">,</span> <span class="n">optionflags</span><span class="o">=</span><span class="n">doctest</span><span class="o">.</span><span class="n">ELLIPSIS</span><span class="p">)</span>
    <span class="n">sc</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
    <span class="k">if</span> <span class="n">failure_count</span><span class="p">:</span>
        <span class="nb">exit</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
</pre></div>

          </div>
        </div>
      </div>
      <div class="sphinxsidebar" role="navigation" aria-label="main navigation">
        <div class="sphinxsidebarwrapper">
            <p class="logo"><a href="../../../index.html">
              <img class="logo" src="../../../_static/spark-logo-hd.png" alt="Logo"/>
            </a></p>
<div id="searchbox" style="display: none" role="search">
  <h3>Quick search</h3>
    <form class="search" action="../../../search.html" method="get">
      <input type="text" name="q" />
      <input type="submit" value="Go" />
      <input type="hidden" name="check_keywords" value="yes" />
      <input type="hidden" name="area" value="default" />
    </form>
    <p class="searchtip" style="font-size: 90%">
    Enter search terms or a module, class or function name.
    </p>
</div>
<script type="text/javascript">$('#searchbox').show(0);</script>
        </div>
      </div>
      <div class="clearer"></div>
    </div>
    <div class="related" role="navigation" aria-label="related navigation">
      <h3>Navigation</h3>
      <ul>
        <li class="nav-item nav-item-0"><a href="../../../index.html">PySpark 1.5.0 documentation</a> &raquo;</li>
          <li class="nav-item nav-item-1"><a href="../../index.html" >Module code</a> &raquo;</li> 
      </ul>
    </div>
    <div class="footer" role="contentinfo">
        &copy; Copyright .
      Created using <a href="http://sphinx-doc.org/">Sphinx</a> 1.3.1.
    </div>
  </body>
</html>