[SPARK-9733][SQL] Improve physical plan explain for data sources

All data sources show up as "PhysicalRDD" in physical plan explain. It'd be better if we can show the name of the data source. Without this patch: ``` == Physical Plan == NewAggregate with UnsafeHybridAggregationIterator ArrayBuffer(date#0, cat#1) ArrayBuffer((sum(CAST((CAST(count#2, IntegerType) + 1), LongType))2,mode=Final,isDistinct=false)) Exchange hashpartitioning(date#0,cat#1) NewAggregate with UnsafeHybridAggregationIterator ArrayBuffer(date#0, cat#1) ArrayBuffer((sum(CAST((CAST(count#2, IntegerType) + 1), LongType))2,mode=Partial,isDistinct=false)) PhysicalRDD [date#0,cat#1,count#2], MapPartitionsRDD[3] at ``` With this patch: ``` == Physical Plan == TungstenAggregate(key=[date#0,cat#1], value=[(sum(CAST((CAST(count#2, IntegerType) + 1), LongType)),mode=Final,isDistinct=false)] Exchange hashpartitioning(date#0,cat#1) TungstenAggregate(key=[date#0,cat#1], value=[(sum(CAST((CAST(count#2, IntegerType) + 1), LongType)),mode=Partial,isDistinct=false)] ConvertToUnsafe Scan ParquetRelation[file:/scratch/rxin/spark/sales4][date#0,cat#1,count#2] ``` Author: Reynold Xin <rxin@databricks.com> Closes #8024 from rxin/SPARK-9733 and squashes the following commits: 811b90e [Reynold Xin] Fixed Python test case. 52cab77 [Reynold Xin] Cast. eea9ccc [Reynold Xin] Fix test case. fcecb22 [Reynold Xin] [SPARK-9733][SQL] Improve explain message for data source scan node.
author: Reynold Xin <rxin@databricks.com> 2015-08-07 13:41:45 -0700
committer: Reynold Xin <rxin@databricks.com> 2015-08-07 13:41:45 -0700
commit: 05d04e10a8ea030bea840c3c5ba93ecac479a039 (patch)
tree: 3fe88450240b49d4ecd3826d1ca33e3bef0c4dba /python
parent: aeddeafc03d77a5149d2c8f9489b0ca83e6b3e03 (diff)
download: spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.tar.gz
spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.tar.bz2
spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.zip
1 files changed, 1 insertions, 3 deletions
diff --git a/python/pyspark/sql/dataframe.py b/python/pyspark/sql/dataframe.py
index 0f3480c239..47d5a6a43a 100644
--- a/python/pyspark/sql/dataframe.py
+++ b/python/pyspark/sql/dataframe.py
@@ -212,8 +212,7 @@ class DataFrame(object):
         :param extended: boolean, default ``False``. If ``False``, prints only the physical plan.
 
         >>> df.explain()
-        PhysicalRDD [age#0,name#1], MapPartitionsRDD[...] at applySchemaToPythonRDD at\
-          NativeMethodAccessorImpl.java:...
+        Scan PhysicalRDD[age#0,name#1]
 
         >>> df.explain(True)
         == Parsed Logical Plan ==
@@ -224,7 +223,6 @@ class DataFrame(object):
         ...
         == Physical Plan ==
         ...
-        == RDD ==
         """
         if extended:
             print(self._jdf.queryExecution().toString())
author	Reynold Xin <rxin@databricks.com>	2015-08-07 13:41:45 -0700
committer	Reynold Xin <rxin@databricks.com>	2015-08-07 13:41:45 -0700
commit	05d04e10a8ea030bea840c3c5ba93ecac479a039 (patch)
tree	3fe88450240b49d4ecd3826d1ca33e3bef0c4dba /python
parent	aeddeafc03d77a5149d2c8f9489b0ca83e6b3e03 (diff)
download	spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.tar.gz spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.tar.bz2 spark-05d04e10a8ea030bea840c3c5ba93ecac479a039.zip