[SPARK-10979][SPARKR] Sparkrmerge: Add merge to DataFrame with R signature

Add merge function to DataFrame, which supports R signature. https://stat.ethz.ch/R-manual/R-devel/library/base/html/merge.html Author: Narine Kokhlikyan <narine.kokhlikyan@gmail.com> Closes #9012 from NarineK/sparkrmerge.
author: Narine Kokhlikyan <narine.kokhlikyan@gmail.com> 2015-10-26 15:12:25 -0700
committer: Shivaram Venkataraman <shivaram@cs.berkeley.edu> 2015-10-26 15:12:25 -0700
commit: 3689beb98b6a6db61e35049fdb57b0cd6aad8019 (patch)
tree: b2002c5fd2b1a7de90890657387c226e4daae98d /R/pkg/inst/tests/test_sparkSQL.R
parent: 616be29c7f2ebc184bd5ec97210da36a2174d80c (diff)
download: spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.tar.gz
spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.tar.bz2
spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.zip
1 files changed, 33 insertions, 4 deletions
diff --git a/R/pkg/inst/tests/test_sparkSQL.R b/R/pkg/inst/tests/test_sparkSQL.R
index 67d8b23cd7..540854d114 100644
--- a/R/pkg/inst/tests/test_sparkSQL.R
+++ b/R/pkg/inst/tests/test_sparkSQL.R
@@ -1105,11 +1105,40 @@ test_that("join() and merge() on a DataFrame", {
   expect_equal(count(joined9), 4)
   expect_true(is.na(collect(orderBy(joined9, joined9$age))$age[2]))
 
-  merged <- select(merge(df, df2, df$name == df2$name, "outer"),
-                   alias(df$age + 5, "newAge"), df$name, df2$test)
-  expect_equal(names(merged), c("newAge", "name", "test"))
+  merged <- merge(df, df2, by.x = "name", by.y = "name", all.x = TRUE, all.y = TRUE)
   expect_equal(count(merged), 4)
-  expect_equal(collect(orderBy(merged, merged$name))$newAge[3], 24)
+  expect_equal(names(merged), c("age", "name_x", "name_y", "test"))
+  expect_equal(collect(orderBy(merged, merged$name_x))$age[3], 19)
+
+  merged <- merge(df, df2, suffixes = c("-X","-Y"))
+  expect_equal(count(merged), 3)
+  expect_equal(names(merged), c("age", "name-X", "name-Y", "test"))
+  expect_equal(collect(orderBy(merged, merged$"name-X"))$age[1], 30)
+
+  merged <- merge(df, df2, by = "name", suffixes = c("-X","-Y"), sort = FALSE)
+  expect_equal(count(merged), 3)
+  expect_equal(names(merged), c("age", "name-X", "name-Y", "test"))
+  expect_equal(collect(orderBy(merged, merged$"name-Y"))$"name-X"[3], "Michael")
+
+  merged <- merge(df, df2, by = "name", all = T, sort = T)
+  expect_equal(count(merged), 4)
+  expect_equal(names(merged), c("age", "name_x", "name_y", "test"))
+  expect_equal(collect(orderBy(merged, merged$"name_y"))$"name_x"[1], "Andy")
+
+  merged <- merge(df, df2, by = NULL)
+  expect_equal(count(merged), 12)
+  expect_equal(names(merged), c("age", "name", "name", "test"))
+
+  mockLines3 <- c("{\"name\":\"Michael\", \"name_y\":\"Michael\", \"test\": \"yes\"}",
+                  "{\"name\":\"Andy\", \"name_y\":\"Andy\", \"test\": \"no\"}",
+                  "{\"name\":\"Justin\", \"name_y\":\"Justin\", \"test\": \"yes\"}",
+                  "{\"name\":\"Bob\", \"name_y\":\"Bob\", \"test\": \"yes\"}")
+  jsonPath3 <- tempfile(pattern="sparkr-test", fileext=".tmp")
+  writeLines(mockLines3, jsonPath3)
+  df3 <- jsonFile(sqlContext, jsonPath3)
+  expect_error(merge(df, df3),
+               paste("The following column name: name_y occurs more than once in the 'DataFrame'.",
+                     "Please use different suffixes for the intersected columns.", sep = ""))
 })
 
 test_that("toJSON() returns an RDD of the correct values", {
author	Narine Kokhlikyan <narine.kokhlikyan@gmail.com>	2015-10-26 15:12:25 -0700
committer	Shivaram Venkataraman <shivaram@cs.berkeley.edu>	2015-10-26 15:12:25 -0700
commit	3689beb98b6a6db61e35049fdb57b0cd6aad8019 (patch)
tree	b2002c5fd2b1a7de90890657387c226e4daae98d /R/pkg/inst/tests/test_sparkSQL.R
parent	616be29c7f2ebc184bd5ec97210da36a2174d80c (diff)
download	spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.tar.gz spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.tar.bz2 spark-3689beb98b6a6db61e35049fdb57b0cd6aad8019.zip