外表使用

openGauss本身支持对表的分区存储,从而加快查询时的过滤。通过HIVE创建表,并以ORC或Parquet文件格式写入HDFS时同样可以指定分区属性。openGauss需要将自身的分区属性同HIVE创建表时的分区属性相结合,保证分区映射及查询的正确性。

openGauss通过CREATE FOREIGN TABLE指定创建表使用的分区信息。CREATE FOREIGN TABLE的详细信息请参见CREATE FOREIGN TABLE

使用分区方式的注意事项包括:

  1. 遵循openGauss建立分区表的原则,PARTITION中的分区列必须为COLUMN包中的定义列,这一点与HIVE建表语法不同。

  2. 在openGauss中HDFS外表定义分区数和HIVE建表定义分区语法均对分区列的数目无限制,但是最多只支持对前四层分区进行剪枝。如果表分区列多于四个,openGauss将不会对其余分区列进行剪枝操作。

    openGauss的HDFS外表定义分区列数目应不大于HIVE表中定义的分区列数量。同时定义顺序必须和在HIVE表中分区列定义顺序保持一致。

  3. 分区剪枝支持的操作包括大于、小于、不大于、不小于、等于、不等于、IS NULL、IS NOT NULL、ANY、ALL操作。对于二元表达式操作,操作符一边必须是基本列类型,另一边必须是const类型。

  4. 外表支持和普通表关联查询。示例如下:

    1. postgres=# CREATE TABLE inner_tbl( a int, b int) WITH(ORIENTATION='column');
    1. NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using 'a' as the distribution column by default.
    2. HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
    3. CREATE TABLE
    1. postgres=# DROP FOREIGN TABLE region010;
    1. DROP FOREIGN TABLE
    1. postgres=# CREATE FOREIGN TABLE region010 (
    2. R_REGIONKEY INT4,
    3. constraint part_11constr_unique unique (R_REGIONKEY) not enforced,
    4. R_NAME TEXT,
    5. R_COMMENT TEXT)
    6. SERVER hdfs_server
    7. OPTIONS(format 'orc', foldername '/user/hive/warehouse/gaussdb.db/region_orc11_64stripe', encoding 'GBK')
    8. DISTRIBUTE BY roundrobin;
    1. NOTICE: CREATE FOREIGN TABLE / UNIQUE will create constraint "part_11constr_unique" for foreign table "region010"
    2. CREATE FOREIGN TABLE
    1. postgres=# EXPLAIN SELECT * FROM region010, inner_tbl WHERE a=R_REGIONKEY;
    1. id | operation | E-rows | E-width | E-costs
    2. ----+------------------------------------------------+--------+---------+---------
    3. 1 | -> Row Adapter | 43 | 76 | 68.71
    4. 2 | -> Vector Streaming (type: GATHER) | 43 | 76 | 68.71
    5. 3 | -> Vector Hash Join (4,5) | 43 | 76 | 66.03
    6. 4 | -> Vector Foreign Scan on region010 | 853 | 68 | 52.65
    7. 5 | -> Vector Streaming(type: BROADCAST) | 10 | 8 | 10.63
    8. 6 | -> CStore Scan on inner_tbl | 10 | 8 | 10.01
    9. (6 rows)
    10. Predicate Information (identified by plan id)
    11. ---------------------------------------------------------------
    12. 3 --Vector Hash Join (4,5)
    13. Hash Cond: (region010.r_regionkey = inner_tbl.a)
    14. Generate Bloom Filter On Expr: inner_tbl.a
    15. Generate Bloom Filter On Index: 0
    16. 4 --Vector Foreign Scan on region010
    17. Server Type: hdfs
    18. Filter By Bloom Filter On Expr: region010.r_regionkey
    19. Filter By Bloom Filter On Index: 0
    20. (8 rows)
  5. 目前存在一些表达式、函数等不支持下推,由于不能下推导致产生多表连接的查询无法再次转化为plan,最终将导致查询无法执行,需要改写SQL重新执行。例如出现如下错误:This SQL can not be executed because it can not be pushed down to datanode,则需要修改SQL语句重新执行。