如何在所有表中搜索特定值(PostgreSQL)?

k4aesqcs  于 2023-10-18  发布在  PostgreSQL
关注(0)|答案(9)|浏览(176)

是否可以在PostgreSQL中搜索每个表的每个列以获取特定值?
here for Oracle也有类似的问题。

xvw2m8pv

xvw2m8pv1#

转储数据库的内容,然后使用grep怎么样?

$ pg_dump --data-only --inserts -U postgres your-db-name > a.tmp
$ grep United a.tmp
INSERT INTO countries VALUES ('US', 'United States');
INSERT INTO countries VALUES ('GB', 'United Kingdom');

同一个实用程序pg_dump可以在输出中包含列名。将--inserts改为--column-inserts。这样,您也可以搜索特定的列名。但是如果我在寻找列名,我可能会转储模式而不是数据。

$ pg_dump --data-only --column-inserts -U postgres your-db-name > a.tmp
$ grep country_code a.tmp
INSERT INTO countries (iso_country_code, iso_country_name) VALUES ('US', 'United  States');
INSERT INTO countries (iso_country_code, iso_country_name) VALUES ('GB', 'United Kingdom');
nfg76nw0

nfg76nw02#

这里有一个pl/pgsql函数,它定位任何列包含特定值的记录。它接受要以文本格式搜索的值、要搜索的表名数组(默认为所有表)和模式名数组(默认为所有模式名)作为参数。
它返回一个表结构,其中包含模式、表名、列名和伪列ctid(表中行的非持久物理位置,请参见System Columns

CREATE OR REPLACE FUNCTION search_columns(
    needle text,
    haystack_tables name[] default '{}',
    haystack_schema name[] default '{}'
)
RETURNS table(schemaname text, tablename text, columnname text, rowctid text)
AS $$
begin
  FOR schemaname,tablename,columnname IN
      SELECT c.table_schema,c.table_name,c.column_name
      FROM information_schema.columns c
        JOIN information_schema.tables t ON
          (t.table_name=c.table_name AND t.table_schema=c.table_schema)
        JOIN information_schema.table_privileges p ON
          (t.table_name=p.table_name AND t.table_schema=p.table_schema
              AND p.privilege_type='SELECT')
        JOIN information_schema.schemata s ON
          (s.schema_name=t.table_schema)
      WHERE (c.table_name=ANY(haystack_tables) OR haystack_tables='{}')
        AND (c.table_schema=ANY(haystack_schema) OR haystack_schema='{}')
        AND t.table_type='BASE TABLE'
  LOOP
    FOR rowctid IN
      EXECUTE format('SELECT ctid FROM %I.%I WHERE cast(%I as text)=%L',
       schemaname,
       tablename,
       columnname,
       needle
      )
    LOOP
      -- uncomment next line to get some progress report
      -- RAISE NOTICE 'hit in %.%', schemaname, tablename;
      RETURN NEXT;
    END LOOP;
 END LOOP;
END;
$$ language plpgsql;

另请参阅基于相同原理的version on github,但增加了一些速度和报告改进。
在测试数据库中使用的示例:

  • 在公共架构中的所有表中搜索:
select * from search_columns('foobar');
 schemaname | tablename | columnname | rowctid 
------------+-----------+------------+---------
 public     | s3        | usename    | (0,11)
 public     | s2        | relname    | (7,29)
 public     | w         | body       | (0,2)
(3 rows)
  • 在特定表格中搜索:
select * from search_columns('foobar','{w}');
 schemaname | tablename | columnname | rowctid 
------------+-----------+------------+---------
 public     | w         | body       | (0,2)
(1 row)
  • 在从选择中获得的表的子集中搜索:
select * from search_columns('foobar', array(select table_name::name from information_schema.tables where table_name like 's%'), array['public']);
 schemaname | tablename | columnname | rowctid 
------------+-----------+------------+---------
 public     | s2        | relname    | (7,29)
 public     | s3        | usename    | (0,11)
(2 rows)
  • 获取一个结果行,其中包含相应的基表和ctid:
select * from public.w where ctid='(0,2)';
 title |  body  |         tsv         
-------+--------+---------------------
 toto  | foobar | 'foobar':2 'toto':1

变体

  • 要测试正则表达式而不是严格相等,如grep,这部分查询:

SELECT ctid FROM %I.%I WHERE cast(%I as text)=%L
可更改为:
SELECT ctid FROM %I.%I WHERE cast(%I as text) ~ %L

  • 对于不区分大小写的比较,你可以这样写:

SELECT ctid FROM %I.%I WHERE lower(cast(%I as text)) = lower(%L)

xpszyzbs

xpszyzbs3#

在每个表的每个列中搜索特定值
假设:

  • 查找任何行,其任何列***在其文本表示中包含***给定值-而不是 * 等于 * 给定值。
  • 返回表名(regclass)和元组ID(ctid),因为这是最简单的。(你可以很容易地适应返回任何你想要的。

这里有一个非常简单,快速,有点脏的方法:

CREATE OR REPLACE FUNCTION search_whole_db(_like_pattern text, _schema text)
  RETURNS TABLE(_tbl regclass, _ctid tid)
  LANGUAGE plpgsql AS
$func$
BEGIN
   FOR _tbl IN
      SELECT c.oid::regclass
      FROM   pg_class c
      JOIN   pg_namespace n ON n.oid = relnamespace
      WHERE  c.relkind = 'r'                           -- only tables
      AND    n.nspname !~ '^(pg_|information_schema)'  -- exclude system schemas
      AND   (n.nspname = _schema OR _schema IS NULL)
      ORDER BY n.nspname, c.relname
   LOOP
      RETURN QUERY EXECUTE format(
         'SELECT $1, ctid FROM %s t WHERE t::text ~~ %L'
       , _tbl, '%' || _like_pattern || '%')
      USING _tbl;
   END LOOP;
END
$func$;

如果未指定模式,则搜索整个DB:(系统架构始终被排除在外。)

SELECT * FROM search_whole_db('mypattern');

仅对于给定的模式:

SELECT * FROM search_whole_db('mypattern', 'myschema');

提供不包含%的搜索模式。
您可能希望对模式中的特殊字符进行转义。请参阅:

  • 正则表达式或LIKE模式的转义函数
    为什么是“有点脏”?

如果text表示中的行的分隔符和装饰符可以是搜索模式的一部分,则可能存在误报。特殊字符是:

  • 列分隔符:,默认
  • 整行用括号括起来:()
  • 某些值用双引号括起来"
  • \可以作为转义字符添加

另外,某些列的文本表示可能取决于本地设置--但这种模糊性是问题所固有的,而不仅仅是我的解决方案。
每个符合条件的行仅返回 * 一次 *,即使它匹配多次(与此处的其他答案相反)。
搜索整个数据库通常需要很长时间才能完成 *。您可能希望限制为某些模式/表(甚至列),如其他答案中所示。或者添加通知和进度指示器,也在另一个答案中演示。
regclass对象标识符类型表示为表名,根据当前search_path,在必要时进行模式限定以消除歧义:

  • 如何检查给定模式中是否存在表
  • 使用表名、字段名和模式名查找引用的表名

什么是ctid

您可能希望在搜索模式中转义具有特殊含义的字符。请参阅:

  • 正则表达式或LIKE模式的转义函数
v2g6jxz6

v2g6jxz64#

有一种方法可以实现这一点,而无需创建函数或使用外部工具。通过使用Postgres的query_to_xml()函数,可以在另一个查询中动态运行一个查询,可以在许多表中搜索文本。这是基于我的答案to retrieve the rowcount for all tables
要在模式中的所有表中搜索字符串foo,可以使用以下命令:

with found_rows as (
  select format('%I.%I', table_schema, table_name) as table_name,
         query_to_xml(format('select to_jsonb(t) as table_row 
                              from %I.%I as t 
                              where t::text like ''%%foo%%'' ', table_schema, table_name), 
                      true, false, '') as table_rows
  from information_schema.tables 
  where table_schema = 'public'
)
select table_name, x.table_row
from found_rows f
  left join xmltable('//table/row' 
                     passing table_rows
                       columns
                         table_row text path 'table_row') as x on true

请注意,使用xmltable需要Postgres 10或更高版本。对于旧的Postgres版本,这也可以使用xpath()完成。

with found_rows as (
  select format('%I.%I', table_schema, table_name) as table_name,
         query_to_xml(format('select to_jsonb(t) as table_row 
                              from %I.%I as t 
                              where t::text like ''%%foo%%'' ', table_schema, table_name), 
                      true, false, '') as table_rows
  from information_schema.tables 
  where table_schema = 'public'
)
select table_name, x.table_row
from found_rows f
   cross join unnest(xpath('/table/row/table_row/text()', table_rows)) as r(data)

公用表表达式(WITH ...)只是为了方便而使用。它遍历public模式中的所有表。对于每个表,通过query_to_xml()函数运行以下查询:

select to_jsonb(t)
from some_table t
where t::text like '%foo%';

where子句用于确保只对包含搜索字符串的行生成代价高昂的XML内容。这可能会返回如下内容:

<table xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<row>
  <table_row>{"id": 42, "some_column": "foobar"}</table_row>
</row>
</table>

完成了将整行转换为jsonb,这样在结果中可以看到哪个值属于哪个列。
上面的代码可能会返回这样的内容:

table_name   |   table_row
-------------+----------------------------------------
public.foo   |  {"id": 1, "some_column": "foobar"}
public.bar   |  {"id": 42, "another_column": "barfoo"}

Online example for Postgres 10+
Online example for older Postgres versions

z9smfwbn

z9smfwbn5#

如果您使用的是IntelliJ,请将数据库添加到数据库视图中,然后右键单击数据库并选择全文搜索,它将列出您特定文本的所有表和所有字段。

wa7juj8i

wa7juj8i6#

在不存储新过程的情况下,您可以使用代码块并执行以获取占用表。您可以按模式、表或列名筛选结果。

DO $$
DECLARE
  value int := 0;
  sql text := 'The constructed select statement';
  rec1 record;
  rec2 record;
BEGIN
  DROP TABLE IF EXISTS _x;
  CREATE TEMPORARY TABLE _x (
    schema_name text, 
    table_name text, 
    column_name text,
    found text
  );
  FOR rec1 IN 
        SELECT table_schema, table_name, column_name
        FROM information_schema.columns 
        WHERE table_name <> '_x'
                AND UPPER(column_name) LIKE UPPER('%%')                  
                AND table_schema <> 'pg_catalog'
                AND table_schema <> 'information_schema'
                AND data_type IN ('character varying', 'text', 'character', 'char', 'varchar')
        LOOP
    sql := concat('SELECT ', rec1."column_name", ' AS "found" FROM ',rec1."table_schema" , '.',rec1."table_name" , ' WHERE UPPER(',rec1."column_name" , ') LIKE UPPER(''','%my_substring_to_find_goes_here%' , ''')');
    RAISE NOTICE '%', sql;
    BEGIN
        FOR rec2 IN EXECUTE sql LOOP
            RAISE NOTICE '%', sql;
            INSERT INTO _x VALUES (rec1."table_schema", rec1."table_name", rec1."column_name", rec2."found");
        END LOOP;
    EXCEPTION WHEN OTHERS THEN
    END;
  END LOOP;
  END; $$;

SELECT * FROM _x;
qlckcl4x

qlckcl4x7#

如果有人认为它可以帮助。下面是@丹尼尔Vérité的函数,它带有另一个参数,用于接受可用于搜索的列的名称。这样就减少了处理的时间。至少在我的测试中,它减少了很多。

CREATE OR REPLACE FUNCTION search_columns(
    needle text,
    haystack_columns name[] default '{}',
    haystack_tables name[] default '{}',
    haystack_schema name[] default '{public}'
)
RETURNS table(schemaname text, tablename text, columnname text, rowctid text)
AS $$
begin
  FOR schemaname,tablename,columnname IN
      SELECT c.table_schema,c.table_name,c.column_name
      FROM information_schema.columns c
      JOIN information_schema.tables t ON
        (t.table_name=c.table_name AND t.table_schema=c.table_schema)
      WHERE (c.table_name=ANY(haystack_tables) OR haystack_tables='{}')
        AND c.table_schema=ANY(haystack_schema)
        AND (c.column_name=ANY(haystack_columns) OR haystack_columns='{}')
        AND t.table_type='BASE TABLE'
  LOOP
    EXECUTE format('SELECT ctid FROM %I.%I WHERE cast(%I as text)=%L',
       schemaname,
       tablename,
       columnname,
       needle
    ) INTO rowctid;
    IF rowctid is not null THEN
      RETURN NEXT;
    END IF;
 END LOOP;
END;
$$ language plpgsql;

blog是使用上面创建的search_function的一个例子。

SELECT * FROM search_columns('86192700'
    , array(SELECT DISTINCT a.column_name::name FROM information_schema.columns AS a
            INNER JOIN information_schema.tables as b ON (b.table_catalog = a.table_catalog AND b.table_schema = a.table_schema AND b.table_name = a.table_name)
        WHERE 
            a.column_name iLIKE '%cep%' 
            AND b.table_type = 'BASE TABLE'
            AND b.table_schema = 'public'
    )

    , array(SELECT b.table_name::name FROM information_schema.columns AS a
            INNER JOIN information_schema.tables as b ON (b.table_catalog = a.table_catalog AND b.table_schema = a.table_schema AND b.table_name = a.table_name)
        WHERE 
            a.column_name iLIKE '%cep%' 
            AND b.table_type = 'BASE TABLE'
            AND b.table_schema = 'public')
);
h4cxqtbf

h4cxqtbf8#

这是@丹尼尔Vérité的函数,带有进度报告功能。报告以三种方式报告进展情况:
1.以提高通知;
1.通过将所提供的{progress_seq}序列的值从{要搜索的列的总数}减小到0;
1.通过将进度沿着找到的表写入文本文件,该文件位于c:\windows\temp{progress_seq}. txt中。
_

CREATE OR REPLACE FUNCTION search_columns(
    needle text,
    haystack_tables name[] default '{}',
    haystack_schema name[] default '{public}',
    progress_seq text default NULL
)
RETURNS table(schemaname text, tablename text, columnname text, rowctid text)
AS $$
DECLARE
currenttable text;
columnscount integer;
foundintables text[];
foundincolumns text[];
begin
currenttable='';
columnscount = (SELECT count(1)
      FROM information_schema.columns c
      JOIN information_schema.tables t ON
        (t.table_name=c.table_name AND t.table_schema=c.table_schema)
      WHERE (c.table_name=ANY(haystack_tables) OR haystack_tables='{}')
        AND c.table_schema=ANY(haystack_schema)
        AND t.table_type='BASE TABLE')::integer;
PERFORM setval(progress_seq::regclass, columnscount);

  FOR schemaname,tablename,columnname IN
      SELECT c.table_schema,c.table_name,c.column_name
      FROM information_schema.columns c
      JOIN information_schema.tables t ON
        (t.table_name=c.table_name AND t.table_schema=c.table_schema)
      WHERE (c.table_name=ANY(haystack_tables) OR haystack_tables='{}')
        AND c.table_schema=ANY(haystack_schema)
        AND t.table_type='BASE TABLE'
  LOOP
    EXECUTE format('SELECT ctid FROM %I.%I WHERE cast(%I as text)=%L',
       schemaname,
       tablename,
       columnname,
       needle
    ) INTO rowctid;
    IF rowctid is not null THEN
      RETURN NEXT;
      foundintables = foundintables || tablename;
      foundincolumns = foundincolumns || columnname;
      RAISE NOTICE 'FOUND! %, %, %, %', schemaname,tablename,columnname, rowctid;
    END IF;
         IF (progress_seq IS NOT NULL) THEN 
        PERFORM nextval(progress_seq::regclass);
    END IF;
    IF(currenttable<>tablename) THEN  
    currenttable=tablename;
     IF (progress_seq IS NOT NULL) THEN 
        RAISE NOTICE 'Columns left to look in: %; looking in table: %', currval(progress_seq::regclass), tablename;
        EXECUTE 'COPY (SELECT unnest(string_to_array(''Current table (column ' || columnscount-currval(progress_seq::regclass) || ' of ' || columnscount || '): ' || tablename || '\n\nFound in tables/columns:\n' || COALESCE(
        (SELECT string_agg(c1 || '/' || c2, '\n') FROM (SELECT unnest(foundintables) AS c1,unnest(foundincolumns) AS c2) AS t1)
        , '') || ''',''\n''))) TO ''c:\WINDOWS\temp\' || progress_seq || '.txt''';
    END IF;
    END IF;
 END LOOP;
END;
$$ language plpgsql;
3bygqnnd

3bygqnnd9#

--下面的函数将列出数据库中包含特定字符串的所有表

select TablesCount(‘StringToSearch’);

--遍历数据库中的所有表

CREATE OR REPLACE FUNCTION **TablesCount**(_searchText TEXT)
RETURNS text AS 
$$ -- here start procedural part
   DECLARE _tname text;
   DECLARE cnt int;
   BEGIN
    FOR _tname IN SELECT table_name FROM information_schema.tables where table_schema='public' and table_type='BASE TABLE'  LOOP
         cnt= getMatchingCount(_tname,Columnames(_tname,_searchText));
                                RAISE NOTICE 'Count% ', CONCAT('  ',cnt,' Table name: ', _tname);
                END LOOP;
    RETURN _tname;
   END;
$$ -- here finish procedural part
LANGUAGE plpgsql; -- language specification

--返回满足条件的表的计数。--例如,如果预期文本存在于表的任何字段中,--则计数将大于0。我们可以在postgres数据库的结果查看器的消息部分找到通知。

CREATE OR REPLACE FUNCTION **getMatchingCount**(_tname TEXT, _clause TEXT)
RETURNS int AS 
$$
Declare outpt text;
    BEGIN
    EXECUTE 'Select Count(*) from '||_tname||' where '|| _clause
       INTO outpt;
       RETURN outpt;
    END;
$$ LANGUAGE plpgsql;

获取每个表的字段。用表的所有列生成where子句。

CREATE OR REPLACE FUNCTION **Columnames**(_tname text,st text)
RETURNS text AS 
$$ -- here start procedural part
DECLARE
                _name text;
                _helper text;
   BEGIN
                FOR _name IN SELECT column_name FROM information_schema.Columns WHERE table_name =_tname LOOP
                                _name=CONCAT('CAST(',_name,' as VarChar)',' like ','''%',st,'%''', ' OR ');
                                _helper= CONCAT(_helper,_name,' ');
                END LOOP;
                RETURN CONCAT(_helper, ' 1=2');

   END;
$$ -- here finish procedural part
LANGUAGE plpgsql; -- language specification

相关问题