如何在Python 3.x中使用pyparsing从Oracle SQL脚本中删除注解？

kulphzqa 于 2023-06-05 发布在 Oracle

关注(0)|答案(1)|浏览(151)

我有一个Oracle SQL脚本，其中包含多个语句，这些语句由“;“。我正在尝试删除整个脚本中的所有注解。这包括：
1.单行注解--直到换行。
1.阻止注解/*... */
1.此外，我希望能够将整个脚本分割成语句。
我知道一个名为sqlparse的库可以格式化以删除代码，但我遇到了这个边缘情况：

edge_case = """myval := oneval || otherval ||--;
-- single comment line
lpad(nvl(myval, ' '), 10, ' ');
"""

formatted = sqlparse.format(edge_case, strip_comments=True)
sqlparse.split(formatted)

# returns ['myval := oneval || otherval ||--;', "lpad(nvl(myval, ' '), 10, ' ');"]
# it splits into 2 statements when it should only be 1!

我的想法是专注于每一个注解情况，然后尝试只通过由sql中所有有效字符组成的字符串标记来解析其余的非注解代码。

from pyparsing import *

# define basic elements
semicolon = Literal(";")
# all valid chars excluding semicolon
all_valid_chars = alphanums + "_-+*/.,:()[]{}<>=&|"

# define an sql token
sql_token = Word(all_valid_chars)

# need to make sure that "--" is a special case
single_line_comment_token = Literal("--")
single_line_comment = single_line_comment_token + SkipTo(line_end) + line_end
test1_single_line_comment = """
-- single comment line
--- also a comment
---- also a comment
-- comment -- continues
-- comment /* also continues */

# - not a comment
"""
single_line_comment.run_tests(test1_single_line_comment)

# also handle multi line comments
multi_line_comment_open = Literal("/*")
multi_line_comment_close = Literal("*/")
multi_line_comment = multi_line_comment_open + SkipTo(multi_line_comment_close) + multi_line_comment_close

test1_multi_line_comment = """
/* multi line comment */
/* outer comment /* inner comment */

/* /* /* still valid */
/* -- still valid */
"""
multi_line_comment.run_tests(test1_multi_line_comment)

test2_multi_line_comment = """
/* multi line comment /* with nested comment should fail! */ */
"""
multi_line_comment.run_tests(test2_multi_line_comment, failure_tests=True)

我现在被困在这里，不知道在哪里继续。

statement2 = OneOrMore(single_line_comment | multi_line_comment | sql_token) + semicolon

# run tests
print(statement2.parseString("myval := oneval || otherval ||--;"))

我的问题：
1.这些情况下的每一个测试工作，但我不知道我应该如何测试在一起，以涵盖重叠，如。-- /*这应该是一个单行注解等。
1.我不知道如何正确处理其余的非注解代码。例如，所有有效字符都应该包括-，但这会打乱我的单行代码吗？面临的技术问题较少：
1.老实说，我不知道从哪里开始，也不知道如何构建我的代码，因为这些情况可能会重叠。我甚至不确定pyparsing是否是我应该做的来解决这个问题，但是根据我看到的试图从sql中删除注解的问题，解析是唯一真实的可靠的解决方案。

run_tests不能处理多行。这使得很难测试块注解，尽管我可以使用parse_string。

oracle

来源：https://stackoverflow.com/questions/76383840/how-do-i-remove-comments-from-an-oracle-sql-script-using-pyparsing-in-python-3-x

1条答案

按热度按时间

h4cxqtbf1#

对于剥离注解（或任何pyparsing表达式），您应该使用transform_string，而不是parse_string。transform_string扫描输入字符串并应用解析操作和抑制。下面是一些从脚本中剥离python注解的代码：

import pyparsing as pp

comment = "#" + pp.rest_of_line
# could also use the provided `python_style_comment`
# comment = pp.python_style_comment

python_source = """
def hello(s):
    # say a nice hello!
    print(f"Hi, {s}!")
    # add a hashtag for social media
    print("#hello")
"""

# suppress comments and transform the string
print(comment.suppress().transform_string(python_source))

给出：

def hello(s):
    
    print(f"Hi, {s}!")
    
    print("

糟糕，这并没有检测到#hello在一个带引号的字符串中。
为了解决这个问题，我们还插入了一个带引号的字符串解析器，但是这些字符串不会被抑制：

# parse quoted strings first, in case they contain a comment
transform_expr = pp.quoted_string | comment.suppress()
print(transform_expr.transform_string(python_source))

现在给出：

def hello(s):
    
    print(f"Hi, {s}!")
    
    print("#hello")

对于SQL注解处理，您将执行大致相同的操作：

sql_single_line_comment = '--' + pp.rest_of_line

# use pyparsing's definition for C-style /* ... */ multiline comments
sql_multi_line_comment = pp.c_style_comment

comment_remover = (
    # parse quoted strings separately so that they don't get suppressed
    pp.quoted_string
    | (sql_single_line_comment | sql_multi_line_comment).suppress()
)

sql = "SELECT * FROM STUDENTS; -- watch out for Bobby Tables!"
print(comment_remover.transform_string(sql))

打印：

SELECT * FROM STUDENTS;

我很高兴看到你正在使用run_tests！如果要定义跨多行的测试，而不是使用多行字符串形式，请将测试作为字符串列表传递：

expr.run_tests([test_str1, test_str2, test_str3])

不幸的是，我没有调用transform_string的run_tests版本。
最好在第一次剥离注解之后，在第二次传递中将行拆分为单独的语句。您可以尝试以下操作：

semi = pp.Literal(";")
semi.add_parse_action(pp.replace_with(";\n\n")

然后使用与剥离注解相同的转换模式（但这一次使用的是解析操作而不是抑制）。或使用scan_string定位“;“终止符，然后将位于分号之间的SQL写出到它们各自的文件中（留给读者作为练习）。

赞(0）回复(0）举报 2023-06-05

我来回答

如何在Python 3.x中使用pyparsing从Oracle SQL脚本中删除注解？

1条答案

相关问题

热门标签

最新问答