例如,我有3个句子,如下面其中一个句子在中间包含引用标记(Warren and Pereira, 1982)
。引文总是在括号中,格式如下:(~字符串~逗号(,)~空格~数字~)
他住在Nidarvoll,今晚我必须在6点钟赶去奥斯陆的火车。该系统被称为BusTUC,是建立在经典系统CHAT-80(Warren和Pereira,1982)的基础上。CHAT-80是一个最先进的自然语言系统,其自身的优点令人印象深刻。
我使用Regex只提取中间的句子,但它会打印所有的3个句子。结果应该是这样的:
该系统称为BusTUC,是建立在经典系统CHAT-80(Warren和Pereira,1982)的基础上。
2条答案
按热度按时间atmip9wb1#
这个圈套... 2个句子代表关注的病例:
首先,在引文位于句子结尾的情况下进行匹配:
当引文不在句末时匹配:
将这两种情况与“|'正则表达式运算符:
运行:
在这两种情况下,你得到的句子与引文。
一个很好的资源是python正则表达式documentation和附带的regex howto页面。
干杯
gcuhipw92#
你可以将文本分成一系列句子,然后选择以“)”结尾的句子。