See https://github.com/nltk/nltk/blob/3.2.2/nltk/test/wordnet.doctest . We've got references like:
Bug 284: instance hypernyms not used in similarity calculations
and
Issue 541: add domains to wordnet
These certainly ain't references to issues opened here at https://github.com/nltk/nltk though; #284 and #541 are both non-WordNet-related issues.
I'm guessing these issue numbers refer to the issue tracker of some other project hosting platform that historically hosted NLTK - although I have no idea where that was and will need someone familiar with the project's history like @stevenbird to point me in the right direction. If those issues are still visible on the internet, then we should replace the issue numbers with full URLs to the issues; otherwise I'll try to get Wayback Machine links.
8条答案
按热度按时间hi3rlvi21#
@ExplodingCabbage 和 @fcbond 可能知道。
dxpyg8gm2#
@ExplodingCabbage
问题284和541在NLTK网站的这个标题下列出。以下是引用以方便参考。
Bug 541似乎是关于添加领域的问题。我可以看到第一个例子,因为代码有几种不同的含义,但我不确定第二个和第三个例子中什么是有效的新领域。
Bug 284可能更严重,根据描述:它说同义词没有被考虑在内来计算相似度分数,而且似乎确实发生了这种情况:
Bug 284
Bug 541
ylamdve63#
首先,我们需要检查是否解决了bug。对吧?
z6psavjg4#
首先,我们需要检查这些bug是否已经解决。对吗?
👍同意!
现在我不确定第一个bug是否已经修复,我不知道那里使用的所有示例的正确相似度分数是多少。
wn.synset('john.n.02').wup_similarity(wn.synset('dog.n.01'))
的相似度与今天相同(刚刚运行了示例),所以它要么是正确的,要么没有修复。对于任何父树来说,man
似乎都被正确地计算为最短距离(man
和dog
在其中一个树中共享大多数父节点,而0.57...
似乎是一个相对合理的分数)。因此,也许这个bug指的是其他方法,也许是使用brown_ic
对象的那些方法?根据我的当前理解,第二个bug与其说是一个bug,不如说是一个可以改进的地方(增加域的覆盖率)。对于2/3和3/3的情况,调用
topic_domains()
的输出似乎很好,但对于1/3的情况,它是正确的但不完整的。有人知道包含允许选项的参考域集吗?如果需要,它可以扩展吗?
扩展域的一个简单方法可以是:
'code.n.03'及其同义词以及任何其他用相同域标记的概念上训练一个
domain:computer_science` 二元分类器;这似乎是可行的,但可能需要一段时间,并且需要进行一些严肃的修订。
n9vozmp45#
首先,我们需要检查这些bug是否已经解决。对吧?
当然要检查,但鉴于我们引用的这些来自回归测试部分,我假设它们已经解决了;这些测试是为了证明修复工作有效并防止回归。
vohkndzv6#
如果bug可以认为已经修复,那么关闭这个问题似乎就安全了。毕竟这是2017年4月的问题。
s8vozzvw7#
我没有打开这个问题,因为我担心这些bug可能没有被修复,而是因为这些bug编号实际上是无法跟踪的断开链接 - 无法跟进的问题引用。如果有人熟悉NLTK托管的历史,能指出旧的问题追踪器在哪里就好了;然后我们可以用类似的方式用互联网档案馆的链接替换这些bug编号,就像最近的回归测试用完整的GitHub问题URL来识别它们对应的bug一样。
gstyhher8#
正确的解决方案是将代码中的对问题的引用移除,对吗?在代码内部的注解中引用问题的做法已经被证明是脆弱的。