如何使用sql查询wikipedia:更好地描述wiki模式?如何查询页面内容?

pokxtpni  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(474)

我的任务是处理以下问题:使用sql,查询wikipedia并获取单词nice出现的次数。另外,显示文章的名称和每篇文章这个单词“nice”出现的次数。
我在用sql访问wikipedia页面的内容时遇到了问题。我使用quarry来处理查询,但我根本找不到页面内容的存储位置。我以此作为参考:https://www.mediawiki.org/w/index.php?title=manual:database\u layout/diagram&action=渲染
我认为页面的内容可能存储在页面表中,也可能存储在内容表中。但是,这些字段及其数据类型对我来说都没有意义(就保存页面的实际文本内容而言)。文章的实际内容存储在哪里?有人能简单描述一下这个数据库是如何表示维基百科页面的吗?

wyyhbhjk

wyyhbhjk1#

一个文本页面就不那么简单了。在mediawiki中的每个页面(存储在 page 表)可以有多个修订(存储在 revision 表),并且每个修订版在 text table。您很可能希望对这些表进行连接以连接信息。

相关问题