我正在为大家学习python的课程5。我从指导老师那里得到了这个代码作为示例。有两件事我不明白,链接表的目的到底是什么。
cur.execute('''CREATE TABLE IF NOT EXISTS Pages
(id INTEGER PRIMARY KEY , url TEXT UNIQUE, html TEXT,
error INTEGER, old_rank REAL, new_rank REAL)''')
cur.execute('''CREATE TABLE IF NOT EXISTS Links
(from_id INTEGER, to_id INTEGER)''')
cur.execute('''CREATE TABLE IF NOT EXISTS Webs (url TEXT UNIQUE)''')
由于我是编程新手,这是第一个大任务,我真的需要清除这件事。顺便说一句,这个链接到spider.py提前谢谢
1条答案
按热度按时间2g32fytz1#
链接表是已爬网的页面与从该页面爬网的页面之间的连接。当然,这不是最好的方法,它可以在许多方面加以改进,因为你是一个初学者,我将不详细去。示例:如果您只添加webhttps://example.com in 这个网站的网站表也将被添加到网页表中,所以假设这是你的第一个网站,我们从这个网站得到的链接是两个,所以链接表将存储这一点,并保持它的记录。链接表是这样的。1 2 1 3. 这是我通过查看你的代码得到的