我正在做一个大学项目,我需要从日本气象厅的网站上搜集数据来建立地震预报模型
网址:https://www.data.jma.go.jp/eqev/data/daily_map/20220918.html
我成功地用美丽汤(尽管是日语)抓取了数据
代码:
table = soup.find("pre").find(text=True)
print(table)
输出:
年 月 日 時 分 秒 緯度 経度 深さ(km) M 震央地名
-----------------------------------------------------------------------------------------
2022 9 18 00:01 33.6 35° 6.6'N 138°11.5'E 12 0.9 静岡県中部
2022 9 18 00:02 2.6 35° 6.4'N 138°12.1'E 13 0.0 静岡県中部
2022 9 18 00:07 1.3 23° 5.5'N 121°21.2'E 0 3.9 台湾付近
2022 9 18 00:07 26.1 37°52.6'N 141°41.9'E 56 1.4 宮城県沖
2022 9 18 00:14 1.5 37°29.7'N 137°12.1'E 11 0.4 石川県能登地方
2022 9 18 00:17 9.7 37°28.0'N 137°11.5'E 11 0.9 石川県能登地方
2022 9 18 00:18 3.0 37°49.6'N 141°36.0'E 49 1.1 福島県沖
2022 9 18 00:20 55.5 35°54.3'N 138° 3.7'E 11 0.8 長野県南部
2022 9 18 00:21 39.5 32°17.2'N 130°24.3'E 0 0.7 熊本県天草・芦北地方
2022 9 18 00:23 26.7 37°50.8'N 141°35.4'E 50 1.1 福島県沖
2022 9 18 00:26 28.9 36°48.8'N 140°35.6'E 8 0.2 茨城県北部
2022 9 18 00:26 35.2 24°39.8'N 125°26.3'E 54 1.9 宮古島近海
2022 9 18 00:27 59.3 37°17.9'N 141°48.7'E 40 1.3 福島県沖
2022 9 18 00:33 4.8 23° 9.0'N 121°14.8'E 6 4.0 台湾付近
2022 9 18 00:36 32.0 26°21.7'N 125°51.8'E 19 4.1 沖縄本島北西沖
2022 9 18 00:38 56.7 37°30.3'N 137°12.4'E 12 0.3 石川県能登地方
2022 9 18 00:42 51.4 36°41.3'N 141°45.8'E 25 1.2 福島県沖
2022 9 18 00:43 44.7 32°30.3'N 130°43.9'E 10 0.6 熊本県熊本地方
2022 9 18 00:45 52.0 37°30.3'N 137°13.1'E 11 0.6 石川県能登地方
2022 9 18 00:49 20.1 35°10.5'N 139°10.1'E 12 -0.1 相模湾
2022 9 18 00:53 54.4 35°30.1'N 135°54.9'E 14 0.7 福井県嶺南
2022 9 18 00:55 18.1 37°23.1'N 141°42.6'E 39 1.1 福島県沖
2022 9 18 00:56 0.9 37°51.2'N 141°35.1'E 47 0.9 福島県沖
2022 9 18 00:59 13.3 39°59.5'N 140°30.1'E 7 0.6 秋田県内陸北部
2022 9 18 01:01 46.3 42°57.0'N 143°21.6'E 124 1.6 十勝地方中部
2022 9 18 01:02 49.6 43°14.9'N 146°26.4'E 44 2.5 根室半島南東沖
2022 9 18 01:05 45.1 35°31.7'N 136°33.5'E 10 0.2 岐阜県美濃中西部
2022 9 18 01:10 18.9 37°31.3'N 137°13.7'E 11 0.4 能登半島沖
2022 9 18 01:10 26.6 37°31.0'N 137°13.5'E 12 0.7 能登半島沖
2022 9 18 01:11 10.0 36°48.5'N 140°35.2'E 7 0.2 茨城県北部
2022 9 18 01:12 33.2 37°45.9'N 141°37.2'E 58 1.0 福島県沖
2022 9 18 01:13 21.7 44°53.8'N 142° 7.1'E 0 0.5 上川地方北部
2022 9 18 01:15 28.0 40° 4.4'N 144°31.3'E 42 1.1 三陸沖
2022 9 18 01:16 14.3 26°23.1'N 125°50.7'E 15 3.7 沖縄本島北西沖
2022 9 18 01:18 45.9 23° 3.7'N 121°20.8'E 0 3.6 台湾付近
2022 9 18 01:20 57.8 37°42.9'N 141°31.5'E 53 1.2 福島県沖
2022 9 18 01:21 21.1 33°54.1'N 133°50.6'E 11 0.1 徳島県北部
2022 9 18 01:21 59.9 39° 1.7'N 140°52.5'E 8 0.0 岩手県内陸南部
2022 9 18 01:22 25.2 32° 2.4'N 129°59.8'E 9 0.9 天草灘
2022 9 18 01:22 53.4 40°14.6'N 141°13.2'E 6 -0.1 岩手県内陸北部
2022 9 18 01:23 56.8 37°30.5'N 137°15.4'E 13 1.1 石川県能登地方
2022 9 18 01:27 16.4 34°50.3'N 135°24.3'E 9 0.8 兵庫県南東部
2022 9 18 01:33 6.7 35°35.4'N 136°20.6'E 14 0.7 岐阜県美濃中西部
2022 9 18 01:34 45.3 37°30.1'N 137°13.3'E 11 0.4 石川県能登地方
2022 9 18 01:36 47.0 35°10.7'N 137°43.2'E 16 0.2 愛知県東部
2022 9 18 01:38 53.0 26°15.5'N 125°53.0'E 8 3.2 沖縄本島北西沖
2022 9 18 01:40 2.9 37°12.4'N 141°24.0'E 11 1.3 福島県沖
2022 9 18 01:44 7.0 23° 0.9'N 121°24.6'E 2 3.9 台湾付近
2022 9 18 01:48 1.1 36° 6.2'N 137°41.7'E 8 0.2 長野県中部
2022 9 18 01:54 8.1 43°46.8'N 145° 1.5'E 161 2.5 根室地方北部
2022 9 18 01:57 25.1 37°50.1'N 141°50.4'E 35 1.6 宮城県沖
2022 9 18 01:58 48.7 33°46.9'N 141°33.8'E 33 3.5 八丈島東方沖
2022 9 18 01:59 28.7 39° 3.7'N 140°52.2'E 8 0.1 岩手県内陸南部
2022 9 18 01:59 40.6 41°44.9'N 144°13.3'E 24 1.5 十勝沖
2022 9 18 02:01 16.5 36°48.0'N 141°21.8'E 8 2.1 茨城県沖
2022 9 18 02:01 24.3 35°11.2'N 132°34.7'E 12 0.6 島根県西部
2022 9 18 02:02 32.0 34°37.3'N 136°50.1'E 14 0.7 伊勢湾
2022 9 18 02:07 2.5 38°48.8'N 142° 1.9'E 53 1.1 宮城県沖
2022 9 18 02:12 50.6 37°56.1'N 141°43.3'E 53 1.3 宮城県沖
2022 9 18 02:13 32.1 41°41.2'N 143°50.0'E 18 1.7 十勝沖
(由于字符限制,输出被缩短)
我试图翻译它,但没有成功,然后我想只提取数字数据来进行预测。
如果有人给我解释一下如何将这个文本表转换成用于预测的 Dataframe ,那将会很有帮助。
谢谢你!
2条答案
按热度按时间7kjnsjlb1#
试一下这个例子(可能需要重新排列列标题--但我不懂日语,所以我不知道该怎么做):
打印:
|年月|日|時分秒|緯度|経度|深さ(Km)M|震央地名|未命名:7|未命名:8
-|
0|2022|9|18 00:01|33.6|北纬35°6.6‘|东经138°11.5’|12|0.9|静岡県中部
1|2022|9|18 00:02|2.6|35°6.4‘N|138°12.1’E|13|0|静岡県中部
2|2022|9|18 00:07|1.3|23°5.5‘N|121°21.2’E|0|3.9|台湾付近
3|2022|9|18 00:07|26.1|北纬37°52.6‘|东经141°41.9’|56|1.4|宮城県沖
4|2022|9|18 00:14|1.5|37°29.7‘N|137°12.1’E|11|0.4|石川県能登地方
5|2022|9|18 00:17|9.7|37°28.0‘N|137°11.5’E|11|0.9|石川県能登地方
6|2022|9|18 00:18|3|北纬37°49.6‘|东经141°36.0’|49|1.1|福島県沖
7|2022|9|18 00:20|55.5|北纬35°54.3‘|东经138°3.7’|11|0.8|長野県南部
8|2022|9|18 00:21|39.5|北纬32°17.2‘|东经130°24.3’|0|0.7|熊本県天草·芦北地方
9|2022|9|18 00:23|26.7|北纬37°50.8‘|东经141°35.4’|50|1.1|福島県沖
0lvr5msh2#
只需复制整个表并使用以下命令:
提示1:关于网络报废,如果这个表格本身已经存在于网站上,你实际上可以用这个来刮掉它:
提示2:像这样的网站通常有一个API,它以JSON格式向你返回数据,你只需注册并获得API密钥和密码,然后你ping他们的服务器,它就会返回你所请求的数据。