我们想开始使用automl机器学习技术对数据进行分析。我们想创建一个表,后台进程将合并并准备我们的关系数据库(mysql),这样就可以很容易地导出一个电子表格,并将其导入一些automl程序(可能是h2o)。
在我们的平台中,用户可以执行几种类型的操作,我们称之为“活动”。我们要做的是跟踪他们从账户创建开始的参与加班,并将此数据传递到我们的automl程序中进行分析,以确定某些行为是否会导致某些结果(例如,某些活动的减少会导致他们的账户被取消)。
最终,我们希望电子表格具有以下格式:
用户|活动|类型|周1 |计数|周2 |计数|周3 |计数|…|周数
每周计数是该用户在其活动之后每周的活动计数。如您所见,列的总数每周都会增加。由于分辨率是以周为单位的,因此列数应该是合理的。我们从5年前开始(552=260周),也许我们还会再去20周(5220=1040周/列)。在电子表格中是可行的,并且非常接近mysql的最大列数(在我们的mysql版本中是1017)。
但是,我想知道,如果不为每周创建列,替代结构是否也可以同样有效:
用户id活动类型年周计数
两种方法都有利弊吗?特别是,我们还希望使用此表作为源数据,将其提供给图形库,以显示随时间推移的每个活动。
1条答案
按热度按时间pokxtpni1#
我认为最好的方法实际上是做到以下几点:
用户|活动|类型|年周|持续时间|周数|计数
yearweek是mysql yearweek()函数,它为一年中的一年和一周提供类似201825的内容。
但对于automl,我们更需要它与创建的距离(例如,能够告诉用户“当用户在第5周后停止评论时,他们就会取消”之类的信息)。