unilm 如何进行网页中的目标检测?

hpcdzsge  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(26)

给定网页截图,它是否能理解该截图中的网页元素。网页元素可以是:

  • 表格
  • 下拉菜单
  • 编号列表
  • 项目符号列表
  • 单选按钮
  • ....

我们能否使用这些模型来检测网页布局?

gj3fmq9x

gj3fmq9x1#

这取决于您使用的标注数据。如果您只有带有标签的截图,您可以微调DiT模型进行目标检测。或者,如果您有网页源代码,那么MarkupLM可能是您需要尝试的模型。

a11xaf1n

a11xaf1n2#

我拥有截图、HTML和DOM的访问权限。
想知道这些模型的微调步骤有哪些例子吗?

t3irkdon

t3irkdon3#

你好,我关于DIT微调的问题也有相同的疑问。你能具体说明一下GPU的要求吗?

相关问题