我现在已经尝试了一段时间来制作一个工作示例,它可以扩展到连接到sql的半大型数据集(使用软件包提供的示例),但没有成功。如果有人能给我一些帮助或分享他们的工作样品,我将不胜感激。
到目前为止我尝试过的事情:
我试过sql示例。为了满足gtid标准,我不得不中断一些sql代码来分离create和insert语句,但其他的都遵循这个示例。我遇到的问题是,当它到达集群部分时(在似乎成功运行到该点之后),会出现以下错误:
“dedupe.core.blockingerror:没有记录被一起阻止。您尝试匹配的数据是否与您训练的数据相同?“无论我做了什么,这都不是固定的(我正在训练和测试相同的数据,所以这个错误对我来说没有意义。)
对于大型地名录,我尝试使用这个例子开始,但这是我得到的错误:“typeerror:train()最多接受3个参数(给定4个)”。我在这里所做的唯一改变是我正在连接到一个mysql数据库。另外,我也找不到任何关于如何实际缩放地名索引匹配的所有部分的指导(或者只是不明白这个例子是如何帮助实现的)。
有人能用mysql将这些数据扩展到大数据吗?
请让我知道,如果我需要提供更多的信息或代码片段。
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!