协处理器中的hbase内部扫描与过滤

全部：
最近，我在hbase（0.94.17）中编写了一个协处理器，这个类扩展了baseendpointcoprocessor，一个rowcount方法来计算一个表的行数。
我有个问题。
如果我没有在scan中设置一个过滤器，我的代码可以很好地用于两个表。一个表有1000000行，另一个表有160000000行。数那张大table花了大约2分钟。
但是，如果我在scan中设置了一个过滤器，它只能在小表上工作。它将在更大的表上抛出一个例外。org.apache.hadoop.hbase.ipc。execrpcinvoker$1@2c88652b，java.io.ioexception:java.io.ioexception:java.lang.indexoutofboundsexception:索引：0，大小：0
相信我，我反复检查我的代码。
所以，要用filter计算我的表，我必须编写以下愚蠢的代码，首先，我没有在scan中设置filter，然后，在我得到一行记录之后，我编写了一个方法来过滤它。
两张table都能用。
但我不知道为什么。
我试图阅读hregion.java中的scanner源代码，但是我没有得到它。
所以，如果你知道答案，请帮帮我。谢谢您。

@Override
    public long rowCount(Configuration conf) throws IOException {
        // TODO Auto-generated method stub
        Scan scan = new Scan();
        parseConfiguration(conf);
        Filter filter = null;
        if (this.mFilterString != null && !mFilterString.equals("")) {
            ParseFilter parse = new ParseFilter();
            filter = parse.parseFilterString(mFilterString);
            // scan.setFilter(filter);
        }
        scan.setCaching(this.mScanCaching);
        InternalScanner scanner = ((RegionCoprocessorEnvironment) getEnvironment()).getRegion().getScanner(scan);
        long sum = 0;
        try {
            List<KeyValue> curVals = new ArrayList<KeyValue>();
            boolean hasMore = false;
            do {
                curVals.clear();
                hasMore = scanner.next(curVals);
                if (filter != null) {
                    filter.reset();
                    if (HbaseUtil.filterOneResult(curVals, filter)) {
                        continue;
                    }
                }
                sum++;
            } while (hasMore);
        } finally {
            scanner.close();
        }
        return sum;
    }

以下是我的hbase util代码：

public static boolean filterOneResult(List<KeyValue> kvList, Filter filter) {
        if (kvList.size() == 0)
            return true;
        KeyValue kv = kvList.get(0);
        if (filter.filterRowKey(kv.getBuffer(), kv.getRowOffset(), kv.getRowLength())) {
            return true;
        }
        for (KeyValue kv2 : kvList) {
            if (filter.filterKeyValue(kv2) == Filter.ReturnCode.NEXT_ROW) {
                return true;
            }
        }
        filter.filterRow(kvList);
        if (filter.filterRow())
            return true;
        else
            return false;
    }

好吧，那是我的错。在我使用jdb调试代码之后，我得到了以下异常，

"org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.IndexOutOfBoundsException: Index: 0, Size: 0
    at java.util.ArrayList.rangeCheck(ArrayList.java:635)
    at java.util.ArrayList.get(ArrayList.java:411)

很明显，我的成绩表是空的。

hasMore = scanner.next(curVals);

这意味着，如果我在扫描中使用过滤器，这个曲线列表可能是空的，但是hasmore是真的。
但是我想，如果一个记录被过滤了，它应该跳转到下一行，并且这个列表永远不应该是空的。我错了。
我的客户端没有在我的控制台上打印任何远程错误消息，它只是捕获这个远程异常，然后重试。在重试10次之后，它会打印另一个异常，这是没有意义的。

协处理器中的hbase内部扫描与过滤

1条答案

相关问题

热门标签

最新问答