您好,对于超长文本的处理,有很多方法。其中一种是使用BERT和LSTM构建一个处理超长文本分类的级联模型,通过分割文本并应用BERT进行预处理,然后使用LSTM进行分类,从而在保持效率的同时提高准确性。另外,复旦大学的研究团队提出了一种基于多代理协作的方法——LONGAGENT,它成功地将语言模型的上下文窗口扩展到128k令牌,显著提升了长文本处理的能力。此外,还有一些其他的方法,如使用图结构与智能体的完美结合来处理超长文本。
jdzmm42g1#
可以使用类似FAQ的模式。重点在于问题与知识点的匹配。至于详细解释,基本可以忽略(也可以摘要一些作为知识点的补充),因为详细解释与知识点是一对一的关系。只要匹配成功后能调取就可以了,不需要全部纳入。
eivgtgni2#
应该可以用类似FAQ的模式吧。重点在问题与知识点的匹配。至于详解基本可以忽略(也可以摘要一些作为知识点的补充),因为详解跟知识点是1对1的。只要匹配成功后能调取就可以了,不需要全部纳入。问题与知识点的匹配这个怎么做比较好?因为学生提问不是很专业,同一个问题有人会归纳,如“二元一次求根方程怎么解”,或者直接点的问“3x^2 = 9怎么算”,这种如何提高准确率?
hpcdzsge3#
对于直接给出算式的,可能需要先进行规范化的预处理,这样后续的工作会相对容易一些。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对于模型来说应该更容易对应到一元二次方程。
当然,如果例题特别多,保持原状直接输入也可能会产生不错的效果。实际上,做匹配工作的关键在于确保常用的询问类型都在训练集中有所体现。也就是说,测试集和训练集应该尽量具有相同的分布。因此,收集实际的query及其频次非常重要。
yv5phkfx4#
您好!对于直接给算式的,可以先做一个规范化的预处理,后面会容易一点。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对模型来说应该比较容易对应到一元二次方程。当然,如果例题特别多,保持原状直接送进去的效果也可以。
关于全文检索,PaddleNLP提供了一些功能。例如,万方系统升级后引入了PaddleNLP的语义检索技术,通过深度学习模型对文献内容进行语义分析,实现更精准的文献匹配 。
jhiyze9q5#
Milvus 只有一个字匹配,召唤率0.6这么高,按道理只有一个字匹配的都可以过滤掉了。
5条答案
按热度按时间jdzmm42g1#
可以使用类似FAQ的模式。重点在于问题与知识点的匹配。至于详细解释,基本可以忽略(也可以摘要一些作为知识点的补充),因为详细解释与知识点是一对一的关系。只要匹配成功后能调取就可以了,不需要全部纳入。
eivgtgni2#
应该可以用类似FAQ的模式吧。重点在问题与知识点的匹配。至于详解基本可以忽略(也可以摘要一些作为知识点的补充),因为详解跟知识点是1对1的。只要匹配成功后能调取就可以了,不需要全部纳入。
问题与知识点的匹配这个怎么做比较好?因为学生提问不是很专业,同一个问题有人会归纳,如“二元一次求根方程怎么解”,或者直接点的问“3x^2 = 9怎么算”,这种如何提高准确率?
hpcdzsge3#
对于直接给出算式的,可能需要先进行规范化的预处理,这样后续的工作会相对容易一些。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对于模型来说应该更容易对应到一元二次方程。
当然,如果例题特别多,保持原状直接输入也可能会产生不错的效果。实际上,做匹配工作的关键在于确保常用的询问类型都在训练集中有所体现。也就是说,测试集和训练集应该尽量具有相同的分布。因此,收集实际的query及其频次非常重要。
yv5phkfx4#
您好!对于直接给算式的,可以先做一个规范化的预处理,后面会容易一点。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对模型来说应该比较容易对应到一元二次方程。当然,如果例题特别多,保持原状直接送进去的效果也可以。
关于全文检索,PaddleNLP提供了一些功能。例如,万方系统升级后引入了PaddleNLP的语义检索技术,通过深度学习模型对文献内容进行语义分析,实现更精准的文献匹配 。
jhiyze9q5#
Milvus 只有一个字匹配,召唤率0.6这么高,按道理只有一个字匹配的都可以过滤掉了。