PaddleNLP 教学问答系统使用哪种技术是比较好的选择?

qcbq4gxm  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(26)

您好,对于超长文本的处理,有很多方法。其中一种是使用BERT和LSTM构建一个处理超长文本分类的级联模型,通过分割文本并应用BERT进行预处理,然后使用LSTM进行分类,从而在保持效率的同时提高准确性。另外,复旦大学的研究团队提出了一种基于多代理协作的方法——LONGAGENT,它成功地将语言模型的上下文窗口扩展到128k令牌,显著提升了长文本处理的能力。此外,还有一些其他的方法,如使用图结构与智能体的完美结合来处理超长文本。

jdzmm42g

jdzmm42g1#

可以使用类似FAQ的模式。重点在于问题与知识点的匹配。至于详细解释,基本可以忽略(也可以摘要一些作为知识点的补充),因为详细解释与知识点是一对一的关系。只要匹配成功后能调取就可以了,不需要全部纳入。

eivgtgni

eivgtgni2#

应该可以用类似FAQ的模式吧。重点在问题与知识点的匹配。至于详解基本可以忽略(也可以摘要一些作为知识点的补充),因为详解跟知识点是1对1的。只要匹配成功后能调取就可以了,不需要全部纳入。
问题与知识点的匹配这个怎么做比较好?因为学生提问不是很专业,同一个问题有人会归纳,如“二元一次求根方程怎么解”,或者直接点的问“3x^2 = 9怎么算”,这种如何提高准确率?

hpcdzsge

hpcdzsge3#

对于直接给出算式的,可能需要先进行规范化的预处理,这样后续的工作会相对容易一些。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对于模型来说应该更容易对应到一元二次方程。

当然,如果例题特别多,保持原状直接输入也可能会产生不错的效果。实际上,做匹配工作的关键在于确保常用的询问类型都在训练集中有所体现。也就是说,测试集和训练集应该尽量具有相同的分布。因此,收集实际的query及其频次非常重要。

yv5phkfx

yv5phkfx4#

您好!对于直接给算式的,可以先做一个规范化的预处理,后面会容易一点。例如,将“3x^2 = 9怎么算”转换为类似“3乘以x的平方等于9怎么算”的形式。这样的句式对模型来说应该比较容易对应到一元二次方程。当然,如果例题特别多,保持原状直接送进去的效果也可以。

关于全文检索,PaddleNLP提供了一些功能。例如,万方系统升级后引入了PaddleNLP的语义检索技术,通过深度学习模型对文献内容进行语义分析,实现更精准的文献匹配 。

jhiyze9q

jhiyze9q5#

Milvus 只有一个字匹配,召唤率0.6这么高,按道理只有一个字匹配的都可以过滤掉了。

相关问题