这几天试用了 google notebooklm ,发现随便上传几个文档,其準确率高的非常吓人。
目前测试的文档类型
- 8个 markdown 档,各档案文字不超过 3k
- 2个 pdf 档,各档案文字皆超过 10k
回顾自己尝试建立的 RAG 实在惨不忍睹,目前看过很多提升 RAG 的技术,包含:
其中,我认为 chunk method 这部份是我遇到最大的瓶颈,往往会把连贯的内容拆分开来,导致后续搜索不完全,例如下面文档:
Success Cases:
1. xxx
2. aaa
3. bbb
尝试使用 Semantic,会因为 xxx, aaa, bbb 是不太一样的内容,导致内容被切开。
尝试使用 Recursion,会因为 chunk size 的初始设定,导致有机率被切开。
此时如果询问 "success cases 有哪些?" ,基本上搜索的区块只会有 xxx,后半段被拆开的则搜不到,然而这类型的问题在 notebooklm 都可以正确处理(实在佩服...)。
想请教版上的各位,是否能给我一些提升 RAG 的建议!
2 个回答
0
zivzhong
iT邦研究生 4 级 ‧ 2024-12-21 15:12:59
感觉可以参考看看:
https://www.facebook.com/share/p/18P9vPQ5Zz/
0
小小红旗
iT邦新手 5 级 ‧ 2024-12-26 16:06:20
研究一下 RGAR , 来评估RAG
https://developer.volcengine.com/articles/7389112206086176804