这几天试用了 google notebooklm ,发现随便上传几个文档,其準确率高的非常吓人。

目前测试的文档类型

  • 8个 markdown 档,各档案文字不超过 3k
  • 2个 pdf 档,各档案文字皆超过 10k

回顾自己尝试建立的 RAG 实在惨不忍睹,目前看过很多提升 RAG 的技术,包含:

  • chunk method 的选择
  • hybrid search 结合向量搜索与全文搜索BM25
  • 其中,我认为 chunk method 这部份是我遇到最大的瓶颈,往往会把连贯的内容拆分开来,导致后续搜索不完全,例如下面文档:

    Success Cases:
    1. xxx
    2. aaa
    3. bbb

    尝试使用 Semantic,会因为 xxx, aaa, bbb 是不太一样的内容,导致内容被切开。

    尝试使用 Recursion,会因为 chunk size 的初始设定,导致有机率被切开。

    此时如果询问 "success cases 有哪些?" ,基本上搜索的区块只会有 xxx,后半段被拆开的则搜不到,然而这类型的问题在 notebooklm 都可以正确处理(实在佩服...)。

    想请教版上的各位,是否能给我一些提升 RAG 的建议!

    2 个回答

    0

    zivzhong

    iT邦研究生 4 级 ‧ 2024-12-21 15:12:59

    感觉可以参考看看:
    https://www.facebook.com/share/p/18P9vPQ5Zz/

    0

    小小红旗

    iT邦新手 5 级 ‧ 2024-12-26 16:06:20

    研究一下 RGAR , 来评估RAG
    https://developer.volcengine.com/articles/7389112206086176804