V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
foxthree
V2EX  ›  问与答

大模型搜索问题

  •  
  •   foxthree · 1 天前 · 493 次点击

    我们有一个需求,想要根据 isbn 号来获取图书的一些基本信息(名称、作者和出版社等),于是有两种方法,一个是直接找一个图书信息网站,看他们有没有提供 isbn 搜索的接口,二就是把 isbn 号发给大模型,让它来帮我们搜一下并且整合返回一下;

    因为我们公司已经搭建了一套大模型沟通的东西,就直接想用第二个方法来了。问题就来了,我在豆包、deepseek 等网站上使用同样的提示词,跟在我们公司走沟通豆包和 deepseek 大模型的接口获取到的内容差别很大,页面是正确的,但是接口返回的就是错误的,在接口里面让它们返回参考的链接地址,结果给我的也都是假的地址,跳转后根本不存在,这是因为使用模型的版本不同造成的吗?还是有什么其他原因导致?

    提示词: """ 你是教材书目检索助手。请根据给定 ISBN 进行联网检索,并基于检索结果做严格一致匹配,输出严格 JSON ,不要输出 markdown 。

    ISBN: 7506813718

    输出字段:

    • matched: bool
    • match_type: isbn_exact / no_match
    • confidence: 0-100 的整数
    • evidence: 对象,至少包含 isbn/book_name/editor/publishing_house
    • references: 数组,每项包含 title/link
    • book_info: 对象,字段包括 cover, book_name, editor, publishing_house, publishing_date, isbn, award_info, subject, tags, intro_info, directory, attachments

    要求:

    1. 仅当检索结果页面中明确出现完全一致的 ISBN={isbn} 时,才允许 matched=true 。
    2. 如无法确认完全一致 ISBN ,必须返回 matched=false 、match_type=no_match 。
    3. 只抽取书目信息,不要撰写/扩写简介文案; intro_info 的 content 全部返回空字符串。
    4. 不允许编造信息,未知字段返回空字符串或空数组。
    5. tags 、attachments 必须是数组。
    6. references 必须提供来源标题和链接。 """

    豆包页面返回: {"matched": true,"match_type": "isbn_exact","confidence": 100,"evidence": {"isbn": "7506813718","book_name": "金银岛(中英对照)","editor": "史蒂文森","publishing_house": "中国书籍出版社"},"references": [{"title": "《金银岛 (中英对照)》 [价格 目录 书评 正版] _中图网 (原中国图书网)","link": "https://m.bookschina.com/1458650.htm"}],"book_info": {"cover": "","book_name": "金银岛(中英对照)","editor": "史蒂文森","publishing_house": "中国书籍出版社","publishing_date": "2005-07-01","isbn": "7506813718","award_info": "","subject": "外语","tags": ["中英对照", "世界名著", "英语读物"],"intro_info": [{"title": "内容简介","content": ""},{"title": "作者简介","content": ""},{"title": "丛书信息","content": ""}],"directory": "","attachments": []}}

    接口返回: {'book_info': {'attachments': [], 'award_info': '', 'book_name': '数据结构与算法分析( C 语言描述)', 'cover': 'https://img1.doubanio.com/view/subject/s/public/s34432501.jpg', 'directory': [], 'editor': 'Mark Allen Weiss', 'intro_info': [{'content': '', 'title': '内容简介'}, {'content': '', 'title': '作者简介'}, {'content': '', 'title': '本书特色'}], 'isbn': '9787302634386', 'publishing_date': '2023-09', 'publishing_house': '清华大学出版社', 'subject': '计算机科学与技术', 'tags': ['数据结构', '算法分析', 'C 语言', '计算机教材']}, 'confidence': 100, 'evidence': {'book_name': '数据结构与算法分析( C 语言描述)', 'editor': 'Mark Allen Weiss', 'isbn': '9787302634386', 'publishing_house': '清华大学出版社'}, 'match_type': 'isbn_exact', 'matched': True, 'references': [{'link': 'https://book.douban.com/subject/36504507/', 'title': '豆瓣读书'}, {'link': 'https://www.tup.tsinghua.edu.cn/bookdetail.aspx?ISBN=9787302634386', 'title': '清华大学出版社官网'}]}

    4 条回复    2026-04-01 22:22:44 +08:00
    foxthree
        1
    foxthree  
    OP
       1 天前
    求助一下大家!
    foxthree
        2
    foxthree  
    OP
       1 天前
    接口返回的数据贴错了,但也可以直接理解为一个错误的书籍,和错误的链接
    yunv2
        3
    yunv2  
       1 天前
    1.豆包、deepseek 页面,其实是智能体,这些页面可以理解为在大模型接口的基础上,添加了前置的处理流程;针对不同的问题、文件等,有一系列的前置处理;甚至使用的模型,都和对外公开的模型不一样;
    2.你对接的大模型接口,只是大模型的接口;
    panda188
        4
    panda188  
       1 天前
    你需要加 websearch 这种工具,或者什么书目检索的 mcp 这种吧?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3608 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:04 · PVG 08:04 · LAX 17:04 · JFK 20:04
    ♥ Do have faith in what you're doing.