V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syaoranex  ›  全部回复第 1 页 / 共 2 页
回复总数  38
1  2  
这个问题必须给足条件才有意义:

我向银行借款 2000, 分 12 期等额本息还款, 每期还款 200.92 , 这样算下来贷款的名义年利率是多少?

只要 AI 能调用代码执行器基本就能回答正确。
57 天前
回复了 andforce 创建的主题 程序员 约 192GB 短信样本如何标记分类?
没必要所有的短信都拿来训练,同意楼上所说,可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候,可以先用正则等文本匹配来识别短信发送源,例如 [XX 应用] 之类的,然后在每个发送源下,使用文本嵌入模型转换向量,之后对向量进行聚类,建议聚多个类,挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快,因为文本嵌入模型一般不大,运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快,可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法,这种方法也许更适合,如果数据集中同一来源的大多数短信是套取模板(比如运营商的话费流量短信)生成的,那么可以针对模板类短信取其中千分之一的样本,模板类短信之外的取较大比例的样本,覆盖度更好。

之后就是用 LLM 来进行文本分类了,文本分类任务上,再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题,可以搭配提示工程尝试效果不错的小模型,或者使用 Groq 等平台,它们提供了吞吐速度较快的大模型,分类任务足够了;而且可以搭配工程实现的优化:对于同一个聚类样本,例如 2K 条样本,如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信,那么可以将后 1K 条样本直接划为垃圾短信,这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理,我认为资金充足的情况下,1 秒 10 个的处理速度还是可以达到的。按照这个速度,一个月可以弄完 2.5 kW 条样本的分类。
190 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。
190 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。

用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。
赞同楼上,买房是现在最不应该着急的事情。
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
331 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@cherryas 谷歌账号废掉。
333 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@klo424 我的账号就是很久以前注册的,一样被查。

@SenLief 最让我困惑的是这个付款资料我都不知道什么时候设置的了,起码距离上次修改账号设置有大半年或者将近一年以上了。所以应该不是迁移区域触发的。


@travellerly 现在注册和订阅 GPT 都不需要手机号。但使用礼品卡订阅的话,你需要应付的风险是谷歌的身份信息抽查或者 Apple 外区账号的封号。
334 天前
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@WangZhongWangHTC 没有在美国定居的身份和地址证明在被抽查时都是有这个问题的。谷歌对于付款资料的描述是:只有您移居新的国家/地区时,才能修改(法定)付款资料。
360 天前
回复了 cirton 创建的主题 OpenAI gpts 能实现以下功能吗?
1. 如果 PDF 里的文字不是文本形式而是图片形式,无法解析出文本,不行。
2. 如果 PDF 解析不出格式和位置正确的文本,那么被嵌入知识库的就是错误的内容,不行。
3. 如果在回答过程中无法触发知识库(上传的文档转换后的文本数据库)搜索,就无法获取知识库的知识,所以无法回答。为了提高触发概率,需要优化系统人设( Prompt )。
4. 知识库搜索错误或者匹配度不高,回答容易不准确或者出错。
5. 综上所述,难以实现。
2023-11-18 01:34:03 +08:00
回复了 syaoranex 创建的主题 OpenAI 给 GPTs 泼一盆冷水:只不过是一个会搜索知识库的 Prompt 模板
@James2099 你觉得不浅显你倒是说说怎么不浅显了? Action 不就是 API 里的函数调用
2023-11-10 01:31:07 +08:00
回复了 JNian 创建的主题 OpenAI 现在怎么能用上 GPT4.0turbo
1. 是 Turbo (但是实际上只有 32K 上下文),经过实测,不如 GPT-4 ( 8K/32K )聪明,但是生成速度略快一些。50 条消息/3 小时的限制依然在。
2. Turbo 的特色功能无非是 128K 超长上下文、更新到 2023 年 4 月的"知识",便宜费率,更快的输出速度。这些只要是支持了 Turbo 的 api 的都是可以体验到的。特色功能例如 GPT-4 Turbo with vision 需要中转网站或者中转 API 支持。但是支持的特性/功能肯定是官方的子集,肯定不会和官方 plus 一样全的。
3. plus 适合高强度使用或想尽快体验新功能的用户。(使用 key 的) API 的好处是:按量计费,数据不会被拿去训练,可以高度自定义(需要少量编程),缺点是 GPT-4 用多了还是比较贵的。按你需求来。
4. 部署此类应用并向公众提供服务的话有法律风险,我也不懂。但请注意请求官方 api 的 ip 不能是 openai 没有开通服务的地区 ip ,例如中国大陆和香港,否则用多了会被封号。另外如果给不熟悉 GPT 工作机制的人用的话,我见过有人一个对话持续到底地用,每次上下文长度拉满,128K input 和 1K output 每交互一次就要花费 1.3 美元,开放给别人用的时候注意限制窗口大小避免产生高开销。
2023-10-28 06:09:13 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例外 1:家庭关系

问题:

请回答下面的问题:

警察局长在路边与一位老人谈话,这时跑过来一个小孩,急忙对警察局长说:「你爸爸和我爸爸吵起来了!」
老人问:「这孩子是你什么人?」
警察局长说:「是我儿子」
请问:这两个吵架的人分别跟警察局长是什么关系?


期望的正确回答:
基础版:吵架的人分别是警察局长的老公和父亲,也就是说,警察局长是小孩的母亲,小孩的父亲和外公吵起来了。
进阶版:这两个吵架的人分别是警察局长的男性伴侣和父亲。在现代社会的多元家庭结构中,警察局长既有可能是女性,也有可能是男性(即同志家庭)。

测试结果:
GPT-4 也没回答出来。其他模型也一样。
2023-10-21 16:35:07 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
2023-07-12 02:19:28 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
2023-06-21 03:22:34 +08:00
回复了 anticipated 创建的主题 OpenAI 问一下,怎么给 gpt 喂代码,有多个小文件
先将程序分解为功能不同的文件,然后再将文件中代码和函数执行的功能总结为标准输入输出的自然语言描述(可以借助 GPT 来总结),再将文件结构和每个文件中执行的功能描述合成一个文本,喂给 GPT-4-32K 。
2023-06-17 19:06:03 +08:00
回复了 s609926202 创建的主题 OpenAI 我向 Chatgpt 提问关于一个产品的信息,并指定了目标网站
你访问的第三方 GPT 接入的是 bing 。
2023-06-14 07:06:13 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 9:比例问题

问题:「求解以下物理问题:一瓶无害放射性同位素溶液,其半衰期为 20 天,测得每分钟衰变 6×10^7 次.今将这瓶溶液倒入一水库中,80 天后可以认为溶液已均匀分布在水库中,现取 1 立方米水样本测得每分钟衰变 20 次,则该水库蓄水量为多少立方米?」

答案:187,500 立方米( 1.875×10^5 )

该问题 GPT4 可以稳定回答,GPT4-Mobile 版本可以稳定回答,但是多尝试几次可能会出错(正确率大概在 75%)。

GPT3.5/Claude+/New Bing 偶尔可以给出正确解答,但是很不稳定,其中 Claude+正确率最高,在 25%-45%间。

文心一直无法给出正确解答。
2023-06-14 06:16:22 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1339 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 17:41 · PVG 01:41 · LAX 09:41 · JFK 12:41
Developed with CodeLauncher
♥ Do have faith in what you're doing.