V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dingawm
V2EX  ›  程序员

只能说 DeepSeek V4 Pro 继续努力吧,天气卡片效果一般

  •  
  •   dingawm · 10 小时 21 分钟前 · 9630 次点击

    简单试了下天气卡片,中文英文都试了,太简陋了: 图片.png

    中文:

    创建一个包含 CSS 和 JavaScript 的单一 HTML 文件,用于生成动画天气卡片。卡片应该通过不同的动画直观地表示以下天气状况:
    
    风:(例如,移动的云朵、摇摆的树木或风线)
    
    雨:(例如,下落的雨滴、形成的水坑)
    
    阳光:(例如,闪耀的光线、明亮的背景)
    
    雪:(例如,下落的雪花、积累的雪)
    
    所有天气卡片应并排显示,卡片应该有深色背景。
    
    在这个单一文件中提供所有 HTML 、CSS 和 JavaScript 代码。JavaScript 应该包含一种切换不同天气状况的方式(例如,一个函数或一组按钮)以展示每种天气的动画效果。
    

    英文:

    Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.
    
    第 1 条附言  ·  3 小时 37 分钟前
    就像有些老哥说的,我的评价确实太武断了,不太能说明啥,而且有点标题党,容易引起争议。
    目前单纯的 API 价格相对于订阅制来说还是会让人价格很敏感,希望后面尽快推出 Coding Plan 吧。
    另外,即使国产模型还没到 Opus 4.6 的级别,但是好歹 OpenAI 的新模型到了,不用再看 A\ 的脸色了。国产模型目前的进步速度,应该能尽快追赶上的。
    还有别吵了,我都下沉过了还是没用,看了下还是挂在热门那。哪位管理员看到帮忙从热门那下掉。
    120 条回复
    1  2  
    Nzelites
        1
    Nzelites  
       10 小时 19 分钟前
    有无其它 ai 的对比?
    dingawm
        2
    dingawm  
    OP
       10 小时 15 分钟前
    @Nzelites #1 可以网上找找其他的看看,差距有点明显,可能 Sonnet 4.6 都不如,不过我这也只是单个测试,等后面看看有没有更多的测试吧。晚点可能再试一下 kimi2.6 ,最近用得挺多,目前感觉国产里编程写前端第一的,后端还没试。
    Nzelites
        3
    Nzelites  
       10 小时 14 分钟前
    @dingawm kimi 前端这么好?我让它写后端感觉有点笨,下次试试看
    dingawm
        5
    dingawm  
    OP
       10 小时 12 分钟前
    @96 #4 不会放反了吧,我感觉 Gemini 3.1 Pro 前端还挺强啊。你的 Prompt 是啥
    HeyWeGo
        6
    HeyWeGo  
       10 小时 12 分钟前   ❤️ 1
    这段时间 gemini 降智,短暂使用了 ds 一段时间,风格明显不一样。gemini 做的时候会考虑业务实际情况,会提出自己的开发,虽然大部分是顺从需求,但有些不符合业务需求的点他会提出反对或优化意见,ds 只要你提,只要能实现需求,他只会基于代码的可实现性和是否满足提出的需求去改代码,结果就是可能造成业务上的错乱。感觉就像是对真实世界知之甚少的纯开发,没有一种灵性。
    MuyuQ
        7
    MuyuQ  
       10 小时 12 分钟前
    @Nzelites kimi 属于是把技能点全点在前端上了。。。后端很一般。
    afkool
        8
    afkool  
       10 小时 11 分钟前
    试了 gemini 和 gpt,大差不差。
    dingawm
        9
    dingawm  
    OP
       10 小时 9 分钟前
    @Nzelites #3 在一个单页表单应用的相同的 Claude 优化的一个比较完善的 Prompt 下,打败了 Gemini 3.1 Pro ,不过两个环境不一样,而且也有可能有抽卡的情况。体现在 UI 样式两个差不多,但是 kimi2.6 的问题更少,更像一个正常表单
    hhh12
        10
    hhh12  
       10 小时 9 分钟前 via Android   ❤️ 84
    大部分人不要以自己手头工作的体感,来判断当今几大主流 LLM 的能力。

    大部分人的工作难度就是高考数学水平,你非要让陶哲轩、丘成桐、陈省身、张益唐来个大比赛,

    结果分数分别是 98 、99 、97 、98 ,然后你作为高中生,还要对着卷子上的标点符号和字体强行评价一番,

    完全是自取其辱。

    对于绝大多数没那么抽象、逻辑没那么复杂、数理没那么相关的工作,比如调用个工具,糊个前端后端,写个 C++这些没那么复杂的任务,

    最新版本的 GPT 、claude sonnet 、gemini 、kimi 、glm 、qwen 、deepseek 之间,已经没有可观测的差距了。
    你所有感知到的差距,就像高考难度的题目陶哲轩 98 分和丘成桐 99 分之间的差距一样,你几乎完全 100%就是主观地在鸡蛋里挑骨头了。

    就像很多人不信任何 benchmark ,20 多个 benchmark 总共几十万个 test case 看都不看,

    只要一出个新模型,就自己指挥 LLM 当场写个贪吃蛇,拿七八个贪吃蛇截图,开始点评“这个贪吃蛇太绿了”、“那个贪吃蛇动画不好”,一顿侉评,

    完全就是火车硬卧车厢高声点评伊朗最新局势的水准。
    dingawm
        11
    dingawm  
    OP
       10 小时 8 分钟前
    @afkool #8 没明白你这句话的意思。。是哪个和哪个大差不差?
    dingawm
        12
    dingawm  
    OP
       10 小时 7 分钟前
    @HeyWeGo #6 那还是 DeepSeek V3.2 吧,那个确实不能有太高期待
    dingawm
        13
    dingawm  
    OP
       10 小时 6 分钟前   ❤️ 1
    @hhh12 #10 尊重你的观点
    airtee
        14
    airtee  
       9 小时 43 分钟前
    用你提示词原风不动生成的 https://frosty-limit-6b28.svip9.workers.dev/效果
    airtee
        15
    airtee  
       9 小时 43 分钟前
    @airtee 删除结尾效果两个字 不然访问 404
    dingawm
        16
    dingawm  
    OP
       9 小时 41 分钟前
    @airtee #14 你这可以啊,也是 V4Pro 吗,有用什么 skill 吗?
    Elietio
        17
    Elietio  
       9 小时 37 分钟前
    airtee
        18
    airtee  
       9 小时 35 分钟前 via iPhone
    @dingawm aistudio gemini
    airtee
        19
    airtee  
       9 小时 34 分钟前 via iPhone
    @dingawm 没用 skills 就把你提示词丢过去了!直接生成的效果
    dingawm
        20
    dingawm  
    OP
       9 小时 33 分钟前
    @airtee #18 哦哦,Gemini 前端还是挺可以的
    dingawm
        21
    dingawm  
    OP
       9 小时 32 分钟前
    @Elietio #17 你这个有用 skill 吗? DeepSeek 的效果看着挺好啊
    Elietio
        22
    Elietio  
       9 小时 30 分钟前
    @dingawm

    没,就网页开了深度思考,但是思考跑了很久
    cctvbnm111X1
        23
    cctvbnm111X1  
       9 小时 30 分钟前
    子豪:你看这个人不会用 AI 啊,提示词和 skill 都不会,快教教他吧
    dingawm
        24
    dingawm  
    OP
       9 小时 28 分钟前
    @Elietio #22 你这个网页比我在 Claude Code 里的效果还好啊
    dingawm
        25
    dingawm  
    OP
       9 小时 28 分钟前
    @cctvbnm111X1 #23 特意没用 skill
    话说子豪是谁?
    Elietio
        26
    Elietio  
       9 小时 25 分钟前   ❤️ 1
    horizon
        27
    horizon  
       9 小时 21 分钟前
    @hhh12 #10
    尊重你的观点
    mingtdlb
        28
    mingtdlb  
       9 小时 19 分钟前
    这种没有说服力吧,你让他做两次,两次结果都不一样。。。你用 ds v3 去看吧,也差不多

    我试了一下 https://wp-cdn.4ce.cn/v2/dH0M5eC.png
    airtee
        29
    airtee  
       9 小时 16 分钟前
    ![全程一次过]( )吃饭时候顺手做的
    airtee
        30
    airtee  
       9 小时 14 分钟前
    ![DeepSeek 深度思考]( )
    dingawm
        31
    dingawm  
    OP
       9 小时 13 分钟前
    @mingtdlb #28 嗯嗯,我也知道是抽卡,我试了 3 次,两次中文,一次英文,界面确实有点简单,但是可能也只是前端界面审美不太行,后端啥的还没测试
    stefwoo
        32
    stefwoo  
       9 小时 13 分钟前
    https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw

    文中提到:
    其四,不讲究的架构与 UI 。V4 基本保留了之前 DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到 Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至 high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯 vibe coding ,那实现效果就需要反复抽卡。
    dingawm
        33
    dingawm  
    OP
       9 小时 12 分钟前
    @airtee #30 也还可以,就是图片都是一个😂
    dingawm
        34
    dingawm  
    OP
       9 小时 11 分钟前
    @stefwoo #32 目前来看前端审美确实一般,有时间试试更复杂的看看咋样
    ldapadmin
        35
    ldapadmin  
       9 小时 10 分钟前
    你少了多少钱!
    dingawm
        36
    dingawm  
    OP
       9 小时 10 分钟前
    @ldapadmin #35 ?没理解啥意思
    airtee
        37
    airtee  
       9 小时 9 分钟前
    @dingawm 是的基本逻辑自洽 准确性都有问题
    airtee
        38
    airtee  
       9 小时 5 分钟前
    airtee
        39
    airtee  
       8 小时 55 分钟前
    专家模式也是一个吊样,逻辑自洽都做不到
    ![描述文字]( )
    nkloveni
        40
    nkloveni  
       8 小时 54 分钟前
    @hhh12 这个,消费者是上帝,提上帝提供情绪价值也是价值的一部分。另外各大模型还是有肉眼可见的风格差异的,gemini 明显管不住手,动不动就乱改文件。真实世界需求太复杂了,不是那几十万个 test case 覆盖的。
    借用早期互联网一句名言,我评价个电冰箱还需要先学会制冷啊,相比音响圈水电火电玄学,大模型起码可以过双盲的。 点评伊朗的例子也不太恰当,你点评伊朗就打打嘴炮了,选谁家的大模型可以用脚投票的。claude 我只是买不起而已,要不然没有其他几家的事
    beyondstars
        41
    beyondstars  
       8 小时 50 分钟前
    问了几个 AI 感觉也大差不差啊?
    TonyMontana
        42
    TonyMontana  
       8 小时 47 分钟前
    无所谓,反正也不会用,感觉 deepseek 更像是一种文化显现产物
    96
        43
    96  
       8 小时 45 分钟前
    @dingawm 用的你的提示词
    yvescheung
        44
    yvescheung  
       8 小时 40 分钟前
    实测 DeepSeek V4 Pro 十分之拉胯,我的 7 个 AI 测试项目它打开最强的思考模式只能通过 4 个,Kimi K2.6 全部通过,MiMo V2.5 不开思考都能通过 5 个
    my2492
        45
    my2492  
       8 小时 36 分钟前
    dingawm
        46
    dingawm  
    OP
       8 小时 35 分钟前
    @96 #43 是说一次用了 API 多少钱吗?是的话,试了 3 次,好像一次大概 2 块钱
    dingawm
        47
    dingawm  
    OP
       8 小时 35 分钟前
    @yvescheung #44 啥测试?
    dingawm
        48
    dingawm  
    OP
       8 小时 33 分钟前
    @my2492 #45 第一个链接里有四个图,个人猜测:第一个 Claude 或者 Gemini 系列模型,第二个或者第四个 DeepSeek 模型(更倾向第二个是 DeepSeek 的)?
    yvescheung
        49
    yvescheung  
       8 小时 30 分钟前
    @dingawm 中英文混合文本提取指定信息,模仿已有程序接入新的 API ,阅读复杂长文档编写程序,翻译,复杂压缩包连续解压,逻辑分析,语义分析,都是我实际工作中遇到过的问题,反正就 DeepSeek 这个表现我是不可能拿来用的
    my2492
        50
    my2492  
       8 小时 28 分钟前
    @dingawm 第一个 sonnet4.6 ,第二个 opus4.7 ,第三个 gpt5.5 ,第四个 opus4.6
    my2492
        51
    my2492  
       8 小时 24 分钟前
    @dingawm 我觉得 opus4.7 是最丑的,两个 4.6 的比较好,更喜欢 sonnet 的,gpt 的也挺粗糙,这是网页版里做的,调不了 effort
    dcatfly
        52
    dcatfly  
       8 小时 24 分钟前
    claude sonnet4.6 adaptive
    https://claude.ai/public/artifacts/07700983-b2cd-4811-b78e-f9eec284142e

    claude opus4.7 adaptive
    https://claude.ai/public/artifacts/c94bc886-a02c-4bf0-8b10-83a9a80bdde7

    gpt5.5 进阶思考
    https://chatgpt.com/canvas/shared/69eb010e42c881919c00e6529ba932ac

    以上全部由楼主的中文提示词在各自的官方网页中生成,没有交互没有 skill 。
    snowman231
        53
    snowman231  
       8 小时 21 分钟前
    搭配 ui ux pro max 的 skill 使用,很强啊。

    dcatfly
        54
    dcatfly  
       8 小时 20 分钟前   ❤️ 4
    @hhh12 如果“最新版本的 GPT 、claude sonnet 、gemini 、kimi 、glm 、qwen 、deepseek 之间,已经没有可观测的差距了”这句话成立,那么现在各家的价格应该相差不大了。
    Zzdex
        55
    Zzdex  
       8 小时 15 分钟前
    my2492
        56
    my2492  
       8 小时 14 分钟前
    https://imgur.com/a/fIr7dgZ

    补一个,上面 haiku4.5 ,下面 sonnet4.5
    justdoitzZ
        57
    justdoitzZ  
       8 小时 5 分钟前
    一棒子打死一个人就是这么容易
    你问了一个人一个问题,这个问题,这个人回答得不是这么好,你就直接下结论了?
    观察你这个发帖和结论这个过程
    本身就是一种乐事,让我不禁想,你的思考链是怎么样的,hmmmm,interesting
    dingawm
        58
    dingawm  
    OP
       7 小时 59 分钟前
    @justdoitzZ #57 前面评论有说试了 3 次,两次中文,一次英文,差不多的效果,不能算一棒子打死吧。不过新帖([/t/1208280]( https://www.v2ex.com/t/1208280))确实又让我对它的评价高了起来。但是奇怪的是相同的天气卡片的 Prompt ,有的顶级模型生成的效果就是好很多,而 V4 Pro 我试了 3 次效果都不太行,然后新帖子里那个例子,提示词其实并不算长,但是效果明显好太多。
    dingawm
        59
    dingawm  
    OP
       7 小时 58 分钟前
    @dingawm #58 [/t/1208280]( https://www.v2ex.com/t/1208280)
    格式乱了
    dingawm
        60
    dingawm  
    OP
       7 小时 57 分钟前
    @my2492 #56 下面那个好太多了
    cyrivlclth
        61
    cyrivlclth  
       7 小时 57 分钟前
    用楼主的提示词,在各个网页上都试过了,很随机,反正效果都大差不差,感觉跟提示词有关,提示词只要求了文件结构,对动画要求没啥约束,完全看模型心情。
    dingawm
        62
    dingawm  
    OP
       7 小时 57 分钟前
    @snowman231 #53 还可以,比我的那个强,但是比楼里的一些还是差点
    dingawm
        63
    dingawm  
    OP
       7 小时 54 分钟前
    @cyrivlclth #61 嗯嗯,是这样的,一个看模型风格,第二个是相同的模型也会抽卡。不过我第一次用 Opus 4.6 的感受就是,明明我的提示词一般(脑子里想的和输入给它的其实不完全一样),但是它就能做成我脑子里想得那样,当时确实有点震撼。
    my2492
        64
    my2492  
       7 小时 54 分钟前
    @dingawm 感觉都不怎么样,楼里没看到比 sonnet4.6 满意的,抽卡运气也是一个因素
    dingawm
        65
    dingawm  
    OP
       7 小时 53 分钟前
    @Zzdex #55 GPT 或者 Claude ?
    dingawm
        66
    dingawm  
    OP
       7 小时 51 分钟前
    @dcatfly #52 claude opus4.7 adaptive 这个效果最好,就像我上面说的那样,Claude Opus 系列模型风格感觉就是那种明显会自己发挥更多,但是指令遵循效果也很强,做出来的效果就很惊艳
    my2492
        67
    my2492  
       7 小时 51 分钟前
    其实感觉不如用 gpt image 2 先做原型图,然后再交给各模型,在提示词比较模糊的情况下,直出效果十有八九是垃圾
    dingawm
        68
    dingawm  
    OP
       7 小时 50 分钟前
    @my2492 #64 52 楼的这个应该算最佳了吧,也很符合我对 Opus 的体感,喜欢自己发挥很多,但是也不会偏离目标
    claude opus4.7 adaptive
    https://claude.ai/public/artifacts/c94bc886-a02c-4bf0-8b10-83a9a80bdde7
    dingawm
        69
    dingawm  
    OP
       7 小时 49 分钟前
    @my2492 #67 现在有 gpt image 2 是可以这样了,但是尴尬的是 DeepSeek 好像不支持多模态。。
    Leon777
        70
    Leon777  
       7 小时 47 分钟前
    @hhh12 我体感差距非常大,比较冷门的问题必须换国外 AI 才能给出方案
    my2492
        71
    my2492  
       7 小时 46 分钟前
    @dingawm 个人审美不同,不好说哪个就最好,我还是更喜欢圆角卡片。我觉得只要能把原型图给它,它能复刻得像回事,交互设计合理,就可以用了。现在我个人觉得 gpt 稍微好一点,可以设计+制作一条龙都用 gpt 生态,claude 用来交叉 review
    yfmir
        72
    yfmir  
       7 小时 43 分钟前 via iPhone
    其实目前相较于模型能力,更重要的是算力需求上的优化,不知道 deepseek 这次的算法优化的优化怎样
    my2492
        73
    my2492  
       7 小时 42 分钟前
    @dingawm 这种简单东西其实大差不差,差距还是在复杂的东西上。或者说你要做一个比较垂直领域的东西,国模在基础知识上是不如国外模型的,需要你说得很清楚才能做好,做个烂大街的东西,运气比模型本身重要。比如你完全不懂制造业,你要模型自己去做一个制造业的平台系统,国外模型就做得很好,国内模型你得给个 PRD 文档,不然他做出来的东西,能看不能用
    EeveeRibbon
        74
    EeveeRibbon  
       7 小时 39 分钟前
    @hhh12 #10 我认为这样的写工具卡片、写贪吃蛇这样可能是更符合实际场景的,因为大部分人只会用笼统的提示词实现自己的需求,这时候的能力就是日用的能力。而且不同模型的代码能力差异非常明显。
    qiaobeier
        75
    qiaobeier  
       7 小时 31 分钟前
    @hhh12 但是聪明的模型就是能从弱智的需求整理出最符合结果的实现,这方面 Opus 真的是遥遥领先。虽然他们那个破政策是真恶心。
    csfreshman
        76
    csfreshman  
       7 小时 28 分钟前
    @dingawm #25 除了子豪还有子轩,老年版程序员,也是 AI 生成的短剧,哈哈哈
    jinyan01
        77
    jinyan01  
       7 小时 22 分钟前
    yh7gdiaYW
        78
    yh7gdiaYW  
       7 小时 13 分钟前   ❤️ 1
    @Nzelites kimi 把截图还原成 HTML 是一绝,我截屏自己开发的页面,给 kimi 翻译成 HTML 后比原版好看
    RangerWolf
        79
    RangerWolf  
       7 小时 11 分钟前
    Gemini Pro 的输出

    ChatGPT Pro 的输出

    我没有看到很大的差别
    tiiis
        80
    tiiis  
       7 小时 8 分钟前
    @jinyan01 这个价格,已经很不错了
    jukanntenn
        81
    jukanntenn  
       7 小时 3 分钟前
    怎么说呢,你这个评测有一点点价值,但是你表达的意思容易让人理解为你的这一个评测就直接否定了 deepseek v4 pro ,感觉他们技术报告里的评测不如你的评测权威。
    omi4399
        82
    omi4399  
       7 小时 3 分钟前


    混元 3 才是真的拉了
    yukunZhan9
        83
    yukunZhan9  
       7 小时 0 分钟前
    我试了一下分析一个需求,gpt5.4 联网搜索加输出 3 分钟,V4-pro 不联网光 think 能 think6 分钟的😅
    xiaomushen
        84
    xiaomushen  
       6 小时 58 分钟前
    @my2492 你确定不懂业务场景的情况下,Claude 能否做出 ready for production 的东西?
    lan894734188
        85
    lan894734188  
       6 小时 57 分钟前
    看到 hy3 笑了
    my2492
        86
    my2492  
       6 小时 56 分钟前
    @xiaomushen 细节比国模强多了,那种几乎没有公开互联网资料的东西,表现明显好一大截。有意思的是谷歌这个理论上拥有最多数据的公司,在这些垂直领域知识上,远远不如 gpt 和 claude ,做出来的东西没法看
    dingawm
        87
    dingawm  
    OP
       6 小时 56 分钟前
    @yukunZhan9 #83 可能是算力问题
    dingawm
        88
    dingawm  
    OP
       6 小时 56 分钟前
    @omi4399 #82 hy3 模型参数量太小了
    dingawm
        89
    dingawm  
    OP
       6 小时 54 分钟前
    @jukanntenn #81 额,标题是有点不妥,诚恳接受你的意见。我决定将这个帖子下沉吧
    my2492
        90
    my2492  
       6 小时 54 分钟前
    @xiaomushen 也不是说 gpt 和 claude 做出来直接能用,但完成度高得多。国模适合做那种不需要知识储备的,比如一个公司官网、一个电商页面,这种做得挺好的。
    ghostman
        91
    ghostman  
       6 小时 44 分钟前
    cc + frontend-design + deepseek-v4-pro

    https://imgur.com/a/LmZGUeb
    Zzdex
        92
    Zzdex  
       6 小时 39 分钟前
    @dingawm #65 xiaomi/mimo-2.5
    xiaomushen
        93
    xiaomushen  
       6 小时 38 分钟前
    @my2492 也许吧,不知道如何搜集训练资料的
    不过对我来说,许愿池模式没啥意义
    nexo
        94
    nexo  
       6 小时 37 分钟前
    @omi4399 你这个 ai 笑出声 有种五年动画毕业设计的感觉
    ghostman
        95
    ghostman  
       6 小时 23 分钟前
    cc + frontend-design + deepseek-v4-flash
    ghostman
        96
    ghostman  
       6 小时 19 分钟前
    cc + frontend-design + deepseek-v4-pro
    Folder
        97
    Folder  
       6 小时 19 分钟前

    Gemini 3.1 Pro 试了下, 感觉挺好的
    A3m0n
        98
    A3m0n  
       6 小时 7 分钟前
    @omi4399 配合层主头像一看真绷不住了。
    yueloong
        99
    yueloong  
       6 小时 4 分钟前

    本地跑的,ollama 模型 qwen3.6:35b-a3b-coding-mxfp8
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2907 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 213ms · UTC 14:07 · PVG 22:07 · LAX 07:07 · JFK 10:07
    ♥ Do have faith in what you're doing.