V2EX › NoOneNoBody 的所有回复 › 第 92 页 / 共 171 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 88 89 90 91 92 93 94 95 96 97 ... 171

❮

❯

2023-11-20 22:23:31 +08:00

回复了 suqiuluck 创建的主题 › 程序员 › 有没有自己电脑上跑大模型的大佬啊

@Rnreck #11
你用 “微信聊天记录 AI” 搜本站，前几条都是相关的

我用我的 10 万条微信聊天记录和 280 篇博客文章，做了我自己的数字克隆 AI
/t/931521

2023-11-20 21:27:10 +08:00

回复了 blurethdao 创建的主题 › 生活 › 亲戚老是来借钱怎么办

“我帮你借吧”

2023-11-20 20:45:53 +08:00

回复了 suqiuluck 创建的主题 › 程序员 › 有没有自己电脑上跑大模型的大佬啊

站内有人发过用自己的聊天记录训练的（年初的帖子，全文在其 blog ），你可以参考一下
要玩训练模型我是耗不起，基本看前几段就劝退我了，还是继续玩我的小模型好了

2023-11-20 12:57:03 +08:00

回复了 JinTianYi456 创建的主题 › 问与答 › 有本地版以图搜图软件？

一些相册软件应该有类似附带功能，把 a 放进该软件的相册管理，或者可以
单独的软件应该没有，这个一般需要部署一个数据库，单独搜图需求极小

python 脚本则遍地皆是，搜 similar image 就能找到了，然后自己加个遍历文件的循环就是了

2023-11-20 12:48:13 +08:00

回复了 8eacekeep 创建的主题 › 生活 › 之前在 V 站看到过一个非常离谱排查故障的帖子，谁还有印象？

这个印象中是国外的故事？

2023-11-19 16:32:36 +08:00

回复了 vfx666 创建的主题 › OpenAI › 香港节点能不能访问 gpt 啊

不一定要美国，坡、日、韩、东南亚部分、欧洲大部分都可以
主要是好几个作为辅助的域名（认证和 cdn ）都要以相同 ip 访问，此节点前几天有一帖有写，你找找

2023-11-19 00:07:29 +08:00

回复了 ttthys 创建的主题 › 宽带症候群 › 申请了电信的动态公网 ip，怎样部署自己的服务到外网

@helee9199 #5
你和 ISP 签的协议里面不允许 web 或者作为公众服务，然后政策也规定所有 web 等公众服务需要备案，两者加成
虽然 NAS 外放是自用，但当你无法证明为“自用”，他们会按有罪推论视为公众服务，可以直接关停

2023-11-18 23:54:53 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

@FlyingBackscratc #6
呃，看错了，你不是 OP ？

2023-11-18 23:54:03 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

@FlyingBackscratc #6
说了半天原来是我理解错了，你说的“预训练”就是训练，我以为是说预训练模型，后者是说现在已经公布的一些模型，如 128 点人脸检测模型、5 点人脸检测模型、车辆辨别模型……诸如此类

回答你最后一句吧，数学算法一样的话，训练参数是类似的
我有做三个模型，都是用 KNN ，一个人脸、一个文字，一个销售，它们后面的步骤，从训练到测试代码是基本相同的，包括参数
不同的是输入的样本数据，一个用人脸检测模块从图像提取人脸特征，一个用分词提取特征、一个用统计数据量化，都转为二维 numpy （这步是归一），扔进相同的训练代码和检测代码，就能分出结果，KNN 只是个数学算法，它并不理会数据的实际“意义”（人脸、NLP 、医学还是销售……），它只管哪个数据对应哪个标签，维度相同就行，其他数学算法也类似，只要是合理的数目就行

只用数字算结果为数学模型，把其中的数字附上实际意义则为业务模型，业务模型千变万化，但基础数学模型并没有很多，感觉上很多只是衍生和组合，例如所有的距离算法思想是一样的，就是求两个点的空间距离，不同的只是求这个距离的公式，有欧氏距离、余弦距离……等等

2023-11-18 21:35:03 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

@Richard14 #4
我举个自己的例子吧，虽然跟人家没法比，但过程是可以说一说的
我用 KNN 做一个小小小小模型，数据少于 1w ，tag 只有两个：True/False ，可以说极其简单了
这个模型基本各种参数都选定了，不用调，唯一要调整的近邻 n 的个数，可选为 4~15 ，共 12 个
然后将数据随机方式分 20 组，每组有训练样本和测试样本
将每组和 12 个可选参数，用训练样本各训练一次，然后用测试样本测试，这样共 240 次测试
最终选定 n=8 ，因为 n=8 时所有测试结果都落在 96.5~98%之间，是最稳定的
其实 96~98%并非最好的，当 n=12 时，有三组得出了 99%以上的，但是 n=12 的其他 17 组，最低还出现 88%，分布很乱；所以 n=12 是不能用的，因为用到真正产出时，结果的准确性无法预计

我想说的是，光一个仅 12 可选项的参数的调参工作，工作量就达到 240 组，多个参数可想而知，这里 KNN 的训练只是纯粹打包，几分钟而已，而有些模型的一次训练就要几小时甚至几天（视乎算力）
当然，可以只用一组作为调参测试就选定参数(只跑 12 次)，但实用时的结果嘛……可能要骂娘了

然后，上述还忽略了一个重要问题：采样数据是否合理，如果不合理，前面说的所有的工作都是白搭
因为我个人能力有限，只能获得这小一万的数据，更多我就要花钱雇人帮我收集了，还不是雇一个人就能搞定的
所以我手头的这一万数据，是否有代表性，分布是否合理，这里还有采样学的分析（上面只是默认为合理）
例如我要做一个买菜意愿的模型，然后我从程序员采集了一万数据，但程序员买菜的极少，这样的数据做出的模型用在评估家庭主妇，那就是错漏百出、惨不忍睹，大概就是这个意思
例如现在的公开人脸提取模型，用于欧洲人比亚洲人更精准，就是因为采集做模型的数据欧洲人占多这个原因

你如果看过我写的其他帖子（回复帖），我说过，AI 是一个长久的工作，需要几代人努力，包括机器学习和深度学习，目前还没有一个算法能通吃不同领域的，所以做模型时还有选数学算法(或者组合算法)的步骤
目前文献还是说基础算法的实现，至于用到实处，因为不同的数学算法在不同领域表现不同，就需要做业务模型的人自己来选择并测试了，文献换个角度看就是说某个算法能把模型做出来，但结果不能打包票
例如我上面这个例子，用 CNN 或者其他也能做，只是我嫌麻烦（部分是不熟悉），所以没有用其他算法测试，说到底就是懒，96%的结果我可以接受，如果只有 70%，我可能就要硬着头皮换其他了，那样的话又是新一轮工作量了

2023-11-18 18:08:15 +08:00

回复了 huangya 创建的主题 › Windows › windows 系统如何对整个硬盘进行克隆

@ntedshen #16
是，多年前被微软收购的

2023-11-18 16:32:50 +08:00

回复了 unregister 创建的主题 › 职场话题 › 领导说业余时间多学一下技术，我很想反驳，领导这是 pua 吗？如果不是的话该有怎么样的反应比较好，另外如果手头上有多个项目的话，该怎么处理呢？

“时间不够用啊，老大你是怎么腾出时间的？不用陪老婆孩子么？”

2023-11-18 16:28:51 +08:00

回复了 huangya 创建的主题 › Windows › windows 系统如何对整个硬盘进行克隆

看附言的话，这是全盘同步啊
如果内容经常变动，还要实时的话，估计没有

2023-11-18 16:01:20 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

网上有些从零开始训练自己模型的文章，当然写得比较简单（包括例子和步骤），但基本就是这样
就是数据、打 tag 、调参训练

现在一些公开的预训练模型是非常复杂的，关键是调参，一来参数比上述的例子多得多，二来步骤也是反反复复，不是一次训练就完成的，每一次调参都要重新训练并对比结果，然后逐步收敛参数的范围，直到连续多次的训练测试结果接近才能视为完成，如果遇到结果不理想（无法突破预想效率值），甚至要推倒重来

为什么这些模型都是一些机构发布，而不是个人，就是因为个人搜集数据能力有限，算力有限，做这些复杂训练少点硬件投资都没什么用，例如 openai 早期的模型租用了多少算力？所花的钱哪怕给我一成，我都可以完全躺平过完剩下的日子了
如果你想看一些预训练模型是怎么得出来的，要去技术杂志搜，前提是他们有公开，例如之前超导那事，别人可以用公开的数据进行实验或验证

2023-11-18 15:19:02 +08:00

回复了 ZeawinL 创建的主题 › 生活 › 你是如何看待家庭个体之间资源不平等的？

如何看待就是“不看待”
这事没法改变，因为无论怎么努力，只能改变自己和自己家庭的资源，而不是“资源不平等”这件事，实际上，当自己努力时，对其他人来说，自己也是资源不平等的制造者之一

只有人<<<<<资源，例如空气，又或者原始社会人口极少时，才会显得“平等”
这个事没必要想，想得越多，越容易进入牛角尖，既然不平等必然存在，无论向哪个方向想，都是某个相对立场而已
建设伟大的共产主义吧，那时就人人平等了，老子没有后代，就不研究这个方向了

2023-11-18 13:45:23 +08:00

回复了 pauluswanggang 创建的主题 › Google › 为什么我的谷歌账户有这个提醒？

这是在哪里显示的？从没见过这个界面

2023-11-18 13:26:45 +08:00

回复了 kongkongye 创建的主题 › OpenAI › 做个什么样的 AI 应用的思考

@customer #10
首先，国内应该很少人会为一个聊天场景付费，试想一下 apple 把 siri ，小米把小爱单独抽出来收费会如何
我很好奇“文心一言”付费用户是否只有技术人员和法人
其次，我指的是“泛生活问题”，不是就一个京东比价就想收费

看怎么把这个 AI 融入可收费的项目中，并计入成本，如小爱
运营的思维要拓宽一些

2023-11-17 16:50:18 +08:00

回复了 wzw 创建的主题 › OpenAI › 试用了一下 bard, 感觉已经很不错了呀. 问了几个经典和最新的问题, 感觉都不错, 准备多试试

@bsmasnorea #9
哈哈……

2023-11-17 16:25:31 +08:00

回复了 cpxjaz 创建的主题 › 问与答 › 有没有啥能私有化部署的相册同步软件？

这样的帖子看了无数个
灵魂拷问：相册需要同步么？不是备份能搜就够了么？

2023-11-17 16:20:11 +08:00

回复了 kongkongye 创建的主题 › OpenAI › 做个什么样的 AI 应用的思考

技术人思路总是跳不出技术，你说的那些都是面向技术人员的
其实，技术最应该为普通人服务

我有个需求，你能做到么？
“AI ，请问京东自营 HC550 16T 今天有没有降价？”

1 ... 88 89 90 91 92 93 94 95 96 97 ... 171

❮

❯