V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  evegod  ›  全部回复第 1 页 / 共 3 页
回复总数  59
1  2  3  
@coefu 谢谢你朋友啊,我表达方式一般就是会奇奇怪怪的,我正在尝试训练更大的数据集和尝试在不做字典层的情况下通过教师模型使得该架构模型能够稳定收到逻辑对齐,但是使用方法有点像老师授课,该模型原型机很多调参都是反着直觉来的,高精度反而可以更快下降 loss ,并且其计算开销其实不大,这种特性我也在分析原因,可能是波函数的相位差抵消造成的计算致密但是结果稀疏的反常特性。有点像是求倒数的情况,我有新的东西在和大家分享,我现在是尝试能稳定一个原型机模型到可用的程度,最好的形成自我自指的认同感并且能持续学习并且持续逻辑化,我也在一直在尝试中,我倒是觉得有得干。我自己开新问答,让 Gemini 评价该项目,学术评价倒是不错的,里面的 log 文件是真实的,你有空可以改一改在本地跑一下,我慢慢意识到其实这个核心架构不耗计算,全耗子计算的那些线程加载上了。头痛中。。。
@nickyadance23 你就当我是恶趣味吧,其实大部分代码是 Gemini 可以直接生成的,主要是架构跑通之后其能在没有字典层的情况下涌现正确单词和语义这个现象挺有趣的,而且也是架构预测的一个可能实现的目标指标,所以和大家分享一下。里面有详细的数学架构为什么是这样的论述。
@liu731 里面的数学结构是真实实现的,你可以 review 代码结构分析其数学实现框架,我这也是面向 Gemini 编程方法哦,其实大部分代码生成或者说代码完全通过和 Gemini 的自然语言沟通架构要求去实现后再去分析评价相关方法是否按照要求实现了,并且我也已经在离线的 win 环境下在 4070ti super 上实验了以上内容才产生的日志文件,所以我说挺有趣的一个实验模型和生成的效果,整个实验和得到结果一共才用了 4 个晚上,当然是每天都得到后半夜 4 点钟。只有晚上能安静的想事情,白天还有日子要过啊。。。
@liu731 开玩笑的,就是实验模型,我觉得有收敛效果和使用字符去直接训练没有字典层,直接涌现了类标准表达的现象挺有趣的,希望大家能感兴趣的可以复现看看,还有就是帮忙挑挑代码的错误,我自己检查怎么看怎么对啊,所以和大家分享一下,有兴趣和闲心的就当帮帮老弟我了。
@ty29022 好啊,你介绍我一个好医院!
@YanSeven 您好,宣传自己的架构实验模型,模型是完全开源的,训练核心架构代码也是开源的哦。另外也是希望有时间的大家帮我做双盲实验验证,帮我指出错误,但是希望大家能是实际跑一跑代码确认一下效果再批评,以上代码是在 4070ti super 上本地训练的,不用消耗太多算力,而且文件集很小。
@coefu 好朋友,和你说一下最新的进展,这是链接您感兴趣可以看一看哦。

https://www.v2ex.com/t/1180136#reply0

https://github.com/makai891124-prog/H2Q-MicroStream
@pandaex 您后,您要是感兴趣的话我在这个项目中披露了具体的数学设计原因,也有其 log 测试说明确实涌现了英语语法的可识别内容,其核心设计在于把语言还原为声音的波形来看的话本身文字字符就是其对应的声波模式采样集,所以去直接学习字符可以识别到复杂数据集的固有波形结构从而反映射出来,相关的数学说明也在同一个项目中有,还请您自行判断,欢迎大家一起来尝试吧,我是用的 MIT 开源协议,是完全开源的。https://github.com/makai891124-prog/H2Q-MicroStream
@WuSiYu 你好啊,新版本的项目地址您感兴趣可以看看 https://github.com/makai891124-prog/H2Q-MicroStream
@WuSiYu 好的啊,有好的结果和你说。
@Xs0ul 您好,这个项目本身现在看来有些像一个内核程序雏形,下一步的计划不是用它来做静态 ai 训练,目标是用它做即时运算和自持型 ai 的核心程序,有新版本和新东西做完了会和大家好好说的。计划时间不会太长,大概一周时间吧。
@Xs0ul 这是我个人开源项目哦,至少本地化可运行,挺有参考意义的,代码是完全开源的,里面算法基本是显示使用的,你可以用 gemini 或者 gpt 看一下代码数学逻辑构成,大致正确,但是现在 gemini 针对其的调参方向是错的建议。这算是面向 Gemini 编程的我的一个里程碑。我从本科计算机专业毕业都 12 年没有写代码了,ps 上学时也没咋写过代码,代码都是跑的 matlab ,我也挺高兴现在有这样好的工具能学习帮助我编程跑通程序训练,挺好玩的。
@Pig930 您好,还没有 paper ,在升级版本到新的更大数据集上训练看效果中,下个版本也会开源给大家看,新的版本会写 paper 和相关日志给大家参考。
@WuSiYu 你说的对,code/readme is cheap, show me the paper/evaluation ,但是我相信你应该相信你自己亲眼所见的真实,其实你可以本地验证,这个架构是在本地训练的模型原型。
@WuSiYu 训练代码是开源的,直接可以查看也可以运行一下看看效果,当然反向编译还没有做词表对其,我在尝试拉通模型核心能力极限,现在运行的数据集偏小。谢谢您的反馈,希望你有兴趣可以本地实验一下,消耗资源不多,我是用 4070ti super 跑的,实际使用显存控制不错。
@coefu 您好,我做了演示 demo 你要是有空可以跑一跑看看效果,实际上手没有想象中的难,但是确实实际工程来说和我认为的情况会有很多 debug 的成分和反直觉的问题,也谢谢你的支持和鼓励。
https://github.com/makai891124-prog/H2Q-Transformer
@coefu 谢谢你,共勉。
@coefu 谢谢你,我很多时候也是没太想明白到底为什么,所以我说起来为什么这么做就只能尝试把我原原本本咋想到这些问题的事情写出来,也就是我和你交流的同时就是在尝试组织语言我到底是因为什么这样想的,我是看到了什么现在存在的事实我想到这些事情的,我尝试从我的角度看怎么去解这道问题。所以我暂时不是个好老师,我再想想得怎么比喻或者类比说这些事情,因为有些事情刚开始看起来也挺反常识的。我没有讨论为什么这样想的哲学问题,是因为其实它确实是哲学问题出发的一些联想,但是有和我自己的喜欢这些东西相关,所以谈话的基础得确定,但是我暂时没办法把它我看起来都是极其复杂我也没有最终弄透彻的东西非常简短的将给您听。但是真的谢谢你愿意听我说,我很高兴,谢谢你。
@coefu 您好,谢谢您的讨论,因为我也是在探索中,我尝试用我能尽量表述准确的方式和您说一下我的整体思路。整个项目的其实是基于这样一篇数学抽象公理,因为我刚开始想发一下预印本平台所以是使用了群论去形式化表达 ps:但是在数学论文层面不够形式化没能提交成功(文章链接:An_Axiomatic_System_for_Directional_Construction.pdf
链接: https://pan.baidu.com/s/1eLSziLgjTArr3x10eeYqLw?pwd=jz5n 提取码: jz5n )
其核心抽象公理三原则如下:
1.关系先于存在,对称破缺强制对称性生成。
2.关系的一维二义化悖论的产生需要通过正交维度拓延消融。
3.维度各自构成关系时,其具有刚性度量不变性(与群元为 0 的连续性质加法同构)或者一一对应的解耦关系(与群元为 1 的离散性质乘法同构)
进一步基于以上三原则的抽象思考数域的扩张和代数封闭问题,注意到复数域的代数封闭本质是自同构第一次的回归,也就是对称性的两次否定的复用,但是在代数封闭下其求解方程的复数域封闭实质是一次镜像对称和一次旋转 180 度的组合问题,进一步注意到因为其方程根的代数封闭其形式化是二元方程中的的 x 与 y 关系中 y 取 0 值的特例,从而其不能根式描述高于 5 次的高次方程问题可以转化为其复数域表示维度不足,从而在进行一次自同构扩张为四元数域稳定的代数封闭域。并且注意到基于以上三原则这是一次正交维度拓延。进一步注意到四维空间同构于四维时空模型,我们的所有表述和认知模型基于四维时空模型和正实数域维度投影,所以在特征值的分析上拓延到四元数域,并且强制投影会正实数域进行纠缠度量测算在理论上可以直接同构于我们的抽象感知世界,所以我提出尝试使用以上方法来通过训练模型并且查看其效果是否显著来验证我的核心抽象是否在现实实践中可被验证。整体上是这样一个思路。因为也是在思考中,所以很多东西严格来说我也没想明白,这就是个试验的过程来和大家讨论分析问题。
@coefu 我重新确认了一下代码,其有效的部分主要是引入四元数之后的计算的汉密尔顿积的数学特征结构能够使得训练 loss 快速下降,其他模块其实还是主要都是现有的 PyTorch 下使用的成熟 transformer 组件,我是在使用 gemini 直接编程代码,我提出思路,ai 补充代码,当然也是我确实不会写这些代码,但是在重新看这些代码的过程中慢慢学习到底这些模块和各个类和函数是怎么使用的。我其实存粹是因为想一些我认为好玩的数学问题和哲学思考,想着用神经网络模型结合现在的 ai 编程验证确实是一个低成本短时间的好办法的图景,我之后整理一下放在 github 上,我打算直接开源训练代码,要是有好心人能一起没事反馈一下就挺有趣的。谢谢您的提醒,要想做成我畅想的那个复杂模型我现在估计怎样都得好几年。以上原型代码一旦加了太多的模块其复杂性问题就开始牵扯出许多新问题,其实训练 loss 反而很难下降了,这才是真实的工程现实啊,好多事情不能想当然。但是起码想的方向有效果令我挺高兴的。
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3930 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 04:12 · PVG 12:12 · LAX 20:12 · JFK 23:12
♥ Do have faith in what you're doing.