V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
evegod
V2EX  ›  分享创造

宣传一下我的开源神经网络训练架构,请大家多多批评。

  •  
  •   evegod · 1 天前 · 1125 次点击

    🌌 H2Q-MicroStream: Holographic Hamiltonian Quaternion Transformer

    "智能不是记忆过去的所有细节,而是掌握生成未来的核心方程。"

    "Intelligence is not about memorizing every detail of the past, but mastering the core equations that generate the future."

    License: MIT PyTorch Status


    📖 项目简介 / Introduction

    H2Q-MicroStream 是一个极具实验性的深度学习架构,旨在探索语言模型的物理动力学本质。与追求巨大参数量和超长上下文窗口的主流 Transformer 不同,本项目基于奥卡姆剃刀原则 (Occam's Razor) 和 **全息原理 (Holographic Principle)**,构建了一个极简、实时、且具有强物理约束的“思维内核”。

    H2Q-MicroStream is a highly experimental deep learning architecture designed to explore the physical dynamics of language models. Unlike mainstream Transformers that chase massive parameter counts and infinite context windows, this project builds a minimalist, real-time, and physically constrained "Thinking Kernel" based on Occam's Razor and the Holographic Principle.

    核心哲学 / Core Philosophy

    1. 思考内化 vs. 语言表达 (Internalization vs. Expression):

      • 我们认为,现有的 LLM 花费了太多算力去学习“如何像人一样说话”(语法糖),而忽略了“如何构建世界模型”(核心逻辑)。
      • H2Q 旨在构建一个高维全向的思维核心。它的中间状态可能人类难以直接理解(类似于脑电波),但它包含了对信息本质的拓扑映射。
      • We believe current LLMs spend too much compute on "speaking like a human" (syntax) rather than "modeling the world" (core logic). H2Q aims to build a high-dimensional, omnidirectional thinking kernel.
    2. 状态保持 vs. 历史回溯 (State-based vs. Retrieval-based):

      • 人类没有 128k 的上下文窗口。我们靠的是核心状态 (State) 的实时演化。
      • 本架构放弃了对历史数据的无限 Attention ,转而追求在极短视界( Micro-Horizon )内的哈密顿动力学演化
      • Humans don't utilize 128k context windows; we rely on the real-time evolution of a Core State. This architecture abandons infinite attention on history in favor of Hamiltonian dynamic evolution within a Micro-Horizon.
    3. 本质压缩 (Essence Compression):

      • 如果一个规律不能用极少的基底( Rank 8 )解释,那就是在死记硬背。
      • If a pattern cannot be explained with a minimal basis (Rank 8), it is rote memorization, not learning.

    🚀 关键技术特性 / Key Technical Features

    1. 🌌 四元数时空注意力 (Quaternion Spacetime Attention)

    引入四元数 (Quaternion) 代数,将注意力机制从标量积升级为四维时空干涉

    • 实部 (Real Part): 代表能量/幅度,决定注意力的强度。
    • 虚部 (Imaginary Part): 代表自旋/相位,引入非线性的**相位旋转反馈 (Phase Rotation)**。
    • 这使得模型能够捕捉语言中的“纠缠”和“反讽”等高维特征。

    Moves attention from scalar products to 4D spacetime interference. Real parts represent energy/amplitude; Imaginary parts represent spin/phase, introducing nonlinear Phase Rotation Feedback to capture high-dimensional linguistic entanglement.

    2. 📉 Rank-8 本质约束 (Rank-8 Essential Constraint)

    模型权重不是静态矩阵,而是通过 Structure Bank 动态生成的。我们强制将 Rank 限制为 8

    • 这逼迫模型放弃“背书”,只能提取最核心的 8 种时空演化规律。
    • 这也极大地降低了计算消耗,实现了参数的“全息折叠”。

    Weights are dynamically generated via a Structure Bank with a forced Rank of 8. This forces the model to abandon rote memorization and extract only the 8 most essential spacetime evolution patterns.

    3. 🌊 Unicode 流式动力学 (Unicode Stream Dynamics)

    摒弃了 BPE Tokenizer (如 Tiktoken ),直接使用 Unicode (ASCII/UTF-8) 编码。

    • 拒绝“方言”:建立通用的底层物理接口,让模型直接处理字节流。
    • 并行流训练:模拟多路并行的连续阅读体验,而非随机切片。

    Abandons BPE Tokenizers for direct Unicode (ASCII/UTF-8) encoding. establishing a universal physical interface. Uses parallel streaming to simulate continuous reading flow rather than random slicing.

    4. ⚡️ 微批次高频更新 (Micro-Batch High-Freq Update)

    • Batch Size = 24: 模拟极低容量的短期记忆。
    • No Gradient Accumulation: 每看一眼数据就更新一次参数。
    • 这模拟了生物神经元的高频脉冲学习,使参数在流形空间中进行连续的微分演化。

    Simulates biological high-frequency impulse learning. With a micro-batch of 24 and continuous updates, the parameters undergo continuous differential evolution in the manifold space.


    🛠️ 安装与运行 / Installation & Usage

    环境要求 / Requirements

    • Python 3.8+
    • PyTorch 2.0+ (CUDA support recommended for TF32 acceleration)
    • NVIDIA GPU (Optimized for Ampere/Ada architectures like RTX 3090/4090/4070Ti)

    快速开始 / Quick Start

    1. 克隆仓库 / Clone the repository

      git clone https://github.com/makai891124-prog/H2Q-Transformer.git
      cd H2Q-Transformer
      
    2. 安装依赖 / Install dependencies

      pip install torch numpy requests
      
    3. 运行训练 / Run training 无需手动下载数据,脚本会自动下载 WikiText-2 数据集并开始训练。 No need to manually download data; the script will automatically download WikiText-2 and start training.

      python main.py
      

    📊 配置说明 / Configuration

    main.py 中的 CONFIG 字典中调整参数。当前默认配置为 "H2Q-MicroStream" 模式:

    CONFIG = {
        'dim': 768,            # 模型宽度 (GPT-2 Small level)
        'fixed_rank': 8,       # 🌟 核心参数:限制模型的"脑容量"以逼迫其思考
        'seq_len': 128,        # 微视界:只关注当下瞬间
        'batch_size': 24,      # 物理 Batch:极小,高频更新
        'depth': 12,           # 深度
        'axiom_lambda': 0.1,   # 正交性约束强度
        # ...
    }
    

    🔮 展望与未来 / Future Roadmap

    目前的 H2Q 模型是一个纯粹的思维内核。它的输出可能看起来像“乱码”或极其抽象的方言,这是因为它正在展示内部的原始状态流

    未来的开发计划包括:

    1. 解码器挂载 (Projector): 训练一个独立的“翻译器”模块,将 H2Q 的全息状态映射回人类自然语言。
    2. 多模态流 (Multimodal Stream): 由于采用 Unicode/Byte 接口,尝试直接输入音频或图像字节流。
    3. 边缘侧部署 (Edge Deployment): 利用 Rank-8 的极高压缩率,尝试在移动端运行全息内核。

    The current H2Q model is a pure thinking kernel. Future plans include training a separate "Projector" to translate holographic states into human language, exploring multimodal byte streams, and edge deployment via high compression rates.


    📜 许可证 / License

    本项目采用 MIT License 开源。


    致谢 / Acknowledgements

    感谢所有探索几何深度学习、SSM (State Space Models) 以及对 Transformer 架构进行反思的研究者们。本项目的灵感来源于全息原理、哈密顿力学以及人类认知的本质。

    18 条回复    2025-12-19 14:01:13 +08:00
    itechify
        1
    itechify  
    PRO
       1 天前
    不懂,看起来很高级,大受震撼
    WuSiYu
        2
    WuSiYu  
       1 天前
    code/readme is cheap, show me the paper/evaluation
    WuSiYu
        3
    WuSiYu  
       1 天前   ❤️ 1
    简单看了下,似乎没啥人,那我先来锐评下你的几个核心点吧:

    1. 四元数这个点,看起来是加了一个数学约束,做了个权重复用。直接的结果是能省一些参数量,而能不能有什么神奇的能力提升效果目前还无从得知(你不能只是形而上学的解释,需要有更有说服力的推导或者实验);

    2. rank-8 这个点,看起来就是把 lora 的 adapter 直接当原始模型用了(或者有点深度可分离卷积那种意思),但能否有性能和参数量比的收益很难说。另外 rank=8 这种量级,我很怀疑这到底能不能 work (毕竟这又不是 lora 微调)。你说正常 LLM 学东西是背书,那有没有一种可能就是你的模型压根就学不会呢?

    3. 直接不用分析器是开历史倒车,这会浪费很多模型的能力去做本不需要它做的事,跟你最求小参数量的目标是相反的;

    4. trivial
    WuSiYu
        4
    WuSiYu  
       1 天前
    typo: 分析器 -> 分词器

    另外你这满满民科的用词真的很难让人看下去
    CatCode
        5
    CatCode  
       1 天前
    不用分词器用 UTF-8 这个不应该称为一个缺陷吧。现在已经有一些模型在尝试之间建立于 UTF-8 bytes 上。只是要多少参数和什么(细致的)框架来高效实现的问题
    evegod
        6
    evegod  
    OP
       1 天前
    @WuSiYu 训练代码是开源的,直接可以查看也可以运行一下看看效果,当然反向编译还没有做词表对其,我在尝试拉通模型核心能力极限,现在运行的数据集偏小。谢谢您的反馈,希望你有兴趣可以本地实验一下,消耗资源不多,我是用 4070ti super 跑的,实际使用显存控制不错。
    evegod
        7
    evegod  
    OP
       1 天前
    @WuSiYu 你说的对,code/readme is cheap, show me the paper/evaluation ,但是我相信你应该相信你自己亲眼所见的真实,其实你可以本地验证,这个架构是在本地训练的模型原型。
    Pig930
        8
    Pig930  
       1 天前
    有更详细的 paper 一类的东西可以学习下吗
    Xs0ul
        9
    Xs0ul  
       1 天前
    3 不就是远古时候的 Char-RNN
    evegod
        10
    evegod  
    OP
       1 天前
    @Pig930 您好,还没有 paper ,在升级版本到新的更大数据集上训练看效果中,下个版本也会开源给大家看,新的版本会写 paper 和相关日志给大家参考。
    evegod
        11
    evegod  
    OP
       1 天前
    @Xs0ul 这是我个人开源项目哦,至少本地化可运行,挺有参考意义的,代码是完全开源的,里面算法基本是显示使用的,你可以用 gemini 或者 gpt 看一下代码数学逻辑构成,大致正确,但是现在 gemini 针对其的调参方向是错的建议。这算是面向 Gemini 编程的我的一个里程碑。我从本科计算机专业毕业都 12 年没有写代码了,ps 上学时也没咋写过代码,代码都是跑的 matlab ,我也挺高兴现在有这样好的工具能学习帮助我编程跑通程序训练,挺好玩的。
    Xs0ul
        12
    Xs0ul  
       1 天前
    看了你的 code 还有之前的帖子,你代码里只提到了 loss 下降,但这并不能说明模型有效,你至少得有些别的验证,比如 exact match ,edit distance ,perplexity 这些最基础的 metrics
    evegod
        13
    evegod  
    OP
       1 天前
    @Xs0ul 您好,这个项目本身现在看来有些像一个内核程序雏形,下一步的计划不是用它来做静态 ai 训练,目标是用它做即时运算和自持型 ai 的核心程序,有新版本和新东西做完了会和大家好好说的。计划时间不会太长,大概一周时间吧。
    WuSiYu
        14
    WuSiYu  
       1 天前
    @evegod 有探索精神自己动手实践是好的,不过做学术不是这么搞的,AI 领域一天的新论文都有几百几千篇,你不能指望别人主动去花时间复现一个甚至还不完整的工作,还是先等你至少能放出一些效果或者评测结论后再说吧
    evegod
        15
    evegod  
    OP
       1 天前
    @WuSiYu 好的啊,有好的结果和你说。
    c0xt30a
        16
    c0xt30a  
       22 小时 42 分钟前
    都四维时空干涉了,OP 先写一下波函数吧。
    pandaex
        17
    pandaex  
       17 小时 58 分钟前 via Android
    咋说呢,先验知识得经过多个数据集评估检验,才能论证一个假设有效的组件有效,而不是说故事,最优化的启发性算法适合你,模型还是得一项一项的做消融对比实验,然后拉出来王对王比较。
    pandaex
        18
    pandaex  
       17 小时 38 分钟前 via Android
    仔细看了下这是个词表分类器,基本和 transformers 无关,类似于中早期年代的 charcnn ,真的和 @Xs0ul 说的一样,而且训练语料设计的很粗暴
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1021 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:39 · PVG 07:39 · LAX 15:39 · JFK 18:39
    ♥ Do have faith in what you're doing.