ecwu's repos on GitHub
HTML · 2 人关注
About-Portal
About:Blank 2.0
C · 1 人关注
COMP3173_CC
COMP3173 Compiler Construction
0 人关注
100-Days-Of-ML-Code
100 Days of ML Coding
Python · 0 人关注
6.00.1x
MITx:6.00.1x Introduction to Computer Science and Programming Using Python
HTML · 0 人关注
About_Blank
About_Blank
JavaScript · 0 人关注
amacs
AQ-ANDELU CHATTING SIMULATOR
Ruby · 0 人关注
Autolab
Course management service that enables auto-graded programming assignments.
0 人关注
bert-fairseq
Implement BERT and MulitPointer-generator on the basis of fairseq
Python · 0 人关注
blogroll
世界一流兼容并包TUNA协会收集的周围同学们的Blog
HTML · 0 人关注
branding
TypeScript · 0 人关注
chatgpt-api-web
纯前端灵车项目,调用 OpenAI API ChatGPT 进行对话。
0 人关注
cheatsheet-translation
Translation of VIP cheatsheets for Machine Learning Deep Learning, and Artificial Intelligence
EJS · 0 人关注
codespaces-test
C++ · 0 人关注
COMP1013_SP
Structure Programming for Computer Science Student
C++ · 0 人关注
COMP1013_SPGP
Structured Programming Repo for UICcst16 Y2A
Python · 0 人关注
COMP1013_SP_derive
Structure Programming Assignment & Lab Using Other Language
C++ · 0 人关注
COMP2003_DSnA
COMP2003: Data Structures and Algorithms
Java · 0 人关注
COMP2013_OOP
COMP2013: Object-Oriented Programming
0 人关注
COMP3013_DMS
COMP3013: Database Management Systems
C · 0 人关注
COMP3033_OS
C++ · 0 人关注
COMP3073_ITR
Introduction to Robotics
C · 0 人关注
COMP4033_CGGP
COMP4033 Computer Graphics Group Project
Python · 0 人关注
course-api
Go · 0 人关注
coursehub
JavaScript · 0 人关注
covid_vaccine_dashboard
0 人关注
cssn
Computer Science Study Note
Python · 0 人关注
DeepMoji
State-of-the-art deep learning model for analyzing sentiment, emotion, sarcasm etc.
Java · 0 人关注
Dijkstra
HTML · 0 人关注
dms-archive
Archive for Digital Marks Studio
ecwu

ecwu

V2EX 第 233000 号会员,加入于 2017-05-29 10:15:48 +08:00
根据 ecwu 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
ecwu 最近回复了
mark 一下,支持!
2023-04-07 14:53:38 +08:00
回复了 cydian 创建的主题 程序员 [盖楼🎁送 15 天 20 份] 力扣 Leetcode Plus 会员 兑换码(1~365 天)
做个分母
2022-11-03 10:58:25 +08:00
回复了 nanshaobit 创建的主题 程序员 有好用的内网搭建的 wiki 或笔记系统吗?
推荐 [outline]( https://github.com/outline/outline),就是必须要配置一个 SSO, OIDC, 或 SAML 的身份认证,目前不支持账号密码登录。
在使用 synology.me
@Richard14 不同预训练任务是替换不同的输出层,这里你可以参考下原论文。预训练任务的顺序会导致模型效果的差异。

使用 HuggingFace 来训练自己的模型可以参考 https://stackoverflow.com/questions/65646925/how-to-train-bert-from-scratch-on-a-new-domain-for-both-mlm-and-nsp
@Richard14 你可以理解 BERT 给出的 embedding 是高级版 w2v (严谨点是叫 contextual word embedding ,也就是同一个词,在不同的上下文里,embedding 是不同的,不同于 w2v 或者 GloVe 学习完就是固定的)

取平均来获得输入的全局的表示确实会损失隐式信息,但是 CLS 位置 embedding 是通过 self-attention 获得的,本质上就是对 token embedding 的加权平均。所以用 CLS 还是取平均,需要看具体的任务是干什么。

如果你是对输入句子做分类或输出浮点数,你可以考虑直接拿 CLS 位置的 embedding 给到 MLP 。如果是继续生成内容,可以去了解下 Seq2seq 架构。

最后你提到的 RNN 或者 MLP + 位置编码的想法。我个人认为 RNN 可以尝试。而 MLP 方案,你的输入会过于巨大( 768 * token 长度),不太可行。
- 位置编码在输入时加在了词嵌入中,模型里的 Transformer Block 都有残差链接,这样位置的信息也可以传递到后面的层,被后面的层“把握”。

- 输出的“整体信息”和每个输入 token 的 embedding ( embedding 也就是你说的特征提取后的信息)都在一个输出层上。一般认为插入在句子输入最前面的 [CLS] token 对应的 embedding 包含了后面输入句子的全部信息,这里的原因是在 BERT 的 NSP 预训练任务时,会拿 [CLS] 位置的 embedding 来预测输入的两句话的先后关系,这样 Self-Attention 的过程就会把后面的句子的信息集中到 [CLS] 的位置的 embedding 中。所以加入的 CLS token 并不是说人为加入了一个全局信息。

- 如果你要把 BERT 用在自己的回归任务上,可以只将预训练的 BERT 当作一个获取词嵌入的工具。也就是在 BERT layer 的输出给到回归任务的输入。但具体用 BERT layer 的全局 embedding ([CLS] 位置输出),还是取输入 token embedding 的平均,都可以尝试。
2022-07-22 10:07:08 +08:00
回复了 tenstone 创建的主题 程序员 调研贴:你用什么笔记软件?
Obsidian
2022-04-07 13:34:28 +08:00
回复了 kuls 创建的主题 程序员 各位大佬有没有推荐做笔记软件?
Obsidian + Git / OneDrive
家里也是没有布线,但是前段时间自己折腾了隐形光纤,就是自己布置时比较费时费力。但收发机、光纤接好了就能直接使用,效果挺好。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2671 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 06:33 · PVG 14:33 · LAX 22:33 · JFK 01:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.