V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
moshaohua
V2EX  ›  程序员

想做一款基于 ChatGPT 的医学翻译软件,有没有老哥感兴趣

  •  
  •   moshaohua · 2023-04-04 08:57:30 +08:00 · 3416 次点击
    这是一个创建于 597 天前的主题,其中的信息可能已经有所发展或是发生改变。

    来到 V 站已经挺久了,主要都是潜水看各位老哥的贴学习。因为我本身是医学研究生,但对科技一致保持着比较浓厚的兴趣。加上这几年做了一些医学的翻译(英中、日中),成立了一家主要以日语医学翻译为主的翻译公司,目前有 10 位左右的专业译者。

       这半年多来 ChatGPT 的出现,算是在自然语言处理上有了一定进步。我想能不能借助 ChatGPT 来做一款医学专业的辅助翻译软件。前期我也询问了一些开发者,得到的结果都是可以做,但都是外包的形式,我想找一找有没有对这个项目感兴趣的老哥,能够长期合作,最后成果共享,当然前期的时候我也能拿出一些资金来支持这个项目。
    
       对于 ChatGPT 、DeepL 等等的翻译效果,我也做了一定的比较,目前这俩对与中译英的效果确实很好,但英译中的效果一般,翻译结果对于普通内容的理解没什么问题,但是专业内容有些还是会引起理解困难,整体效果达不到出版要求。而对于日译中,DeepL 教过较差,ChatGPT 也是一般。我构想的辅助翻译软件是基于机器翻译服务无法替代人工翻译,而可以助力人工翻译提供更高质量的语言服务。
    
        ChatGPT 提供了基础的机器翻译能力、文本润色能力。我们在前期翻译工作中积累一些英中、日中的术语库,想借助借助 GPT 的优势使用术语库和指令库,对译后编辑工作流进一步简化和优化,进而达到更好的翻译效果。另外在辅助翻译上还想实现一些语音识别、文件转录、图片转文字等常用语言服务功能,并以此为基础继续提升辅助翻译的能力。
    
       当然想要实现全部功能是我的长期计划,对于短期之内能实现基于术语库优化翻译结果就可以了。如果有感兴趣的老哥,希望可以联系我,email: [email protected] ,谢谢!
    
    24 条回复    2023-04-05 07:56:40 +08:00
    810975
        1
    810975  
       2023-04-04 09:30:52 +08:00
    还是等 ChatGPT 插件功能完全开放以后, 这种事情做起来就简单了。。
    Chaidu
        2
    Chaidu  
       2023-04-04 09:31:45 +08:00   ❤️ 1
    实测 GPT-4 做小学数学题都经常做错,你用它做医学翻译软件?
    到时治死几个人,你的下场 要么被判死刑、要么被病人家属砍死
    yufeng0681
        3
    yufeng0681  
       2023-04-04 09:43:01 +08:00
    日本医学课题研究得好的不发表论文到国际医学权威杂志么? 不用英文写么?
    西医领域,应该还是英语文献资料占比重,权重大,可信度高;

    chatGPT 时代了,不要去做工具了,要去做内容, 医学研究生应该盯着一个方向,把全面性铺开,又结合深度,把一个方向的内容聚合起来,让这个方向的人都觉得你这个内容好,能不断衍生新的想法。
    aloxaf
        4
    aloxaf  
       2023-04-04 09:47:09 +08:00
    @Chaidu #2 你这逻辑就离谱
    医生治死了人和他用的翻译软件有啥关系?
    那手术当天医生因为路上堵车来迟了导致病人来不及救治死亡了,是不是还得要交管局赔钱?
    Chaidu
        5
    Chaidu  
       2023-04-04 09:55:29 +08:00
    @aloxaf #4 你说话毫无逻辑
    moshaohua
        6
    moshaohua  
    OP
       2023-04-04 10:01:18 +08:00
    @Chaidu 我想做的是医学翻译辅助软件,它和临床治疗完全是两码事。另外软件是辅助译者用的,译者翻译完成之后还需要医学专业人员对专业内容进行审核才能出版。您说的这个情况不用担心,我们想的是用技术去减少一些重复劳动,解放生产力。
    moshaohua
        7
    moshaohua  
    OP
       2023-04-04 10:11:54 +08:00
    @yufeng0681 翻译的一般都是图书教材,或者一些科普杂志图书,论文翻译一般不做。日本比我们更早去学习西方医学,中国现在的西医,最早的时候就是去日本学习的。西医里可能有超过一半的词都是先从英语翻译为日语,再从日语翻译为繁体中文,然后再转为简体中文。虽然 21 世纪之后我们在医学和学术上直接和西方接触,但是日本在医学上的发展任然是非常好的,尤其是他们有很多高质量的教材图书。
    而您说的另一点去研究医学内容很对,但这件事和我说的并不冲突。我想做的是辅助软件,是工具,是想更好的、更高效的做成翻译工作。我并不懂开发技术和如何去做工具,所以才来这里想找合作者的。
    moshaohua
        8
    moshaohua  
    OP
       2023-04-04 10:14:49 +08:00
    @810975 确实是这样的。但是对于行业外的人来说,除非非常傻瓜式,即开即用的那种,否则始终是存在技术难度的。所以我还是希望能有合作者,可以互利互惠完成这个事情。
    liuzhedash
        9
    liuzhedash  
       2023-04-04 10:18:50 +08:00   ❤️ 1
    已发邮件。
    2L 太夸张了,文献主要是医生和研究生用来研究讨论的。
    810975
        10
    810975  
       2023-04-04 11:20:52 +08:00
    @moshaohua 如果你能再 openai 的网站使用 chatgpt 插件就是开箱即用的,可以这么理解,插件可以帮助你对翻译结果进行持续优化,对它翻译不准确的地方,定制化下次翻译就可以正确的翻译了,相当于 这个插件就是你对这个 AI 的单独培训。。。
    mscsky
        11
    mscsky  
       2023-04-04 11:45:20 +08:00
    日语还没发现准确的翻译工具
    yanmu6626
        12
    yanmu6626  
       2023-04-04 14:48:55 +08:00
    你的想法很好,不用理会上面那个智障的发言。GPT 是基于 Transformer 模型的,Transformer 的目的就是用于机器翻译,所以,它的语义理解能力强。建议你可以了解一下微调(基于 GPT3 )或者 embedding 向量索引( GPT3.5/4.0 ),这样的话,GPT 就会知道专业术语按照你给的提示怎么去翻译

    但是 gpt 训练集英文居多,中译英,日译英都不错,日译中效果可能就不理想
    Luke2AFB
        13
    Luke2AFB  
       2023-04-04 15:43:04 +08:00
    想请教一下,日文原创的高质量教材都是哪些方面的,或者说日本的医学哪些方面比较厉害。消化器?内镜?再生医学?
    minikyu
        14
    minikyu  
       2023-04-04 15:45:42 +08:00
    @Chaidu 你就很离谱,现在的翻译软件没有百分百准确的,那医学生难道就不用翻译软件吗?甚至按你的逻辑,干脆医学外文文献都不该参考,因为就算是自己翻译也有可能是错的,分分钟会被判死刑或被人砍死。
    yufeng0681
        15
    yufeng0681  
       2023-04-04 15:55:47 +08:00
    最近确实看了基本日本人写的营养学书,可能他们饮食习惯和我们类似,可参考性较大(西方吃的那些食材,我们不吃)
    但是现在的营养学书,都是自成一派,自己闭环的讲一套理论。 不可避免的就是 A 的理论和 B 的理论互斥,不兼容,有一定偏差等场景。
    现在还抱着书籍翻译,实在是 1.0 了。
    知识 2.0 ,就是要站在这些书籍之上。把一致的统一起来,把不同观念的展现出来,能逐步细化,补充新的论据;就某一领域就能聚合所有同道写这个专题的知识库。

    把这些作者都聚合起来,用 chatGPT 连接起来,大家一起写某个专题的内容,才能打破巴别塔的禁忌。
    moshaohua
        16
    moshaohua  
    OP
       2023-04-04 17:06:21 +08:00
    @mscsky 确实是
    moshaohua
        17
    moshaohua  
    OP
       2023-04-04 17:11:48 +08:00
    @yanmu6626 是这样的,我一直认为科技的进步能帮我们化繁为简。在翻译上能从机械重复的翻译转变成更为本质的翻译——将一个不存在的词引进一种语言中,就像胡适翻译 humor 为幽默一样。
    ChatGPT 训练集大部分都是英文,所以我们想用自己积累的术语库去训练达到目的。
    moshaohua
        18
    moshaohua  
    OP
       2023-04-04 17:21:22 +08:00
    @Luke2AFB 临床医学方面的话日本那边的消化科、普外科很好,单从教材方面来讲日本和欧美普遍质量高于国内,原因的话可能还是有钱有闲。教材和图书的编写是非常耗精力的,国内大家都在追赶搞发展,而且国内教材和图书价格相较而言比较低,基本上编写一本教材的稿费在 2 万左右,所以质量都很差。
    moshaohua
        19
    moshaohua  
    OP
       2023-04-04 17:27:23 +08:00
    @yufeng0681 您说的这个知识 2.0 ,如果在临床医学领域的话,这个叫做循证医学,是已有且发展了一些年的。这个理念确实好,但是在发展过程中也有很多困难。语言障碍是很大的一个问题,受自然语言的局限,尤其是不同语种起源的不同,语言本身可以对认知方式产生差异,进而导致领域发展的不同。所以在学术交流和科普过程中,翻译对于知识和理念的传播起着很重要的作用。
    yaoyao1128
        20
    yaoyao1128  
       2023-04-04 17:28:18 +08:00 via iPhone
    比较看好,但是感觉 32000 个 token 的限制也不太好调优。
    en2zh-hans 的话,不太确定现在 gpt4 的模型怎么样。整体来说感觉 3.5 翻译还是不错的,但是很多论文会出现一些非常长的句子,包含关系不是那么明确,所以 gpt3.5 可能会翻译出来一些完全无法理解的内容。同时也要注意 gpt3.5 可能会吞词和改词,尤其是一些药品名称可能会说成类似 or 基团相同 or 名称类似的东西。并且有时候翻译不一定符合内地的用语习惯。
    现在我是 deepl youdao chatgpt 一起用……希望未来能看到这个产品上市。
    moshaohua
        21
    moshaohua  
    OP
       2023-04-04 17:33:27 +08:00
    @yaoyao1128 目前在翻译英中专业书籍,以及自己看一些英文文献的时候确实会遇到这样的问题,而且这个问题很常见。尤其是一些非英文母语作者写的文章时,这个问题尤为突出,主要是喜欢从句套从句,或者是加一堆宾语。我也看了一些对于 ChatGPT 原理介绍的视频,感觉目前可能似乎并不能完全解决这个问题。对于懂英文,但是想速读文献来说,这样的翻译是够用的。但是对于没有原文,只看译文来说,这样的翻译没有可读性。
    xulihang
        22
    xulihang  
       2023-04-04 18:07:13 +08:00
    我是专门做 CAT 软件的。用 ChatGPT 和爱特曼这些专门的医学机器翻译的相比能有什么优势呢?先做一个给自己用,如果效果好再考虑推广吧
    zanrenXu
        23
    zanrenXu  
       2023-04-04 19:38:43 +08:00
    可以考虑跟科研者之家合作一下: https://www.home-for-researchers.com/static/index.html#/。
    ivslyyy
        24
    ivslyyy  
       2023-04-05 07:56:40 +08:00
    需要免费义务程序员吗?
    会写一些简单的代码。
    不要钱、免费干
    只要能给写代码的机会,倒贴一点钱也不是不可以。
    我的 github: dreamyiz

    另外你说做一个翻译功能,用到 chatgpt ,我最近刚好看到一个开源项目,也是翻译相关的。
    https://github.com/mckaywrigley/ai-code-translator
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1033 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:42 · PVG 03:42 · LAX 11:42 · JFK 14:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.