syferie 最近的时间轴更新
syferie

syferie

V2EX 第 759705 号会员,加入于 2025-07-28 00:04:19 +08:00
PRO
PRO 会员
syferie 最近回复了
11 天前
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
@youyouzi 不是,都是自己处理的。上面说的原理应该挺清晰的。
17 天前
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
@youyouzi 可以参考我这里的开源思路,核心利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

核心还是考虑到作为一个桌面端应用,尽量轻量化,原先是 OCR+Inpaint 的思路,但是依赖外部需要部署的服务,过于繁琐了,现在的话下载即用。
17 天前
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
我前段时间设计了一个方案,先利用 NanoBananaPro 来生成 PPT 图片,效果与 banana-slides 类似。
之后实现可编辑,核心思路是利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,从而生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

https://github.com/MoonWeSif/NextCreator
1 月 26 日
回复了 tramm 创建的主题 浏览器 有什么推荐的浏览器?
Mac 上现在用 Dia ,也是 Arc 团队做的,自带的 AI 搜索感觉效果挺不错,主要还免费。
它都送那么多了,这就是绝活。
1 月 23 日
回复了 zhanshen1614 创建的主题 程序员 AI 时代如何证明个人项目的真实性?
老板会纠结你用什么写的吗,不是能出活就行。你会用 AI 一个人能顶两个人的工作量那才是老板想要的。
新增:
1. veo3.1 视频模型,有配套视频站点可供使用。
2. gemini-3-pro-image-preview-url ,我们将返回的图片上传到图床后返回图片的 Url 链接,无需自行处理 base64 图片数据,对于本地带宽的要求更低。支持原生格式调用。
1 月 12 日
回复了 ethusdt 创建的主题 程序员 常用的大模型 api 都用哪些模型?
现在用 Gemini 比较多,日常简单点的 Gemini3Flash ,复杂点的 Gemini3Pro 。虽然两个都是推理,但是 3Flash 一般只需要两三秒。跟其他非思考模型相差不大。3Pro 推理开最大也只是二三十秒,并不用等很久。

GPT 科研能力比较强,读论文搞科研的话就是 GPT 官网用 5.2 Thinking 。

写代码就直接上 ClaudeCode 了。

其实现在哪家的旗舰模型都是推理模型。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1768 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 15:35 · PVG 23:35 · LAX 07:35 · JFK 10:35
♥ Do have faith in what you're doing.