🚀

模型发布/更新

7
X:Sky Computing Lab (@haoailab)

FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

公众号:京东JoyAI

京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

IT之家(RSS)

网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

X:Krea AI (@krea_ai)

Krea 2 技术报告正式发布

我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

公众号:火山引擎

豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

Mistral AI:News(网页)

Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

字节 Seed:Research Feed(网页内嵌数据)

Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

🛠️

产品发布/更新

6
Hugging Face:Blog(RSS)

IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月–2026年2月)和 WebArena(2025年2月–9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十…

X:Runway (@runwayml)

Runway推出Seedance 4K等三款新模型

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。 全球最佳模型,汇聚一处。 使用优惠码 30RUNWAY,前三个月可享七折优惠。 通过下方链接开始使用。

Hacker News 热门(buzzing.cc 中文翻译)

无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

公众号:千问APP(阿里)

国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

Anthropic:Newsroom(网页)

Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。

Claude Code:GitHub Releases(RSS)

Claude Code v2.1.187 发布

Claude Code v2.1.187 新增 `sandbox.credentials` 设置,可阻止沙箱化命令读取凭证和秘密环境变量;模型选择器及相关参数现已支持组织配置的模型限制,选中受限模型时显示“受组织设置限制”提示。全屏模式下选择菜单支持鼠标点击。修复多项问题:`--resume` 在 `-p` 无模型回合时失败、`--json-schema` 和工作流智能体结构化输出循环、远程 MCP 工具调用 5 分钟无响应后阻塞、Remote 会话启动延迟约 2.7 秒、韩文/中日韩文本粘贴乱码、子智能体深度追踪不准确、被杀智能体工作树注册残留未清理等。

📊

行业动态

5
Ars Technica:AI(RSS)

Oracle因AI应用裁员21000人,债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人,员工总数降至141,000人,降幅12.9%。公司称AI技术的采用导致劳动力缩减,同时重组成本达18亿美元,同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元,扩建Oracle Cloud Infrastructure,服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流,但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。

Artificial Intelligence News(RSS)

五眼联盟警告:AI网络威胁数月内将影响普通用户

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。

GitHub Blog

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明度实践规范,以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正,以在保持透明度目标的同时兼容开源开发模式。

OpenAI:官网动态(RSS · 排除企业/客户案例)

OpenAI 助力 Appia Foundation 推动先进 AI 共享标准建设

OpenAI 通过 Appia Foundation 支持制定先进 AI 的共享标准,涵盖评估框架、安全实践与全球合作。

OpenAI:官网动态(RSS · 排除企业/客户案例)

Omio 如何构建对话式旅行的未来

Omio 利用 OpenAI 技术打造对话式旅行体验,加速产品开发进程,并推动自身向 AI 原生公司转型。

📄

论文研究

3
Hacker News 热门(buzzing.cc 中文翻译)

AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。

Apple Machine Learning Research(RSS)

九位评委,两个有效投票:相关错误削弱LLM评审面板

苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8–22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证,瓶颈在于评委间的相关性而非聚合算法。

Apple Machine Learning Research(RSS)

基于指标依赖的标注饱和:从标签分布中学习

在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。

💡

技巧与观点

5
Hugging Face:Blog(RSS)

huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

Hugging Face:Blog(RSS)

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进…

Meta Engineering Blog(RSS)

Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低,Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降,并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh,但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题,而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Claude:Blog(网页)

Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

OpenAI:官网动态(RSS · 排除企业/客户案例)

GPT-5 帮助免疫学家 Derya Unutmaz 解开三年未解之谜

GPT-5 Pro 帮助免疫学家 Derya Unutmaz 解决了一个长达三年的免疫学谜团,揭示了 T 细胞行为的新见解。这一突破可能为癌症和自身免疫疾病研究提供支持。