乐其日报 第 8 期|06月12日:GUI Agent融资潮与AI岗位渗透率34%

发布时间:2026-06-12 栏目:乐其日报 来源:山东乐其信息科技有限公司

2026年6月12日,AI行业继续高歌猛进。字节系GUI Agent平台获数千万融资,AI正从「聊天」走向「动手」;文娱行业AI岗位渗透率达34%,月薪最高7万招人;谷歌Gemini 3.5实时翻译支持70+语言、开源26B扩散模型;中国AI图像生成两次问鼎全球。今天的AI日报,小乐带你逐条解读。

1. 字节系GUI Agent平台Core-Mate获数千万融资,敦鸿资产独家投资

Core-Mate近日完成数千万人民币融资,核心团队来自字节跳动。他们做的不是聊天机器人,而是能直接操控电脑界面的GUI Agent——点按钮、填表格、拖文件,跟真人一样用软件。平台同步开源OpenGUI框架。

小乐观点:这是AI从「对话式」到「操作式」的关键转折。企业软件里大量流程没有API接口,GUI Agent是打通「最后一公里」的钥匙。对软件公司来说,这意味着「所有遗留系统都能被AI唤醒」。

2. AI短剧工具AniShort完成近亿元融资,赛道最大单笔

AI短剧创作工具AniShort获近亿元融资,覆盖剧本生成、角色设定、场景渲染到成片输出全流程。短剧市场规模已突破500亿,AI赋能的「一人短剧团队」正在成为现实。

小乐观点:短剧是2026年最热闹的内容赛道之一,AI工具大幅降低制作门槛。以前一个短剧团队要编剧、导演、后期至少5人,现在一个会用AI的创作者就能搞定。AniShort的近亿融资说明资本赌的正是这个「一人即团队」的时代。

3. HiDream-O1-Image-1.5刷新国产图像生成纪录,砍掉VAE成亮点

国产AI图像模型HiDream-O1-Image-1.5在多项基准中刷新纪录,技术亮点是直接砍掉传统VAE模块。这一架构创新在提升生成质量的同时降低了推理成本。

小乐观点:国产图像模型终于不再只是「追赶者」了。HiDream砍掉VAE的思路很大胆,相当于换了一条技术路线。这说明国产AI团队已经从「复现论文」进化到「发明架构」,这是质的飞跃。

4. 文娱公司AI岗渗透率34%,月薪最高70K抢人才

文娱行业AI岗位渗透率已达34%,AIGC美术、AI编剧、AI音视频处理等新岗位集中爆发,头部公司月薪最高开到70K。

小乐观点:AI消灭岗位?数据恰恰相反。34%的渗透率说明AI正在「重塑」而非「消灭」就业。对求职者来说,学一个AI工具就是加薪密码;对创业者来说,为这些高薪岗位做提效工具就是商机。

5. 中国AI图像生成创业公司半月内两次问鼎全球榜单

一家中国AI创业公司半个月内两次登顶全球图像生成模型排行榜,在图像质量和文本一致性等指标上超越Midjourney和Stable Diffusion等国际竞品。

小乐观点:从追赶到超越,中国AI在视觉生成赛道的进步肉眼可见。开源社区的持续贡献是重要推手。放在一年前,谁敢说中国团队能在图像生成榜单上坐头把交椅?但今天,这是事实。

6. 复旦腾讯Baton:多说话人语音识别暴降76%错误率

复旦与腾讯联合发布Baton语音模型,在多人说话场景下M-WER暴降76%,指令遵循能力媲美字节Seedance 2.0。

小乐观点:多说话人识别是语音AI的「珠穆朗玛峰」。会议纪要、播客转录、智能客服都卡在这个环节。Baton的76%降幅不是微调而是碾压级提升,这个技术如果产品化,会议纪要市场可能要变天。

7. 谷歌Gemini 3.5 Live Translate:70+语言实时边听边译

谷歌发布Gemini 3.5 Live Translate,支持70+语言实时语音翻译,延迟仅落后说话人几秒,能复刻原说话人的语速、音高和语调。已通过Gemini Live API开放。

小乐观点:Jeff Dean说这是谷歌「跑得最久的机器学习项目之一」,终于修成正果。70+语言的实时翻译意味着什么?跨国会议、跨境客服、出国旅行——语言障碍这个千年难题,正在被AI从根上解决。

8. 谷歌开源26B文本扩散MoE模型,生成速度「像赛马一样快」

谷歌开源DiffusionGemma,26B参数文本扩散MoE模型。文本扩散采用非自回归生成方式可并行输出,理论上比传统LLM快4倍以上。

小乐观点:文本扩散模型是一个被低估的技术方向。传统大模型逐字生成,就像打字员一个字一个字敲;扩散模型则是「一口气写完一句话」。对于实时对话、代码补全等对延迟敏感的场景,这个4倍速度优势非常诱人。

9. Google DeepMind警告:百万AI Agent交互存在安全风险

DeepMind研究员发文指出,数百万不同AI Agent在线交互时可能出现欺诈、操纵等不可预见的涌现行为。DeepMind已资助相关安全研究项目。

小乐观点:这是AI安全的「下一章」。过去我们担心单个模型作恶,现在要担心百万Agent在互联网上相互博弈产生系统性风险。就像金融市场有熔断机制,未来的AI Agent网络也需要「安全闸」。这个话题值得所有AI从业者关注。

10. Meshy发布全球首个3D AI Agent,3D创作迎来「ChatGPT时刻」

3D平台Meshy发布全球首个3D AI Agent,用户通过自然语言即可生成、编辑和优化3D模型,无需专业建模技能。

小乐观点:3D创作是AI多模态版图中最后几块拼图之一。文字、图片、视频、音频都已经被AI攻克,3D的门槛也即将被打破。这对于游戏开发、电商展示、建筑设计等领域意味着什么?一句话:以前请不起3D建模师的小团队,现在有「AI建模师」了。

关注山东乐其信息科技有限公司,每日获取 AI 与科技前沿资讯。
乐其日报,每天为你精选最值得关注的 AI 动态。

【免责声明】
本文所有内容均整理自互联网公开资讯,仅供学习交流使用,不代表本站观点。如有侵权请联系我们删除。
乐其日报 AI 日报 大模型 AI 商业化 软件开发