• 开云电子




  • News Center

    新闻中心

    看得懂视频、敲得出代码、上得了学堂、下得了厨房 | 最卷国产大模型来了
    发布日期 :2024-09-03

    微信图片_20240909142559.png

    近日,在 KDD 国际数据挖掘与知识发现大会上 ,开云电子投资企业智谱AI介绍了新一代基座大模型GLM-4-Plus。GLM-4-Plus是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能  ,持续推进大模型技术的独立自主创新。

    主要更新:

    • 语言基座模型 GLM-4-Plus :在语言理解、指令遵循 、长文本处理等方面性能得到全面提升,保持了国际领先水平。

    • 文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。

    • 图像/视频理解模型 GLM-4V-Plus:具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型将上线开放平台(bigmodel.cn),并成为国内首个通用视频理解模型API。

    • 视频生成模型CogVideoX:在发布并开源2B版本后,5B版本也正式开源 ,其性能进一步增强 ,是当前开源视频生成模型中的最佳选择。

    • 同时 ,清言app上新“视频通话”功能,这也是国内首个面向C端开放的视频通话功能。



    | 最新基座大模型 GLM-4-Plus上线



    GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能 ;利用 PPO 有效有效提升模型推理(数学 、代码算法题等)表现 ,更好反应人类偏好。


    下面是 benchmark 对比:


    语言文本能力方面,GLM-4-Plus和GPT-4o及405B参数量的Llama3.1相当。


    Language capabilities


    cc7c852d1b284911d6eaa4d9750cd294.png

    LCB: LiveCodeBench
    NCB: NaturalCodeBench
    * represents reproduced results



    长文本能力比肩国际先进水平。通过更精准的长短文本数据混合策略 ,取得了更强的长文本的推理效果 。


    Long Context evalsuation

    a1801d3da5c3aaaa9c40615481799b9b.png


    GLM-4V-Plus 在图像和视频理解能力方面位居前列。GLM-4V-Plus 还可以理解网页内容,并将其转换为 html 代码 。

    Vision capabilities 

    c7d62b359ff9e8dc086b68985749d2bd.png


    GLM-4V-Plus 能够理解并分析复杂的视频内容,同时具备时间感知能力 。上线开放平台后 ,将提供国内首个通用视频理解模型 API  。

    Video analysis

    41ab4db4cee89a9b9216a882e9547bc9.png



    【视频总结能力】+【推理能力】+【多轮对话】+【时间问答能力】


    用户:这个穿绿色衣服的球员在整个视频都做了什么?

    GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球 ,然后跳起将球投入篮筐。

    用户:这个视频的精彩时刻是什么 ?发生在第几秒?

    GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐 。


    文生图模型迎来最新版本CogView-3-Plus,其效果接近目前最佳的MJ-V6及FLUX等模型,并支持图片编辑功能 。


    44cb7bf2251fe7d975e358d356bc894d.png



    614c890be232ea16e772bf00cc98d324.png
    图片示例



    GLM-4-Plus现已在智谱大模型开放平台bigmodel.cn部署 ,开发者即日起就能通过 API 方式调用这一智谱最新基座大模型。

    | 清言app迎来重要更新 ,全新的“视频通话”功能来了 !


    智谱清言app迎来“视频通话”功能 ,这也是
    国内首个面向C端开放的视频通话功能 。

    清言作为第一批C端上线的大模型产品,过去的一年,常常以文字和语音的形式和大家交流。但现在,清言也有了眼睛 ,解锁了AI新体验。

    清言视频通话跨越了文本模态、音频模态和视频模态,并具备实时推理的能力。现在,用户拨打清言的视频通话窗口 ,即可与它进行流畅通话,即便频繁打断它也能迅速反应。只要打开摄像头 ,用户看到的画面 ,清言也可以看到,同时可以听懂指令并准确执行。这样的体验就如同和真人视频通话一样。

    在智谱的视频通话demo中可以看到,通过这一全新功能,清言瞬间变身一对一专属私教,无论是复杂的学术论文,还是多学科的学生作业,都能进行实时解答;也能随时切换中英文进行对话——妥妥一位全能的学霸朋友,7X24小时陪伴在身边 。

    清言app视频通话功能自8月30日上线,首批面向清言部分用户开放,同时开放外部申请。智谱将会持续迭代并逐步放开规模,尽快让全员都可以使用 。

    随着视频通话功能的加入,让清言app成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

    最新推出的基座大模型,和此前发布的 CogVideoX 等模型一道 ,完善了智谱自主原创的全栈大模型谱系,推动智谱实现面向世界先进水平的全面对标 。

    视频通话功能是清言 app 继 7 月上线生成视频功能清影 Ying 后又一重大更新。通过小步快走持续迭代,智谱努力让大模型技术更好赋能更多用户 。

    随着开源模型和开放平台模型的广受欢迎 ,智谱也将继续推动 AI 力量惠及更多人群 。通过大模型链接物理世界亿级用户  ,智谱致力于为千行百业带来持续创新与变革,加速迈向通用人工智能时代。

    1111.jpg

    开云电子成立于2000年4月19日 ,总部位于深圳 ,是我国第一批按市场化运作设立的本土创投机构。自成立以来,开云电子伴随着中国经济的快速增长和多层次资本市场的不断完善,在社会各界的关心和支持下,聚焦于信息技术、智能制造和节能环保、医疗健康 、大消费和企业服务 、文化传媒 、军工等领域 … [ +更多 ]
    微信公众号

    开云电子财智创业投资管理有限公司 版权所有

    Copyright © Fortune Venture Capital Co.Ltd. All rights reserved

    电话:0755-83515108

    邮箱:fortune@ysjincai.com

    粤ICP备14030831号




  • XML地图