ag真人平台官方AIGC月刊:国产AI视频模型甩开Sora;Cursor引爆AI编程工具;新晋AI设计利器Recraft(2411)11月12日,百度世界大会上,李彦宏发布了两个新AI技术:检索增强的文生图技术iRAG,可以精准生成特定物品/人物与任意背景;无代码工具秒哒,不用写代码,通过多智能体协作和多工具调用,就能够实现任意想法。
11月20日,微软在“Microsoftignite2024”全球开发者大会上推出了一系列全新的AI Agent产品,基于OpenAI的GPT-4o和GPT-o1模型,结合微软自身的云平台、365套件等产品,将为用户提供强大的智能助理服务,预计在未来一年内陆续上线商用。
紧接着,谷歌也宣布全力推广商用AI Agent,发布一系列激励活动和产品,包括AI Agent生态系统计划和AI Agent Space。
“智能体是AI应用的最主流形态,即将迎来它的爆发点。”正如李彦宏所说,未来AI行业的焦点是“智能体”(AI Agent),微软、谷歌、OpenAI、Anthropic等各大厂商都在积极抢占AI智能体市场。
据内部员工爆料,OpenAI正准备推出一款代号为“Operator”的全新AI Agent产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等,该产品预计将在2025年1月发布。
11月1日,OpenAI宣布ChatGPT新增搜索功能,微调后的GPT-4o会根据用户的需求自动决定是否检索网络,能够快速提供最新信息,并附上相关的网页链接。ChatGPT Plus和Team用户可率先使用这一功能。
此外,AI搜索和知识库、写作等功能以及其他生态资源的整合也是一个发展方向。腾讯元宝2.0版本升级整合微信视频号、QQ音乐等信息资源,新推出的智能工作台产品ima还打通了微信公众号生态,提供全新的搜读写体验。
11月,AI视频生成领域依旧打得火热。国内生数科技推出Vidu 1.5模型,全球首发多主体一致性功能,视频生成更加可控;可灵AI 1.5模型(图生视频)支持运动笔刷和运镜,同时上线“人脸模型”定制功能;阶跃星辰内测“跃问视频”,支持文生视频,最长10秒。
11月15日,此前吊足外界胃口的视频生成模型PixelDance和Seaweed在即梦AI正式上线。新模型生成速度更快,可以通过小幅度、渐进式的提示词,以及时序提示词AG真人、长镜头等技巧,实现复杂的视频效果。
海外开源模型也有新突破,AI视频初创公司Lightricks发布LTX Video,这是基于DiT的视频生成模型,可在RTX 4090等消费级GPU上本地运行,只需要4秒就能生成5秒时长的24FPS视频,分辨率768x512。用户可在GitHub、Hugging Face和fal.ai上获取预览模型。
泄露者疑似部分参与Sora内测的艺术家,在HuggingFace上泄露了Sora的API,使其短暂开放了1小时左右。同时,艺术家们发布了集体控诉信,指责Open AI以极少的报酬让他们测试Sora。
Open AI回应称,Sora仍处于“研究预览”阶段,公司正在努力平衡创造力和更广泛使用的安全措施。看来到今年底,Sora也不一定能跟大家见面了。
在Open AI工作7年的翁荔(Lilian Weng)宣布卸任安全系统团队负责人,已于11月15日离职。有传闻猜测翁荔可能会回国工作,但她暂未公开新的职业动向。
此外,前Salesforce AI首席执行官史宗玮加入了Meta,将领导新业务AI团队,为企业构建AI工具,通过Meta旗下App来触达消费者。
11月底,腾讯混元大模型技术负责人之一刘威已离职,在新加坡开始AI视频生成领域的创业。商汤秒画负责人刘宇也离职创业了,正在招募团队。
AI正在性地改变开发过程。AI编程工具Cursor爆火之后,Bolt.new进一步提供了一个完整的全栈开发环境,直接在浏览器中运行;Windsurf首创copilots和agents结合的新范式,能深度理解代码库,实时感知程序员的操作。
国内类似的AI编程工具也开始涌现。11月15日,阿里通义代码模式上线-Coder模型,即使用户不懂代码和编程,也可以用大白话让AI自动编码,包括网站、数据图表、小游戏、个人简历等等。
月之暗面创始人杨植麟认为,最适合让AI去锻炼思考能力的场景就是数学场景。11月16日,Kimi发布新一代数学推理模型k0-math,采用了全新的强化学习和思维链推理技术,基准测试显示,其数学能力可对标OpenAI o1-mini和o1-preview。用户在Kimi官网的左侧菜单栏即可找到该模型。
11月20日,DeepSeek发布推理模型DeepSeek-R1-Lite预览版,思维链长度可达数万字,目前仍处于迭发阶段,仅支持网页使用。官方称正式版DeepSeek-R1模型将完全开源,并公开技术报告和部署API服务。
11月27日,昆仑万维推出具有复杂思考推理能力的系列模型“天工大模型4.0”o1 版(Skywork o1),在模型输出上内生了思考、计划、反思等能力。
11月28日,阿里通义团队发布了推理大模型QwQ-32B-Preview,其在数学和编程领域表现出色,尤其在MATH-500测试集上,数学性能超越了o1-preview,但在其他领域仍有提升空间。
AI音乐的玩法越来越多了。Suno近期频繁更新,从“一致性”功能“Persona”,到图生音乐功能“Scenes”,再到全新的v4模型,AI音频质量、歌词创作和整体歌曲结构等方面都有了较大提升。
Suno v4模型更新的最大亮点是“Remaster”功能。用户可以在Pro和Premier测试版中升级重制原有的AI音乐,来优化音质和唱词,主打一个“经典复刻”,实现AI音乐靠AI翻红。
手机端AutoGLM可以自主执行超过50步的长步骤操作,也可以跨App执行任务;Web端开启“全自动”上网新体验,支持数十个网站的无人驾驶,智谱清言插件已上线该功能;像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。
虽然目前AutoGLM响应指令的准确度和操作速度还有待提高,但我们还是期待AI助手越来越智能,可以自动执行繁琐的日常任务。
近日,来自英国的AI初创公司Recraft推出了一款AI图像设计模型Recraft v3,其前身是10月底曾在HuggingFace文生图竞技场登顶第一的神秘模型“Red_Panda”(小熊猫)。
Recraft v3图像生成质量很高,可以通过框选控制文本、设计元素的位置大小,对长文本生成的处理能力也很突出,是Midjourney、Ideogram的强劲对手。
其中一款“Hard Flash”风格模型可以生成复古胶片照片,相关AI作品近期在小红书上迅速蹿红,引发了病毒式传播。
今年7月,开发者向劲宇专门打造了一个AI账号,“潜伏”在知乎,充当答主回复各类问题,和网友们互动,但似乎没有一个人发现它是AI。在AI账号发布的109条回答中,收获评论22条,赞同107次,浏览量超3万,创作分5422分。
随着电影《毒液3:最后一舞》的上映,抖音上掀起了一股变身毒液的风潮,利用AI视频工具Pixverse的特效“毒液变身”即可一键生成。
继Pika的“万物皆可捏捏”特效后,AI视频生成赛道也开始卷特效玩法了。除了毒液变身,Pixverse还相继推出了蝙蝠侠、绿巨人、钢铁侠等超级英雄经典IP变身特效。
美图旗下Wink最近推出的一款“脑洞特效”也在小红书上走红,无论是短发秃头星人,还是猫狗、贝多芬、大卫都能瞬间长出飘逸的长发,评论区不少人询问制作教程和求代做。
这种通过打造创意AI特效模版和玩法,满足大众娱乐化需求,吸引大量UGC用户自发传播的操作,已经成为很多AI产品大众化的共识。
圣诞将至,可口可乐近期与三家AI工作室合作发布了一系列圣诞广告短片,完全依托于AI技术创作,使用了可灵AI、海螺视频、Leonardo、Luma、Sora和Runway等AI模型来致敬经典。
有网友认为AI广告的视频效果有明显提升,但也有许多人不买账,认为这是对此前优秀广告的拙劣抄袭,也是对人类劳动的贬低,“缺乏创意和灵魂”。
11月23日,Runway推出了新功能“Expand Video”,输入文字提示或图片,即可将原画面扩展生成新的内容,调整为不同的宽高比,以新的构图创造故事。
在TED AI 2024大会上,被称为“谷歌八子”之一的雅各布・乌斯克尔特(Jakob Uszkoreit)分享了Transformer的发展历程、谷歌在大语言模型领域的早期探索。
乌斯克尔特表示:“当我们谈到它能否真正促进像ChatGPT这样的产品诞生时,至少从表面上看,我们并没有完全预见到这一点。我的意思是,即使在我们发表论文时,大语言模型及其展现出的能力已经让我们感到震惊。
我们没有将这些技术直接转化为市场产品,部分原因可能是当时对于开发大规模(潜在投资达100亿美元)的产品持保守态度。但这种感觉并非‘哦,真可惜,他们抢先了’之类的情绪。我更倾向于说哇,这本来可以更早些实现的。”
对于Scaling Law(缩放定律),Dario Amodei认为它不仅适用于语言模型,还适用于图像、视频、文本转图像、图像转文本、数学等多个领域。在这些领域中,都观察到了随着模型规模增加而性能提升的现象。尽管存在争议和挑战,模型性能的提升并没有遇到明显的上限。他相信,只要继续扩大模型规模、增加数据和计算资源,模型的性能就会继续提升。
他直觉上认为,如果我们继续扩大模型规模和改进训练方法,模型至少可以达到人类的水平,甚至在某些领域超越人类。
11月23日,英伟达CEO黄仁勋被授予香港科技大学工程学荣誉博士学位,他在典礼现场谈及了人工智能的变革和展望,以及对毕业生的寄语。
“人工智能已经开始了一个全新的计算时代,它将影响每一个科学领域的每一个行业。”对于AI Agents,黄仁勋说道:“世界各地的企业和公司都在竞相采用人工智能来加速创新和提高生产力,很快,公司将有AI Agents和每个团队一起并肩工作,这些团队来自营销、销售、供应链、芯片设计、软件开发等各个组织。”
谈及机器人,他表示,在重工业和制造业,由于物理领域的新突破,对机器人的投资正在激增。“认知智能基础模型已经快速进步,物理智能基础模型也在取得快速进展,机器人时代正在到来。”
11月21日,在2024年世界互联网大会乌镇峰会上,荣耀CEO赵明表示,从算力 支撑的角度,2027年手机端侧可能可以实现搭载千亿参数大模型,千亿参数大模型可以学习、理解、预测用户的行为和意图,帮助用户安排生活和工作。据了解,目前多款AI手机搭载的大模型还是几十亿参数、百亿参数规模。
11月25日,在“中关村博士后学术交流论坛”上,中国工程院院士邬贺铨在演讲中表示,AI大模型的落地应用正在从“模型层”走向智能体(AI Agent)。
邬贺铨认为,AI智能体具有记忆、规划、工具、行动能力,有了AI智能体,可以代替人完成一些任务,同时能够让端侧设备、行业AG真人、空间计算、智能驾驶、信贷管理、“具身智能”等领域都拥有通用AI能力。他强调,有了具身智能不等于通用人工智能(AGI)的到来。
“上云仅是大模型落地的重要环节,但并不是唯一的环节。上云不能完全解决大模型落地,还需要下沉到智能终端。”邬贺铨表示,现在全世界统计换手机达到3年半时间以上,“如果终端能够自我生成文生图、文生视频,会带动手机的更新迭代,会带动新型现代服务业的发展,终端可以有很多应用,可以离线运行、低成本、低时延、高隐私、个性化。”
近日,腾讯混元视频生成模型开始小范围内测,即将上线。首批内测用户可通过独立网页版体验混元文生视频能力。
中国生成式AI大会首次登陆上海举办,由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起。主会场将进行大模型峰会、AI Infra峰会,分会场将进行端侧生成式AI、AI视频生成和具身智能三场技术研讨会。展览区有GMI、联汇科技、中昊芯英AG真人、VAST等14家企业带来最新技术产品展示。
本周五(12月6日),在上海兰迪大厦举办的“智绘未来——人工智能安全与合规实务分享暨《大模型安全、监管与合规》新书发布会”活动上,叶娟、陈梦园律师将分享她们关于人工智能与知识产权、算法治理等方面的见解和看法。此外,小工蚁创始人也会为大家深度剖析技术发展现状,分析人工智能、大数据等技术赋能企业的实例 。
玩家福利:在评论区分享你对AI相关的任一想法,点赞数排名前五位的玩家将获得一本新书《大模型安全、监管与合规》,截止时间为12月6日10点。
此外,南宁、河北、海口、广州、香港等地都有DevFest活动举行,感兴趣的玩家可以在官网查阅报名。
苹果iOS 18.2正式版将于今年12月发布,届时,Apple Intelligence将正式接入ChatGPT。苹果用户不用创建账户就可以免费使用ChatGPT,Siri将利用ChatGPT的专业知识回答用户问题。
据The Verge此前报道,OpenAI计划在12月推出其下一代模型Orion,这款模型最初不会通过ChatGPT广泛发布,而是优先向与其密切合作的公司开放访问权限。Orion被内部视为GPT-4的继任者,其性能可能是GPT-4的100倍。
ps. 欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510(备注姓名公司)
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。