AI大牛梅涛坐镇,全新多模态AI问世!
用法上堪称:全能。
奇幻场景、多样视角都能驾驭:
而且唇形同步功能上线,社恐大“i”人也能玩转播客:
划重点:
官方还提供了上百种可直接套用的趣味特效模板,让用户实现“躺平创作”。
像下面这种炫酷转换,操作简单到只需上传一张图:
人物、动物、建筑物的“变身”模板通通都有:
另外,生图板块的ImageAgent也是官方主打,修图生图只需大白话表述,不会写prompt不是问题,它会自动帮你优化修改。
不卖关子,这个最新创作工具就是(智小象AI)。
打造出它的团队智象未来(),是圈内鼎鼎有名的大牛——加拿大工程院外籍院士梅涛创立的AI公司,研发团队中挤满了来自中科大的中坚。
前段时间,团队推出的开源模型HiDream-I1曾在文生图模型竞技场一鸣惊人,开源24小时就拿下了排行榜榜首,在国内一众开源大模型中率先跻身第一梯队。
有意思的是,其实结合了HiDream-I1的能力。
目前,已在Web端与App全球同步上线,有此等新玩具量子位自然不能错过,第一时间上手体验了一波。
同时我们也对其背后的模型来了个大揭秘。
全新多模态神器食用指南下面我们逐一来看。
纯文本生图中,解决了大伙儿不会写提示词的问题。
可以看到提示词输入框右下角有一个“提示词机器人”按钮:
话不多说,来看效果。
生成一杯柠檬气泡水,几乎看不出AI痕迹,细节感十足:
第一人称视角生图也可以,belike:
而文本+图像生图,也就是上传参考图的玩法,有全部、肖像、重绘三种设置。
写实、插画、皮克斯、3D,各种风格通通拿捏:
△左边参考图,右边转赛博朋克风格
就在一个聊天框中,用户可天马行空随意表达需求,不论是修图还是生图,Agent会基于上下文信息,准确判断理解用户意图。
生图和修图都可以批量完成。
例如生成小狗在草地追逐飞盘玩的图像,然后让它修改成像素风,可以四张图同时修改,并且和原图其它元素保持一致性。
ImageAgent还提供了“重写”、“帮我写”prompt的功能,创作点什么用户只需会用大白话表达就行。
各种场景都能丝滑转换:
还有一个更为方便快捷的设计。
比如一只在海上冲浪的狗子:
再比如魔改静态表情包(我哭了,但眼泪是清凉油熏出来的),还会自动提升画质。
与此同时,人物的肢体动作也会随着话语同步变化。
我们特意挑选了一张侧脸人物图,口型同步依旧比较流畅自然。
还有更多社交、开放性玩法。
更多玩法,百种特效任你挑首先要提的就是特效模板,官方提供了300+款花式模板,用户可以一键套用,小白也能秒变特效大师。
“啪”的一下小女孩丝滑换装:
来看社区里更多的优秀案例:
除此之外,团队还即将上线话题功能,用户可以参与热门话题,提升自己作品的曝光度,目前该功能内测资格限量开放。
感兴趣的童鞋可以自己亲自上手探索一下。
Bytheway,推出后着实有点火,有时还会出现服务器拥堵的大状态。
开源SOTA的再进阶版技术方面,新能力背后依托的全新图像Agent——HiDream-A1。
HiDream-A1结合了开源模型HiDream-I1、HiDream-E1的进阶版闭源模型(、)。
HiDream-I1是图像生成基础模型,参数170亿,总共开源三个版本:完整版HiDream-I1-Full、蒸馏加速版HiDream-I1-Dev、蒸馏极速版HiDream-I1-Fast。
HiDream-I1-Full是完整版本,需要50多步扩散步骤,追求的是极致画质。这个版本适合那些“慢工出细活”的创作场景,比如商业海报设计或艺术创作。
HiDream-I1-Dev是经过引导蒸馏的版本,将步数压缩到28步,在质量和速度之间找到了黄金平衡点。
而HiDream-I1-Fast则是极速版,仅需14步就能生成高质量图像,简直是为实时应用量身定制。
HiDream-I1在HPS(综合评测生成图像的语义相关性、画质和美感)基准上拿下SOTA:
同时在GenEval和DPG-Bench(评测生成图像和输入文本的语义相关性)基准上,评测结果同样是SOTA:
HiDream-I1+HiDream-E1可以称得上是开源版GPT-4o。
HiDream-I1的核心创新,是把稀疏混合专家(SparseMoE)技术巧妙地融入到了扩散Transformer架构中。
他们设计了一个双流-单流混合的稀疏DiT结构。
具体来说,模型先用双流DiT分别处理图像和文本token,就像左右手各司其职。在这个阶段,每个模态都有自己的专属通道,可以充分提取各自的特征。随后,模型切换到单流DiT架构,让两种模态实现深度融合。
最妙的是,无论是双流还是单流阶段,团队都引入了动态MoE架构。这就像给模型装上了智能路由器,每个输入token都会被动态分配给最擅长处理它的专家模块。
在文本编码方面,HiDream-I1采用了“四管齐下”的混合策略:
长上下文CLIP提供视觉语义对齐,T5编码器负责解析复杂文本结构,则贡献深层语义理解,而且还特意从LLM的多个中间层提取特征,避免了最终层输出中细节信息的流失。这种“集大成”的做法,让模型对文本提示的理解能力大幅提升。
训练策略上,团队采用了渐进式分辨率训练,从256×256开始,逐步提升到512×512,最终达到1024×1024。
背后团队:AI大牛梅涛坐镇智象未来成立于2023年3月,名字算新,但背后创始人,AI圈内无人不知——梅涛,加拿大工程院外籍院士,同时也是IEEE/IAPR/CAAIFellow,是人工智能、计算机视觉和多媒体领域的世界级专家。
而智象未来的核心团队成员则来自微软、百度、腾讯、华为、京东、字节跳动等全球500强公司的核心技术团队,团队中博士、硕士占比超过90%,据说不少来自中科大。
而这一策略显然赢得了懂技术的投资人的青睐。
从2023年4月获得阿尔法公社、中喝大种子一号基金的种子轮融资,到2024年上半年完成敦鸿资本领投的近亿元Pre-A轮融资,再到2024年后续完成的以合肥产投为主的国资基金领投的A轮融资,智象未来的融资历程可谓顺风顺水。据了解,A轮融资规模已达数亿人民币,跟投方还包括安徽省人工智能母基金、湖北省长江电影集团有限公司等机构。
不论是融资速度还是规模,都能管窥资本市场对智象未来技术实力和商业化前景的认可。
自2023年3月成立以来,智象未来在视觉多模态基础模型及应用领域不断深耕,发布了一系列令人瞩目的成果。
到了2024年12月28日,智象未来在安徽人工智能产业先导区启动仪式中,全球首发智象多模态生成大模型3.0与智象多模态理解大模型1.0。
创业不易,尤其是在AIGC这个千帆竞发的赛道上。但梅涛的目标不仅仅是商业上的成功,还有着更为宏大的使命感。
“我创业不是代表一个人创业,是代表中国的科技型专家创业,投身到一个新的时代,要趟出一条路。如果我的技术和商业化能够打通,那么我的故事应该被复制,启发更多的人做这件事”,梅涛如是说。
下一步,智象未来将重点聚焦多模态大模型的应用与商业化。
在2023-2025年期间,智象未来的商业模式经历了显著演进。
2023年,以MaaS模式提供基础模型能力,初步建立起技术基础,为后续发展筑牢根基。2024年,转向SaaS模式,推出工具化产品,在专业场景中验证了应用价值,进一步明确了商业方向。到2025年,开启新战略,聚焦“IP二创+C端下沉”,旨在构建规模化商业生态,整合上下游资源,实现商业价值的最大化。
这也符合AIGC产品的普遍发展路径——先满足专业用户的高要求,再逐步简化操作门槛,实现产品的大众化应用。
从MaaS到SaaS,再到RaaS,智象未来不再卖工具,而是直接交付增长。
而智象未来,现在正在展现出这样的特质和潜力。
—完—