Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image(代号nano banana)是谷歌推出的先进图像生成与编辑模型,能保持角色在不同场景中的一致性,支持通过自然语言进行精准图像编辑,如模糊背景、消除污渍等。模型结合 Gemini 的世界知识,能理解手绘图表并执行复杂指令。用户能通过 Google AI Studio 、Gemini API等平台使用模型,模型生成的图片带有隐形数字水印,便于识别 AI 创作内容。Gemini 2.5 Flash Image 为创意设计、广告营销、影视动画等领域带来强大的功能体验。Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

>>展开阅读

VibeVoice - 微软推出的文本到语音模型

VibeVoice 是微软推出的新型文本到语音(TTS)模型。模型能生成多达 4 位不同说话者的对话式音频,支持长达 90 分钟的连续语音输出,突破传统 TTS 系统的长度限制。VibeVoice 生成的语音富有表现力,能根据文本内容产生带有情感和语调的语音,让对话更自然生动。VibeVoice支持多种语言的语音合成,能处理跨语言对话场景,生成的语音质量高,接近人类自然语音。VibeVoice 能应用在播客制作、有声读物、虚拟助手、教育和培训、娱乐和游戏等多个领域,为相关场景提供自然流畅的语音交互体验。VibeVoice - 微软推出的文本到语音模型

>>展开阅读

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5是埃隆·马斯克旗下的xAI公司开源的人工智能模型。拥有2690亿参数,基于混合专家(MoE)架构,具有强大的性能和推理能力。模型在研究生级科学知识(GPQA)、通用知识(MMLU、MMLU-Pro)和数学竞赛(MATH)等测试中表现卓越,接近当前前沿水平。Grok 2.5的文件包含42个权重文件,总容量约500GB,需要至少8个显存超过40GB的GPU才能运行。xAI建议使用SGLang语言和最新版的SGLang推理引擎来运行该模型。在逻辑推理和代码生成方面表现出色,适合用于学术研究和解决复杂问题。Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

>>展开阅读

Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana 是谷歌推出的 AI 图像生成与编辑模型。能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。支持将模糊的老照片修复清晰,将动漫角色转换为逼真的 3D 风格,Nano Banana 能轻松完成,效果自然流畅。在角色还原和场景重构上。能精准保留人物的细节特征,从面部表情到服饰纹理,确保编辑后的图像高度真实。在背景替换或场景转换任务中,Nano Banana 能生成自然连贯的画面,避免违和感。Nano Banana - 谷歌推出的AI图像编辑模型

>>展开阅读

Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner 是快手推出的高性能推理模型,基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练,在数学和代码推理方面表现出色。Klear-Reasoner 的核心创新是 GPPO 算法,基于保留被裁剪的梯度信息,显著提升模型的探索能力和负样本的收敛速度。在 AIME 和 LiveCodeBench 等基准测试中,Klear-Reasoner 展现出卓越的性能,达到 8B 模型的顶尖水平。模型能解决复杂的数学问题,且能生成高质量的代码片段。Klear-Reasoner 广泛应用在教育、软件开发、金融科技等领域,为推理模型的发展提供宝贵的参考和复现路径。Klear-Reasoner - 快手推出的全新推理模型

>>展开阅读

Google Pixel 10,真正的AI手机

Pixel 10手机均搭载Google Tensor G5芯片,可以本地运行Gemini Nano模型,基本上这种有本地SLM(小模型)并且有专用加速算力芯片支持的手机叫做AI手机,Tensor G5你可以理解为手机版本的英伟达H100就行。而且谷歌手握Android最高权限,这个Gemini Nano被嵌入到了所有内置应用中,比如你可以用自然语言在图库中PS照片,或者利用AI的能力记日记。谷歌Pixel 10系列发布:首发Tensor G5芯片

>>展开阅读