AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白和旁白;可以设定角色和风格,支持多种绘画风格;能自动排版分镜,处理对话框和镜头切换,能导出多页漫画为PNG或PDF格式。项目采用React、Vite和TypeScript开发前端。AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

>>展开阅读

Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video是新加坡国立大学Show Lab团队创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些图片序列拼接成完整的教学视频。核心功能包括代码分割、图片生成、尺寸调整和视频合成四个主要组件,能模拟逐行输入代码的效果,特别适合制作编程教学和技术演示内容。Code2Video - Show Lab开源的AI教学视频生成框架

>>展开阅读

FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。系统基于 LiveKit RTC Server 实现实时通信,搭配 AI-Agent Bot Server 处理智能代理响应,通过 WebUI 提供用户交互界面。还配备 Redis Server 支持多节点托管,以及 TTS 和 ASR Server 分别处理语音合成和自动语音识别。FireRedChat - 小红书开源的全双工语音交互系统

>>展开阅读

Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容类型,包括普通文本、数学公式、表格、化学公式和手写中文字符。模型采用两阶段训练:第一阶段是监督微调,学习生成结构化输出;第二阶段是布局为中心的强化学习,优化文本准确性、布局定位和阅读顺序。在 LogicsParsingBench 基准测试中表现出色,尤其在纯文本、化学结构和手写内容解析方面优于其他方法。Logics-Parsing - 阿里开源的文档解析模型

>>展开阅读

使用 Nginx 为 Grok API (api.x.ai) 设置反向代理

Grok 是 xAI 推出的大型语言模型,其 API 端点位于 https://api.x.ai。有时,我们可能希望通过自己的域名来访问这个 API,例如创建一个像 https://grokapi.yourdomain.com 这样的自定义端点。这可以通过设置 Nginx 反向代理来实现。本文将指导你完成这个过程。

>>展开阅读