Meta发布语音翻译新模型支持模仿语气与语速_智能接待机器人

2023-12-28 智能接待机器人

Meta近日发布了语音翻译新模型Seamless Communication系列,包括4个模型,支持近100种语言之间的实时语音互译,延迟控制在2秒左右。模型可复刻源语音的停顿、语气、语速等复杂特征,让翻译更逼真。采用非自回归架构以支持长序列翻译。此外Meta还开源了模型及58.5万小时顶级规模的语音语料库,并增加音频水印和翻译毒性缓解等功能以防模型滥用。

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，稳定性很高，让您的云端之旅更加畅享。快来腾讯云选购吧！

Meta发布了全新AI翻译大模型，实时语音转换延迟不超过2秒。感受一把这个速度:不仅速度快，它的准确率还和离线模型一样高。这是迄今为止总容量最大、语言覆盖范围最广的语音语料库。

Meta最新发布了一系列AI翻译大模型，标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为SeamlessCommunication，包括SeamlessExpressive、SeamlessStreaming、SeamlessM4Tv2和Seamless，其中前三个已经在GitHub上开源。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

随着扩散模型的快速的提升，诞生了Midjourney、DALL·E3、StableDifusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢，因为文生视频多数采用逐帧生成的方式，这类自回归方法运算效率低下、成本高。语义一致性超过86%，质量一致性超过91%，明显优于Gen-2、PikaLabs、Make-AVideo等知名商业模型。

全球社交、科技巨头Meta在官网开源了全新模型——LlamaGuard。LlamaGuard是一个基于Llama2-7b的输入、输出保护模型，可对人机会话过程中的提问和回复进行分类，以判断其是不是真的存在风险。用户都能够通过零样本或小样本的方式便可实现指令迁移，以适配不同的应用场景需求。

Meta最新发布了Audiobox，这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从为多种用例提供定制音频。这对于视频、播客、游戏等多种用例都具有潜在的影响，为未来的音频创作开辟了新的可能性。

对于2023年的计算机视觉领域来说，「分割一切」是非常关注的一项研究进展。Meta四月份发布的「分割一切模型」效果，它能很好地自动分割图像中的所有内容SegmentAnything的关键特征是基于提示的视觉Transformer模型，该模型是在一个包含来自1100万张图像的超过10亿个掩码的视觉数据集SA-1B上训练的，可以分割给定图像上的任何目标。图3、4、5提供了一些定性结果，以便读者对Effic

继万物皆可分割的SAM模型后，Meta又发布了更高效的EfficientSAM模型。EfficientSAM是一项创新性的工作，旨在降低SAM模型的计算复杂性，使其在更广泛的实际应用中表现出色。通过SAMI预训练方法的引入，研究团队成功平衡了性能和计算复杂性之间的关系，为轻量级分割模型的发展贡献了有价值的经验。

Meta将要求广告商在其平台上发布的政治广告中是否包含任何用AI生成或数字修改的内容做披露。该公司的全球事务总裁尼克・克莱格在周二宣布了这些要求，并认为这是Meta对软件辅助内容调整的现有立场的延伸。监督委员会决定将该视频作为一个测试案例，以检验Meta的政策是否足够涵盖可能误导人们相信政治家采取了非言论行为的修改视频。

Meta公司最新宣布将在其Ray-Ban智能眼镜上推出引人注目的多模态AI功能，为用户更好的提供更智能、交互式的体验。该功能利用眼镜的摄像头和麦克风，使Meta的AI助手能够感知用户周围的视听信息，并做出相应的反应。对于智能眼镜市场言，这一步或许将开创更为多元化的应用场景，为用户所带来更方便快捷和智能的生活体验。

MetaAI最近开源了AVID，这是一项具有先进修复和扩展能力的T2V模型。AVID不仅支持通过文本编辑视频可以修复视频、更改视频对象、改变纹理和颜色，甚至删除视频内容或更换视频环境。在推理过程中，对于长度为$N^\prime$的视频，AVID模型会构建一系列片段，每个片段包含$N$个连续帧，并在每个去噪步骤中计算并汇总每个分段的结果。

UniRef是一个统一的用于图像和视频参考对象分割的模型。它支持语义参考图像分割(RIS)、少样本分割(FSS)、语义参考视频对象分割(RVOS)和视频对象分割(VOS)等多种任务。UniRef的核心是UniFusion模块,它可以高效地将各种参考信息注入到基础网络中。 UniRef可当作SAM等基础模型的插件组件使用。UniRef提供了在多个基准数据集上训练好的模型,同时也开源了代码以供研究使用。

AnyToSpeech是一款简洁易用的文字转语音解决方案，支持将文本、PDF、文档、扫描件和图片转换为语音。用户都能够免费使用500个字符，超出部分需登录使用。该产品还提供文档、网址、扫描件或图片转语音的功能，并支持生成AI语音、教育、YouTube视频内容创作、文章转音频、有声书、PDF文档朗读、新闻摘要、播客制作等多种应用场景。用户可依据需求选不一样的价格套餐，提供一次性购买和包月订阅两种付费方式，并且产品还提供免费试用、退款政策和随时取消订阅等服务。

Universe of UI是一个免费的UI元素库,包含数以千计的开源和可定制的UI组件,全部使用CSS或Tailwind制作,无需登录就可以使用。能帮助开发者在下一个项目中节省大量构建和自定义UI组件的时间。

HD-Painter 是一个由 PAIR 开发的 AI 画家，提供基于机器学习的图像编辑功能。它可以自动转换简笔画为高清彩图，并支持用户进行细节修改和创作。HD-Painter 具有先进的图像处理算法和用户友好的界面，为用户更好的提供了一种创新的图像编辑体验。

Coupongpts利用ChatGPT技术，帮助用户轻松获取优惠券和折扣码。只需输入喜爱商店或品牌名称，AI助手即可迅速搜索并整理出最相关的折扣信息，让用户轻松省钱。该产品定位于为用户更好的提供高效的优惠券搜索和使用体验。

AI Job Interview Trainer是您个人AI强化准备合作伙伴，定制练习、详细反馈和动态对话等着您，将令人生畏的面试过程变成下一个胜利。产品支持定制化训练体验，提供即时反馈和分析，减少面试焦虑，支持持续学习和发展，以及连接社区共享经验。

Chef It Up是一款利用AI从您的食材中生成菜谱的应用，节约时机和金钱的同时鼓励创造力和实验性。它为您提供定制的菜谱选项，让烹饪过程更加有趣。

LingoWhale-8B是一个开源的大规模中英双语预训练语言模型,具有强大的自然语言理解和生成能力。它通过在海量高质量中英文数据上进行预训练,能够实现长文本的理解和多轮交互。该模型采用Transformer架构,参数量达80亿。它在多个中文和英文公开基准测试上都取得了领先的效果。LingoWhale-8B完全开放给学术研究使用,个人开发的人能免费用于商业用途。该模型可以大范围的应用于聊天机器人、知识问答、文本生成等领域。

Bg Remover是一款强大的照片编辑和抠图应用，让您只需轻点一下即可更改照片的背景。利用AI工具自动抠图并去除背景，创建高质量的透明PNG图像。功能简单，确保像素级准确度。适用于电子商务的白色背景，可帮助商家在亚马逊和eBay等主流市场上更轻松地销售产品。此外，还可用于制作身份证照片，社会化媒体营销中的透明背景制作等。同时，还包括照片增强、图片放大、故事模板和照片拼贴等功能。

KwaiAgents是一个快手科技KwaiKEG开源的一系列智能体相关工作。开源内容有:KAgentSys-Lite系统:Paper中的KAgentSys系统的精简版;KAgentLMs系列模型:具有计划、反思、工具使用等智能体功能的大语言模型;KAgentInstruct:Paper中提出的数十万条智能体指令微调数据;KAgentBench:3000多个人工评估数据集,用于测试智能体的计划、工具使用、反思、总结和描写能力等。

Free AI Video Upscaler能在浏览器内使用AI对视频进行提升，无需注册、安装或配置。它比其他热门的AI提升软件更快，虽然功能没那么强大。

Voxweave是一个强大而用户友好的平台，可以将冗长的YouTube视频内容压缩为简洁的1分钟摘要。通过快速视频转录，您可以以自己的节奏阅读内容，节省宝贵时间，并在适合您的时间吸收信息。此外，Voxweave还提供直接的YouTube视频转录和摘要解决方案，帮助您轻松地转录、保存和分享视频摘要。它还能够创建准确、优雅的字幕，增强视频的可访问性和吸引力。Voxweave让您能够进一步探索YouTube视频的知识池，将宝贵的见解分享给世界，并突破语言障碍，探索外语内容。无需技术技巧，只需几次点击，您就能将视频转录为有见地的摘要。

阿里云百炼是一个基于通义系列大模型和开源大模型的一站式大模型服务平台。提供生成式大模型的全流程应用工具和企业大模型的全链路训练工具，支持多种开源大模型接入及适配，开放的插件集成能力和灵活的应用编排能力。

Aurk是通往无与伦比的图像增强之门。由先进的生成式人工智能驱动，Aurk转化并提升每个像素，提供清晰的图像和令人惊叹的细节。Aurk利用先进的生成式人工智能的力量，但是具有制定新行业标准的增强功能。我们的专有算法旨在理解并适应每个图像的独特需求，确保每次增强都是杰作。Aurk的界面提供了无与伦比的控制水平，允许您精确调整增强效果。使用可以响应您每一个命令的滑块来调整深度、锐度和纹理。Aurk相信技术和创造力之间的合作力量。无论您是恢复旧照片、完善肖像还是创作数字艺术，Aurk都与您合作，为每个像素注入生命。Aurk的多样性跨越所有的领域。无论是高分辨率肖像、复杂的插图还是详细的建筑视觉，Aurk都能处理各种图像类型和流派。我们的技术擅长增强的不单单是分辨率，还有图像的本质。与Aurk一起踏上征程，在那里每个图像都讲述一个故事，每个像素都有很多话要说，每次增强都是通向视觉完美的一步。Aurk不单单是一个放大工具；它是艺术和人工智能融合的证明，是您创意旅程中的伴侣。

三星Bespoke定制4门FlexTM冰箱采用多项创新技术打造,内置AI视觉内部相机,可以识别放入和取出冰箱的食物,并通过32英寸LCD大屏幕提示食物的保质期;配备先进的人工智能功能,能够准确的通过用户需求自动调整食谱,还能够最终靠照片识别餐点食材并推荐菜谱;产品设计时尚且可定制化强,用户都能够自由组合面板颜色搭配。该产品与三星其他智能厨房电器实现无缝连接,为用户更好的提供一体化的智能厨房解决方案。

HiFiveStar是一款专注于提升企业口碑和吸引新客户的在线口碑管理工具。通过一系列分析、生成、监控和分享在线评论，帮企业改善声誉、吸引新客户。产品分为Pro Reputation和Agency Unlimited两个版本，分别为$39/月和$89/月。支持23+个评论网站的集成，提供负面反馈保护、自动回复、API和Webhooks等功能。用户都能够通过HiFive的功能，提升企业的在线声誉，增加可见度，提升客户忠诚度，并加速业务增长。

Click2.ai是一个旨在简化和自动化社交内容任务和工作流程的宝贵资源。它提供多种工具和模板，能够在一定程度上帮助用户快速、轻松地完成社交任务，并提供个性化的内容创作支持。该产品分为Starter、Personal和Enterprise三种订阅包，价格从免费到29.99美元不等。定位于帮助用户提高效率、创造更具吸引力的内容。

MyMap.AI是一个将文本思路转化为脑图和演示文稿的AI工具。它通过简单的聊天界面，将您的文本思路转化为可视化的脑图和演示文稿。很适合学生、教师和没有设计技巧的专业技术人员使用。它是您节约时机的工具，可以轻松进行协作性的可视化创作。

tryarvin是由GPT-4驱动的AI浏览器扩展。它集成了最新的GPT-4和GPT-3.5模型，提供多种有用的AI工具，包括代码解释器、AI绘画工具和各种模板，帮助用户完成文案写作、设计和翻译的工作。Arvin还提供了条便捷的操作界面，使得用户在所有网站上，都能进行快速的AI交互。

SaaSData.app是一个广泛的软件即服务公司和创始人数据库。你不难发现、分析和领先于竞争非常激烈的创业环境,咱们提供了大量的软件即服务公司和创始人详细数据。拥有30000家公司,25000名创始人,每一个数据点你都能够找到,强大的搜索、排序和筛选能力,数据可视化图表,适合不一样的需求的用户。

[上一篇] 如何将音频转换成文字？尝试了多种方法只推荐这7款

[下一篇] 微软语音转文本开通指南全云在线助力企业极速申请