ai脸部合成软件走两步！

默认分类1年前 (2023)发布 admin

546 0 0

订阅话题 #资讯日报接收推送提醒，回复日报获取资源包（资料合辑 & 电子月刊）。点击文末『阅读原文』访问知乎同期文章，超链接就可以随心跳转啦！

AI看走路诊断帕金森MS Video plus 算法使得步态分析更便宜

神经系统疾病（例如多发性硬化症、帕金森病等）通常会导致一个人的步态发生微妙的变化，即使在疾病早中期也有显现。因此，当怀疑一个人可能患有某种神经系统疾病时，医生通常会评估该人的行走能力。只需查看这个人的步态，就有可能发现出现神经系统潜在疾病的线索。

在最近的一项研究中，伊利诺伊大学研究人员通过探索发现，将摄像机与人工智能技术相结合，通过评估一个人的步态，可以识别由帕金森病或多发性硬化症患病风险的人群。9月20日发表在 IEEE 生物医学和健康信息学杂志上的结果表明，该方法可以达到 79% 的准确率。

研究人员招募了 33 名志愿者，其中 10 名患有 MS，9 名患有帕金森病，14 名没有任何神经系统疾病。所有志愿者都被要求在跑步机上行走，而两个标准 RGB 摄像机从侧面和正面角度记录他们臀部、膝盖、脚踝、大小脚趾和脚跟的动作和身体坐标。

研究人员总共开发并验证了 16 种不同的 AI 算法，来分析这些坐标如何随时间移动，以寻找患病与否的差异。其中几种算法的准确率超过 75%，性能最佳的卷积深度学习模型达到了 79% 的准确率。

kernl仅需一行代码，加速运行模型

Kernl 让你在 GPU 上运行模型时，只需一行代码就能快几倍，而且它的设计也使其非常易懂。下图所示为 3090 RTX 上的运行结果，可以观察到最后一列的蓝色加速明显。

跳过视频贴片广告的浏览器扩展

是一个可以跳过视频中广告片段的扩展。它的实现是基于众包的形式，收集任何人提交的视频的广告片段的开始和结束时间，一次收集之后，其他人将共享这个信息并跳过相应的广告。

-人脸检测实现

这是一个YOLO7的人脸检测实现，返回人脸和关键点信息。

-RIFE (松鼠补帧) 基于RIFE算法的视频补帧软件

是一款以RIFE为核心，提升视频流畅度的补帧软件。显存占用小，速度是 DAIN 的10-25倍，且能超高精度转场识别，可在多数视频中达到95%以上的精确度，不破坏丝滑效果。此外还包含抽帧处理，去除动漫卡顿感。

ai脸部合成软件走两步！

Book从入门到如土·AI绘画中文指南大全

这是一份关于使用 AI 进行绘画资源大全，目前主要内容包含 WebUi 和。 WebUi（简称）是一个基于库的浏览器界面。（简称 NAI）用于 AI 辅助创作、讲故事、虚拟陪伴，是的二次元特化版本。

文档包含以下板块：

因果关系基准数据集

是一个数据集集合，用于对因果机器学习算法进行基准测试。每个数据集由实际的因果图组成、4000行观察训练数据、2000行观测测试数据、介入测试数据等内容组成。数据从已知的手工结构方程模型 (SEM) 生成。不同的数据集旨在测试因果发现和推理算法的不同特征。

公众号后台回复关键字日报，免费获取整理好的论文合辑。

科研进展

论文：: – Token-level Data for

论文时间：14 Oct 2022

领域任务：Data , Image , 数据增强，图像分类

论文地址：

代码实现：

论文作者： Kyu Choi, Choi, J. Kim

论文简介：To this end, we , an – token-level data that aims to the of a mixed set of .

Mixup 是一种常用的图像分类数据增强技术。混合方法的最新进展主要集中在基于显着性的混合上。然而，许多显着性检测器需要大量计算，并且对于参数繁重的变压器模型来说尤其繁重。为此，我们提出了，这是一种有效的注意力引导的令牌级数据增强方法，旨在最大化混合令牌集的显着性。与基于梯度的方法相比，提供了 x15 更快的显着性感知数据增强。此外，我们引入了的变体，它在单个实例中混合令牌，从而实现多尺度特征增强。实验表明，我们的方法显着提高了基线模型在 CIFAR 和 -1K 上的性能，同时比以前的方法更有效。在从头开始的变压器模型中，我们还在 CIFAR-100 上达到了最先进的性能。代码可在获得。

ai脸部合成软件走两步！

论文：A -Based View of Model Fine-

论文时间：11 Oct 2022

领域任务： , 语言模型

论文地址：

代码实现：

论文作者： , , Yu, Danqi Chen, Arora

论文简介：It has to solve NLP tasks by fine- pre- (LMs), in low-data .

通过微调预训练语言模型 (LM) 来解决 NLP 任务已成为标准，尤其是在低数据环境中。对经验成功的理论理解很少，例如，为什么在几十个训练点上微调具有 108 个或更多参数的模型不会导致过度拟合。我们研究了神经切线内核（NTK）——它起源于一个模型，用于研究具有适当随机初始化的无限宽网络的梯度下降动力学——是否描述了预训练 LM 的微调。这项研究的灵感来自 NTK 在计算机视觉任务中的出色表现（Wei et al., 2022）。我们还将 NTK 形式主义扩展到使用 Adam 进行微调。我们提供了广泛的实验，表明一旦下游任务通过提示被表述为语言建模问题，NTK 镜头通常可以在使用 SGD 和 Adam 进行微调期间合理地描述模型更新。这种内核观点还为基于参数有效的子空间微调方法的成功提供了一种解释。最后，我们建议通过张量程序（Yang，2020）对我们的发现进行正式解释。

论文：GAN You Hear Me? from

论文时间：11 Oct 2022

领域任务：, , 语音编辑

论文地址：

代码实现：

论文作者： Baas,

论文简介：As in the of image , ASGAN maps noise to a which is then to a of audio so that is at every layer.

我们提出了 (ASGAN)，一种用于无条件语音合成的新型生成对抗网络 (GAN)。与系列的图像合成模型一样，ASGAN 将采样噪声映射到解耦的潜在向量，然后将其映射到音频特征序列，从而在每一层抑制信号混叠。为了成功训练 ASGAN，我们引入了许多新技术，包括对自适应鉴别器增强的修改，以概率地跳过鉴别器更新。ASGAN 在数据集上实现了无条件语音合成的最先进结果。它也比性能最好的扩散模型快得多。通过鼓励分离的设计，ASGAN 能够执行语音转换和语音编辑，而无需经过明确培训。ASGAN 证明 GAN 与扩散模型仍然具有很强的竞争力。代码、模型、示例：

我们是，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！公众号订阅话题 #资讯日报，可以查看历史消息，接收每日推送; 点击公众号底部菜单栏，或者回复关键字日报，可以获取资源包(资料整理汇总与AI电子月刊)。

THE END

本公众号(-Hub)原创已开通快捷转载