
想象一下:您在社交媒体上浏览,并观看令人惊叹的图片或令人惊叹的视频。您相信这就像活着而丰富的细节。但是,这是一个真实的音符,还是由顶部AI精心策划的“杰作”?如果AI工具告诉您它是“假”,它可以解释原因吗?它可以清楚地指出图像中不合理的光线和阴影,还是视频中闪闪发光的正时缺陷?这个“难以说出真相”和“知道真相,但不是原因”的问题是我们当前AIGC时代面临的激烈挑战。尽管AI产生的内容变得越来越现实,但传统的“黑匣子”检测工具不再满足我们对透明度和信誉的需求。我们立即需要一个智能追击系统,该系统可以同时处理图像和视频,并可以提供“诊断报告”。因此,本文提出了“ Ivy-Fake:图像和视频AIGC检测框架和基准测试的统一含义”,目的是允许AI To不仅识别“ li kui”和“ li gui”,而且清楚地解释了暴露的特定视觉伪像(时空或时间)暴露的“ AI基因”含量。这项工作由π3ai实验室,武汉大学,南京大学和斯坦福大学机构完成。纸张标题:Ivy-Fake:图像和视频AIGC检测项目主页的清晰框架和基准标题:https://pi3ai.github.io/ivyfake https https https://huggingface.co/datasetsets/ai-safeguard/ai-safeguard/ai-safeguard/ivy-fake--与黑盒说年别!常春藤捕捞如何改变AIGC含量的检测和解释?随着AI生成的内容(AIGC)技术的快速发展,图像和视频都达到了惊人的现实水平。从dall-e,想象力到稳定的扩散,再到令人惊叹的索拉(Sora)和veo3,这些强大的模型不仅会为我们开放无尽的创造力,而且还为内容的真实性和完整性带来了认真的试验。诸如错误信息,内容监控和公众的问题生锈变得越来越好 - 已知。 1。背景和动机:AIGC浪潮下的“真实与谎言之间没有理解”。当前大多数AIGC检测方法就像“黑匣子”。他们可以告诉您图片或视频是真或错误,但很少解释原因。缺乏无法解释性的二进制分类器不仅限制了模型的透明度和信誉,而且还阻止了它们无法在现场有效部署的实际领域。想象一下,如果模型告诉您视频是由AI组成的,但不能教授特定的宽恕痕迹,我们如何完全相信其判断?此外,现有的研究通常将图像和视频的发现分开,该图像和视频缺少一个框架来同时处理两种模式的内容。毫无疑问,这将增加研究和应用的复杂性。这肯定是基于常春藤捕获研究人员提出的疾病的这些点,其主要目标是舞会OTE AIGC在更统一和解释的方向上发现。 2。主要的问题:现有的OneSerearcher方法的瓶颈在Ivy-Fake出现之前的野心,AIGC发现的领域主要面临以下关键挑战:1。缺乏解释:如前所述,大多数模型仅提供“ True”或“错误的”或“错误”的Labels和未解释的依据。 2.模态不一致:图像发现和视频发现通常是独立的研究分支,缺乏可以同时处理两者的单个模型。 3。基准数据集的局限性:缺少模态覆盖范围:现有数据集仅专注于图像(例如伪造板,fakeclue)或缺乏多模式数据量(例如LOKI)。标签稀疏:许多数据集仅提供二进制标签和缺乏可以支持解释性的详细自然语言标签。差异不足-IR:某些数据集有缺点in发电机的差异和内容方案的范围,很难完成发现模型的整体功能。面对这些挑战,作者的目的是回答以下关键问题:如何开发具有丰富自然语言解释的大型,多模式(图像 +视频)AIGC检测基准数据集?是否可以设计单个视觉语言模型,不仅可以准确检测图像和视频中的AIGC痕迹,还提供了合理的解释? 3。该方法的概述:IVY-FAKE数据组合和IVY-XDTECTOR模型。为了系统地解决上述问题,研究人员提出了两个主要的贡献:设定常春藤捕获的大规模数据和统一的发现和解释Ivy-Xdetector的模型。 1. Ivy-Fake:一个里程碑的解释性AIGC检测基准Ivy-Fake数据集的构建是这项工作的基础。它有很多known功能:大规模和多模式:包含超过15万个注释的培训样本(94,781张照片和54,967个视频)和大约18,700个评论样本(每种模态约为8,700)。内容涵盖了各种类别,例如动物,物体,图片,场景,文档,卫星图像和深击。丰富的可解释性注释:与仅提供二进制标签的先前数据集不同,Ivy-Fake中的每个样本都具有自然语言推理的详细过程,并解释了为什么它被判断。是真的或生成的。分区数据源:Saklaw由AIGC各种主要体系结构(例如GAN,扩散模型和变压器)生成的内容,并结合了真实的生活场景数据。数据源包括公共基准数据集(例如Genvideo,Loki,Fakeclue,Wildfake)以及蔓延到网络中的内容,确保及时性和扩张。结构化注释生成:研究人员使用多模式的大型语言双子座2.5 Pro到ProduCE结构化,易于解释的输出通过勤奋的知识过程。特别是,他们使用并结论标签来指导模型阐明推理的原因,然后给出最终的酌处权。标记时还提供了一个真正的标签,允许该模型解释分类背后的原因。 Slapk的详细维度:解释进一步分为空间特征(包括8个次二维,例如不切实际的照明,本地模糊,未读取的手写等)和时间特征(包括4个次差(包括4个次差,例如亮度,不自然的式表达式,更重复的元素),图2:建议或有意义。与现有的dat相比,通过多模式模型(MLLM)模型来处理不同的字段,并通过时间和空间分析形成结构化的,易于解释的标签信息。一组(请参见下表,根据原始纸张表1进行了改编),Ivy-Fake显示出对数据大小,Smodal,尤其是可解释性标签令牌的平均长度的明显好处。 2。IVY-XDETECTOR:统一的AIGC检测和解释体系结构基于Ivy-Fake数据集。研究人员建议使用Ivy-Xdetector模型,这是一种旨在稳定和定义AIGC发现的多模式大语言模型。模型体系结构:遵循Llava的范式并开始Ivy-Vl-llava权重。它的关键成分包括:Visual Edgoder:使用标志来处理输入图像和视频帧。视觉投影仪(视觉投影仪)大语言模型(LLM)关键技术:动态分辨率处理:用于高分辨率图像,许多384x384子图中的分割方法,然后使用编码器的输入,有效的输入分辨率可以达到 2304x2304444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444。INFORMANDEN在维护时:视频输入时,视频功能并非随时间压缩,但所有框架的功能都可以合并并输入以维持丰富的信息,以维持丰富的信息。进行性多模式训练:这是一种分阶段的优化方法,旨在逐步改善AIGC的发现和对生成结果的模型。阶段1:授权视频理解。开始使用Ivy-Vl-llava(图形基准上的SOTA,但没有视频数据经验)进行。对近300万个视频文本对的培训(来自VideoChatflash,Videollama3等的数据)为模型提供了基本的视频理解能力。第2阶段:AIGC检测微调。使用Demamba,Fakeclue,Wildfake和其他数据集来组装专门用于教学NG的目标数据集。主要目标是训练MLLM以区分二进制AIGC(“ true”或“错误”)。第3阶段:教学驱动b联合优化的教学和优化。将第2阶段的AIGC检测数据与新添加的指令数据相结合,该数据专用于联合培训的解释性。此阶段的说明旨在指导模型生成详细的连续推理过程。通过这种逐步训练的三个阶段,常春藤 - XDETECTOR可以从识别温和的AIGC工件,进行准确的分类以及澄清连贯和合理的解释来系统地发展全面的技能。 4。4。实验结果:多维验证,SOTA研究人员的绩效对发现能力和Intivy-Xdetector在许多基准上进行了广泛的审查。 1。对基准内容内容的内容进行排序:包含8个主要发电机的子集,例如Midjourney,稳定的扩散等。含义版本也达到97.29%。在Biggan等子集中,改进尤其明显,它显示了新基准。表2:Genimage数据集的比较(Zhu等,2023b)。当识别来自不同发电机(列)的真实图像和锻造图像时,不同检测器(行)的准确性将被识别。最好的结果是勇敢的标志,下一个最佳结果是下划线的标志。 Chameleon基准:与10种发现方法相比,IVY-DET和IVY-XDET的一般准确度分别达到85.20%和83.39%,超过了先前的Pinagreat 65.77%。表3:与变色龙数据集的比较(Yan等,2025)。识别真实图像(%)时,不同检测器(行)的准确性(行)的精度。对于每个培训数据集,第一行代表一般准确性,第二行代表“ Forge/Real”类别的准确性。 2. videopag -genVideo数据集的内容:这是当前开发视频检测的最大基准。大多数一代来源。尤其是在最具挑战性的“热门”子集中,常春藤恢复率高达99.57%,而先前的最佳方法仅为65.43%。表4:与Genvideo进行比较。一般来说,F1得分(F1),召回(R)和平均准确性(AP)一般。其中,“ demamba-xclip-ft”被称为“ demamba”。 3。图像和视频内容推理(解释)研究人员将IVY-XDET与许多领先的开放资源(QWEN2.5-7B,InternVL2.5-8B)和封闭资源(GPT-4V,Gemini 2.5 Pro)MLLM在完整的Ivy-Fake数据集中进行了比较。 The scale of the review includes Rouge-L and LLM-as-a-judge-based four sizes: integrity, relevance, level of detail, and quality interpretation.图像推理:IVY-XDET通常导致准确性(0.805),胭脂-L(0.271)和平均GPT评估(4.40/5)。视频推理:IVY-XDET也表现出色,精度为0.945,Rouge-L为0.303,平均GPT评估标记为3.86/5。表E 5:模型性能与照片和视频活动的比较。 “自动”包括准确性(ACC),F1分数,胭脂-L和均匀性(SIM)标记。 “ GPT辅助评估”包括四个主观标准:完整性,相关性,细节和解释及其平均标记。这些结果表明,常春藤 - XDETECTOR不仅在发现准确性中实现了SOTA,而且在开发自然语言解释的质量方面比其他基线模型要好得多,这可能提供对人类描述的更清晰,更容易理解。 5。基本的结论和含义:迈向透明且值得信赖的AIGC分析,本研究在AIGC检测领域带来了一些重大成就:1。Ivy-Fake的领先性质:首次,大小,统一,跨图像和视频模态数据设置了AIGC检测的含义。它为后续研究提供了稳定的基础。 2。出色的Ivy-Xdetector性能:道具Osed统一的视觉语言检测器在许多AIGC检测基准和可解释性中都实现了SOTA性能。 3.促进可解释性的发展:通过引入对从“黑匣子”到“白框”的语言和结构化过程的自然解释来强烈促进AIGC,从而提高了模型的透明度和信誉。 4。单个框架的价值:证明了AIGC发现的单个图像和视频的开发是可行的,并且可以实现出色的性能。对于行业而言,这项工作意味着我们希望部署更可靠,更容易理解AIGC内容审查工具和保护生态系统的数字内容。对于研究人员而言,常春藤捕获数据集和IVY-XDETECTOR模型将为探索更深的解释性和更稳定的发现算法开辟新的途径。 6。案例分析本研究还提供了检测多模式误差的详细案例各种大型模型的内容。 7。未来的观点:即使常春藤和常春藤 - XDETOR也取得了重大发展,仍然有一些方向值得进一步探索:1。纸张的效率和时间的效率:在纸张中也提到了当前的限制:较高的空间上的载荷能力较高的时间来模型和暂时的临时艺术范围,并降低了临时的范围。未来的工作可以探索更好的空间建模技术和维持时间安排时间的更强机制。 2。细颗粒的本地化和解释:虽然自然语言解释很重要,但它结合了对工件的更准确定位(例如,通过热图或边界盒突出可疑区域)可以提供更直观的反馈。 3。敌人的攻击和稳定:随着AIGC技术的发展,生成模型可以产生M矿石困难的侦探工件。继续评估并改善模型在打击攻击方面的稳定性很重要。 4。“路径更高,魔鬼更高”的循环:如本文的“更大影响”部分中所述,展览技术的发展也可以用来训练更强大,更难看到地层模型。如何继续保持领先的技术发现这款游戏是一个长期的挑战。 5。多模式融合扩大:当前,该模型主要基于视觉信息。将来,它可能会探讨多模式信息的集成,例如文本和音频,以进行联合发现和解释以应对更复杂的AIGC情况。总而言之,Ivy-Fake和Ivy-XdeTector无疑是对AIGC的内容和解释性研究的重要贡献。他们不仅为我们提供了强大的工具和基准,而且还教我们未来研究的方向。我们期待看到基于此任务的更多后续研究,以促进MALUSOG和AIGC技术的可靠发展。