雅加达 - Meta 希望通过发布新的面对面视频剪辑数据集并帮助开发人员评估他们的模型在不同人口群体中的效果,帮助人工智能 (AI) 研究人员使他们的工具和流程更具普遍包容性。
研究人员可以使用名为 Casual Conversation v2 的元数据库来更好地评估某些类型的 AI 模型的公平性和稳健性。
Meta 在其 3 月 10 日星期五引用的官方博客中表示:“这个全面的数据集提供了 11 个自我提供的类别的精细列表,并进行了注释,以进一步衡量该人工智能系统中算法的公平性和弹性。
“这个数据集的发布是我们民权进步的关键亮点之一,是与该领域的内部专家协商后做出的,”他补充说。
休闲对话 v2 数据集包括在七个国家/地区录制的 26,467 个独白视频,其中包括 5,567 名付费参与者,以及用于衡量系统有效性的语音、视觉和人口统计属性数据。
“通过休闲对话v2,我们希望使用多语言数据集来支持包容性自然语言处理模型的开发,”Meta说。
除了扩展的类别列表外,休闲对话 v2 与第一个版本的不同之处在于包含了在美国境外录制的参与者独白。v2 中包含的七个国家/地区是巴西、印度、印度尼西亚、墨西哥、越南、菲律宾和美国。
因此,数据不会获取Facebook信息或提供来自Instagram的图像,该数据集中包含的内容旨在通过为AI研究人员提供更多来自不同背景的人样本来最大程度地增加包容性,以便在他们的模型中使用。
“将来,我们希望将数据集扩展到其他地区。最新数据集的另一个区别是参与者有机会说主要和第二语言,“Meta说。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)