chatgpt能分析科研数据么 爱上科学研究的“不确定性” | 我在微软做研发

默认分类1年前 (2023)发布 admin
542 0
ChatGPT国内版

微软亚洲研究院系统与网络组研究员陈琪

“跨界”出击,以应用驱动研究

从高校进入微软亚洲研究院,陈琪感到一切都很熟悉,而企业研究院在数据、应用和资源上的优势,为开展系统研究带来了许多帮助。“研究院生活和高校实验室非常相似,可以自由寻找自己感兴趣的课题进行研究,而最大的不同是,在学校做分布式计算时特别愁没有真实数据、应用和大规模的机器,研究院不仅有丰富的计算资源,和产品部门的联系也非常紧密,许多研究问题都来自于真实应用中的痛点,也让我们的研究有机会进入产品,产生实际的应用价值。”

从进入研究院开始,陈琪就参与到与微软必应(Bing)团队的合作项目中。目前的大多数搜索引擎采用的是基于关键词匹配的倒排索引,而当查询词含义模糊或具有多重含义时,基于关键词匹配的搜索很难理解用户想表达的真实意图。必应团队开始尝试将最新的AI技术应用到搜索中,通过将海量的网页内容以及用户的搜索内容,比如关键词、图片,甚至是完整的问题,利用深度学习模型转换为向量,然后利用向量最近邻搜索来寻找最相关的内容。

在 10 亿级条目的大规模搜索引擎中应用和优化向量搜索并不是一件易事。由于要从数十亿个条目中快速、准确地找到与用户的查询最为相关的结果,搜索引擎对相关性、延迟、资源占用都有极高的要求。为了让搜索更加智能和高效,陈琪与微软亚洲研究院资深研究员王井东一起与必应团队合作提出了SPTAG(Space Tree And Graph)向量搜索算法,采用平衡 K-Means 树和近邻图生成近似最近邻( )向量索引,能够在几毫秒内从数十亿个向量中返回最相关的结果。

chatgpt能分析科研数据么 爱上科学研究的“不确定性” | 我在微软做研发

研究团队发现基于近邻图的搜索算法(详细信息可查阅文末论文)在实际的应用场景中可以有更多可以提升的空间,并通过改进算法来寻求解决。对于图结构的连通性不佳对搜索结果的影响,用相对近邻图( Graph)替换最近近邻图( Graph)能够更好地表达图的连通性和最近邻关系;对于距离下界的估计( Bound)问题,用计算真实的数据点和查询点之间的距离替代原来按维度估计的方法,成为了项目成功的一大关键。经过三年的不断改进,SPTAG 算法目前为必应搜索带来了最大化的性能和召回率()提升,节省了大量的计算资源。

“在实际应用中,仅仅几秒钟的等待都会让搜索引擎变得‘不好用’,”微软必应与 AI 团队项目经理 指出,“人工智能正在让我们的产品使用体验更加流畅、自然。”

除了覆盖跨文本、多媒体、图像、推荐系统等多种类型的搜索,SPTAG 算法还能够在半监督学习中发挥用武之地,比如给图像自动加标签。SPTAG 算法目前已在 开源,微软人工智能开放项目平台 AI Lab 也上线了“向量搜索”项目,用户可以观看介绍视频,尝试 Demo 演示,并将 SPTAG 算法融入自己的产品与项目中,让繁重的图像或声音搜索任务变得更精准和高效。

十年燕园,多重历练

陈琪与系统研究结缘很早。在本科期间,陈琪就遇到了自己喜爱的研究方向。

chatgpt能分析科研数据么 爱上科学研究的“不确定性” | 我在微软做研发

由于大二的一次偶然机会,陈琪开始跟随导师参与系统方向的研究,一年多的助研经历让她发现了自己对系统研究的强烈兴趣。“当时还没想过读博,大三在导师的悉心指导下有了一些科研经历以后,觉得读博好像也没有想象中那么困难。”因此,怀着一份跃跃欲试的心情,在结束本科的学习后,陈琪继续在北京大学攻读博士学位。

即使是从大三就开始做科研、写论文,但在博士开局的前两年,陈琪的研究生涯并不顺利,在博二结束时仍未发表一篇论文。由于对系统性能和可扩展性相关的工作比较感兴趣,陈琪将研究方向从云计算转到了并行计算。“当时论文蹉跎了很久都还没发表,加上转变研究方向,那段时间几乎是忐忑和迷惘的状态,也对自己产生过究竟是不是适合做科研的质疑。”

尽管面临着在读博士的共同焦虑,陈琪也从未放弃努力,三年扎实的科研积累让她在第三年结束后迎来了曙光,在顶级期刊上一连发表了几篇论文,也在那一年获得了支持女性在计算机与科技领域发展的安妮塔伯格奖学金( Anita Borg )。越来越丰富的研究经历也让陈琪愈加深入地了解自己,随后在纽约大学的一年访学时光,让她再度确认自己在系统性能调优、算法改进方面的研究兴趣,她开始涉足分布式计算,并尝试搭建分布式计算的框架。

“对我来说,读博是一段必不可少的人生经历。”十年燕园生涯带给陈琪的不仅是学业上的突飞猛进,让她从一个初涉学术的学生蜕变为一位能独当一面的系统科学研究者,也在挫折与机遇的反复交叠中,让她完成了最重要的性格成长与心智成熟,找到了属于自己的人生航线。

回顾自己的经历,陈琪还能清晰地回忆起自己在博士低年级时,因为研究遇到瓶颈而“非常郁闷”的感觉。“我性格比较要强,不太愿意把负面情绪表露在外,偶尔脆弱的时候也要自己抗过去。无论学业、工作还是生活,每个人都会经历这样的时刻,但困难并没有想象中那么不可逾越,保持开放的心态,多与他人交流,这些都会有助于你找到解决方法。”

在进入微软亚洲研究院后,陈琪接触到了更多来自不同领域的研究员和产品团队,也敏锐地注意到不同背景的合作者总能在思维的碰撞中发挥特有的优势。在 SPTAG 项目中,系统研究出身的她习惯到底层中寻找和分析问题的原因,并在实践层面追求更高的精细度,拥有图像搜索和最近邻搜索背景的王井东会在算法层面给出许多建议,而与必应团队的合作,不仅为他们提供了许多基于真实数据的研究问题,也使他们能获得来自实际应用的即时反馈和验证,从而有效地推动研究的进程。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...