COSCon'24 第九届中国开源年会暨开源社十周年嘉年华,将于 2024 年 11 月 2-3 日在中关村国家自主创新示范区会议中心举办。由开源社、X-lab开放实验室联合出品的「开源评价与数据洞察论坛」将同期举办。蚂蚁集团开源技术增长负责人边思康、TuGraph开源负责人范志东、开源技术增长数据科学家夏小雅将分别做主题分享,欢迎大家扫码报名现场交流。

1


论坛信息


2


论坛联合出品人

3


分享嘉宾及内容简介


演讲者简介
边思康,蚂蚁集团开源办公室负责人,开源技术增长负责人

演讲题目
要做数据洞察,先做工程实践 - 基于敏捷开发的数据实践探索

演讲简介
开源社区的数据蕴含着丰富的信息和潜在的洞察机遇,想要做好社区向的开源技术增长,我们必须要用好这些社区的高价值数据。
但在实际的生产应用中,我们发现想要基于社区数据建立因果性和可复制性,由于现有的社区数据因为各个项目的实践不同,会导致我们缺少高质量的数据支持,如此一来,社区增长和洞察的说服力会大打折扣。
要解决这个问题,需要的是接地气的社区标准化实践。在最近针对于 CNCF 社区等部分高质量项目的观察后,我们发现,敏捷开发的方法论,依然是社区治理体系的核心,而这些工程实践目前在很多公司中并不是共识。我们想通过本次分享,来重新梳理并思考,敏捷开发的习惯到底能给社区带来什么:
1. 引言:敏捷开发依然是开源社区目前开发模式的主流
2. 敏捷开发的 design patterns
3. 敏捷开发的 anti-patterns
4. 回到「增长黑客」,为什么我们应该把技术社区当作「技术产品」来对待


演讲者简介
范志东,TuGraph开源负责人

演讲题目
OSGraph:通过大规模知识图谱加速开源数据洞察

演讲简介
通过TuGraph图计算技术构建开源数据知识图谱,借助BI、图可视化等技术在大规模知识图谱数据上实现高效分析与洞察,并探索AI时代下与大模型技术的结合思路。


演讲者简介
陈阳,复旦大学教授,上海市智能信息处理重点实验室副主任

演讲题目
基于人工智能的在线开发者社区恶意账号检测

演讲简介
在线开发者社区主要为开发者提供代码托管、合作项目开发服务,有代表性的在线开发者社区如GitHub,吸引了上亿的开发者用户,已经成为开发者进行协作开发、代码开源、提升账号声誉的在线平台。这其中广泛存在的恶意用户,对代码仓库进行虚假点赞、身份伪冒、定向垃圾广告发布等问题,成为影响平台公平性的重要安全问题。我们对比了真实数据集中GitHub恶意用户与正常用户在时间线上的细粒度历史行为,并由GitHub用户代码操作产生的交互关系构建了用户交互图谱,分析得到了恶意用户的行为特点,并考虑GitHub提供的服务特点,设计实现了GitSec恶意用户发现系统。针对用户的历史行为,构建了时间间隔序列、行为类型序列,并引入深度神经网络和注意力机制设计了并行行为序列分析模型;针对用户之间的社交关系,利用代码仓库的交互行为,分别构建了用户-用户图和用户-仓库图,利用结构洞理论衡量用户在代码仓库交互中的重要性,利用图神经网络获取用户-仓库之间的关联表示。综合用户的描述性特征、时间序列分析以及社交关系分析特征,我们引入监督式机器学习分类器作为决策模块,对用户是否是恶意用户进行判断。利用GitHub真实用户数据集进行的对比实验表明,GitSec相比传统的统计特征提取方法、图关系分析方法等,都取得了更好的性能表现。对于常见的“标签翻转”攻击等,也表现出了较好的鲁棒性。


演讲者简介
姜宁,字节跳动开源首席布道师

演讲题目
数据驱动的开源社区建设

演讲简介
在OSPO的实践过程中,需要及时了解开源项目的进展情况。通过结合业务的诉求,识别项目的关键指标,可以让我们在第一时间内获取项目的最新进展,以及项目社区发展的一手信息。本次讲座将通过社区建设关键指标的数据故事案例分析,让我们更好地展示开源项目的价值,激发团队的行动力,并为 OSPO 的决策提供有力支持。


演讲者简介
韩凡宇,华东师范大学数据科学与工程学院在读博士

演讲题目
从开源社区的数字洞察看全球大模型的发展趋势

演讲简介
随着人工智能和机器学习的迅速发展,大模型(如 GPT、Llama 等)的应用场景不断扩展,开源社区在这一进程中扮演着至关重要的角色。本报告将深入分析开源社区中的数字洞察,以探讨全球大模型的发展趋势。我们将采用数据科学分析的方法,从生成式 AI 和大语言模型两个角度出发,利用项目活跃度、影响力等多个维度揭示开源大模型的发展历程,并分析当前主流大模型的现状。


演讲者简介
夏小雅,蚂蚁集团开源技术增长数据科学家

演讲题目
CHAOSS unconference session - 开源度量指标,数据,标准与政策

演讲简介
这是一场 unconference 线下研讨会,不是单向的分享,而是以对话为主的互动式讨论。讨论围绕着 CHAOSS 社区长期以来在开源软件社区健康度度量上所做的围绕着数据科学,公共政策,标准化相关的工作展开小组式的交流讨论,讨论的产出将会沉淀到 CHAOSS 社区的公开仓库中
4


关于活动