第十二届中国R会议小记(附会议幻灯片下载)

言归正传。

2019年12月21日。华东师范大学中北校区举办了第十二届中国R会议。R会议一年一次。北京上海广州都有。某大佬曰过:

没有记录下来的事情就没有发生

本着这种精神,也因为信息接收过多,我决定写篇小文总结一下。这里需要说一下的是,我去年阅读了这篇关于第十一届R会的小文,从而对R会感兴趣。本文也是效仿着它的写作风格。

因为会议是9点开始。因此我7点多起床,吃饭然后提前到。直奔中北校区科学会堂。整个大会非常朴素,处处体现出民间论坛的“草根”性质。

首先是华东师范大学统计系汤银才教授简单介绍了华师大统计系。他的讲座讨论了统计学习与机器学习的关系。实际上,人们通常并不区分这两个术语的细微差异。但传统统计与机器学习的争论由来已久。这点在Leo Breiman 《Two Cultures》论文中有所体现。总之,这两个领域总是在用不同的术语讨论相同的东西。如“变量”与“特征”。而Logistic模型也不过是神经元模型非常相似。只不过一个说“连接函数”,一个说“激活函数”等等。剩下的都是老生常谈啦。

第二位讲者是来自香港中文大学的成生辉。他分享了他所在研究院的一款BI产品。具体就是输入数据进行无代码可视化的交互界面。这个我可能用不到。

第三位比较印象深刻。是饿了么的李哲。他带来了一个有趣的工业应用案例:使用知识图谱优化餐饮产品的构建。这位大佬令我印象最深刻的是他讲清楚了知识图谱的概念。知识图谱比深度学习的模式识别更为高级的AI应用。它能够回答诸如“饿了么的公司名称叫什么?”、“阿里投资了哪些公司?”这种需要人类经验积累的问题。

下一位是来自云筏科技。这个公司类似R Studio,是为广大的R个体用户提供服务的商业公司。它向我们介绍的是开源软件的基本服务免费,高级服务付费的模式。

后面是统计之都李舰的演讲。之前我读过舰哥的一本R语言教程和他的《统计之美》。这回总算见到真人了。舰哥的演讲介绍了一个国产的操作系统。以及基于它之上的数据科学平台。

下一个是中科院的刘心广博士。他介绍了人工智能在工业中的应用。类似于R对机器焊点的实时监测和分析。其他内容太专业了听不懂。

后面的讲座比较有趣。讲的是我比较感兴趣的NLP。讲者李翛然分享了他所在公司对吉林大学第一医院的病历数据进行分析的业务,以及相关的经验。这个数据库号称全中国(也许是全球)最大的肺癌结构化知识数据库。作为商业公司,最重要的是一开始和甲方确定工程的标准,如正确率多少以上。下一步便是具体实施了。实际业务场景的数据不同于竞赛、示例数据。数据的预处理是非常令人头疼的问题。李翛然说数据的读取阶段就遇到了困难(xml文件无法解析)。而后,基本的分词也很令人头疼。原因是医学语料库与通常的分词工具(如Jieba)的不兼容。于是需要自己整理词典。其中提到了一个中文数字提取工具挺好玩的。

来自美团点评的朱俊辉分享了基于Tidyverse包的应用。其中主要是进行风控工作。如观测被破坏的共享单车的运动轨迹等。这里面涉及了很多Spark和Hadoop等大数据架构的技术。他推荐了 Mastering Spark with R 一书。

e成科技的刘洋分享了基于招聘App的AI技术。招聘软件需要能够实现对用户上传的各种奇怪格式的简历文件进行识别和分析。如命名实体识别等等。客观评判一个求职者的能力和技能点。这样就可以进行人岗匹配等工作。他提到了不同的业务场景对算法准确性的要求不同。如抖音短视频推荐可以推错。但职位匹配可能就事关重大。这一点我深为赞同。

下一个演讲者是华师大博士周世荣。他分享的是较为传统的可靠性统计。比如分析华为手机的电池寿命问题(这不就是生存分析嘛!我感觉我也能做)。重要的是要将整个分析过程产品化,这就需要Shiny App了。好好学Shiny App吧!

来自微软中国的赵明杰介绍了微软研发的一款产品: Azure。它也是一款对各种格式文档内容进行分析的软件。这个软件的使用说明、软件下载、示例都在网上可以找到。因此不详细介绍了。

第一天的会议到此结束。


第二天来自中科院的张先轶分享了如何在用户端部署模型和算法。相当多的机器学习任务。如美颜、滤镜效果都在本地设备端进行算法运行。但是更多的设备端智能化部署需求仍然没有满足。比如驾驶技能考试的智能检测系统。这些技术涉及到很多的硬件知识。我也没有能够听懂。

和鲸科技的高朋介绍了SQLFlow。这是一个将机器学习训练纳入SQL语句的工具。一般而言,SQL用于数据的清理和查询。而它对机器学习训练的支持并不十分出色。

让机器学习像SQL一样简单,降低数据分析与机器学习的门槛,提高工程师应用机器学习的效率。我感觉这个工具是比较有应用前景的。只是不知道能不能流行起来。

接下来是一个非常学术的关于机器学习最优化方法的研究。来自华东师范大学统计学博士练勇强。之后是本次R会议组织成员车轮互联张强的演讲。从个人简介中看,他是我之前的实习公司艾瑞咨询数据挖掘部门的创始人。很尴尬的是他讲的内容我完全没有听懂也没留下什么印象。

之后是前华东师大硕士、现复旦大学博士黄天元带来的关于极乐净土包的介绍。这位讲者还写了本关于R的著作。他还进行了R base、dplyrdata.table的对比。嗯,总之我越来越体会到了学习data.table的重要性了。接下来是真大佬任坤带来的关于VSCode 和RStudio的演讲。任坤是data.table的贡献者之一。嗯,在我看来真是太厉害了。

之后是复旦大学统计系的米汶权带来的智能电梯:故障预测建模分析。这是一个纯应用统计的项目。这个项目主要是数据难获取吧。此外还需要充实的业务数据基础。

陈堰平带来的则是关于机器学习可解释性的问题。他讲了关于如何让机器学习模型更容易解释的主题。这显然是非常具有研究价值的问题。其中一个方法是Local Interpretable Model-Agnostic Explanations。基本方法就是对一个弯弯曲曲的(非线性)算法的决策边界进行线性回归拟合,使得模型更好解释。另一个方法是在CV(Computer Vision)任务中,找到影响分类的像素区域。这里他举了2个例子。一个是样本攻击的例子。一个是区分数码宝贝和神奇宝贝的图像数据集。在这个问题中,即便分类达到了很高的准确率,也不可能掉以轻心,因为解释分类像素区域之后,发现它们集中在卡通形象的外侧。原来神奇宝贝的PNG图片背景是透明的,读入后背景变成了黑色。因此造成了如此高的准确率。因为可解释性方法的存在,我们才能 找到问题背后真正的原因。

两天的会议开下来,眼界开阔大大地有。然而相当多的东西我没有听懂。没听懂的东西里又分为将来可能会涉及到的和永远也涉及不到的。前者很重要,后者需要战略性忽略。而从前者中找到方向是个难题。

总之,听完这一系列报告,我愈发感觉到自己决定从社科转到DS是正确的选择。毕竟,社科的领域更为传统、保守,离工业界更远。同时,关于Shiny App、Docker、Spark、Linux等知识是很好的触发点。未来应该补全自己在这些方面的空白。当然重中之重是学好NLP技术。

附:第十二届中国R会议 幻灯片 公开合集

链接1:
https://pan.baidu.com/s/1hAU9C1wdnrzYrJfawMFLaw
提取码:vtyf
链接2:
https://pan.baidu.com/s/1-y_EQgrZq_EBTYzM3G5cdQ
提取码:0994

注:2个链接内容一致。其中空缺的属于材料敏感无法共享。