历时40多天的Cisco全球AI 竞赛终于落下帷幕,虽然最终只得到第6名(总共有1000多人组成的300多支参赛队伍). 但是作为一个学习AI没多久的小白来说,已经非常知足了.整个竞赛的主题是:客户是否会持续订购公司服务的预测. 回想整个过程,感觉比做一个项目更辛苦,跟磨人, 但也收获颇多.
- 数据的理解:
说的是AI 维度的选取,但是最重要的还是数据的理解的理解,AI模型和算法虽然同样重要,但是只有对数据理解了才能够对数据进行正确的清洗.
- 数据的降维:
整个竞赛的数据有240多个维度,但是想对数据降维,还真不是好办的.使用了PCA也没什么思路.但是最后却从应用层面发现了一个比较好的办法. 使用随机森林或者XGBoost之类的模型,让模型的树有足够的深度,如果在足够深的情况下,还没有被选中的feature,那就是可以抛弃了.这样就变相的做到了数据的降维.这样最后的效果是数据的维度减少了一半.
- 手工指定维度的权重:
目前虽然有很多模型,可以对数据指定维度. 但是没有发现有模型可以指定维度的权限,但是聪明如我无意之中发现了一种可能的workaround,就是将Feature复制出一列,这样无形之中此Feature被选中的几率就翻番了.
- 趋势的理解
机器学习通常要通过对已有的数据整理出规律,其实最有价值的规律,还是特定个体历史趋势.理解了这一点,就会在特征抽取时往这个方向上思考.
- 自动化匹配(灵活的配置):
模型的可扩展性, 一个竞赛持续时间会跨越比较久,比如这次前后2轮,跨越一个半月,所以模型要做到比较容易的扩展.比如哪些字段需要onehot,最初手工分析了一些做onehot效果也不好,前后调整花了好大经历.最后发现最简单的就是查看指定Feature有多少种类型,如果小于一个特定值,就对此字段启用onehot,这样调整非常灵活,效果也不错.后来发现有的模型(LightGBM)就是用的这种办法.
- 数据的独立性:
这次竞赛发现对于一个特定的个体,历史上有多处续订和没有续订,但是其他属性基本一致.这样的数据参加训练,会导致结果不稳定,有抖动. 最后做了一个舍弃,只保留最近的一条数据,预测分数有了一个非常大的提升.
同时也发现了对于一个特定的个体,如果有相同产品,相应产品的行为是基本一致的.如果全部保留是一种变相的数据倾斜.最后只保留一条,发现分数也有一个很大的提升.
这说明,维度直接有关联没办法避免,但是如果不同的数据,有类似的行为,汇总后参与训练,结果会更好.
相关推荐
AI圈-人工智能竞赛Top解决方案(Awesome Top Solution List of Excellent AI Competitions)
AI人工智能培训资料(培训PPT+示例代码),资料很大将近3GB,供大家下载学习参考。 1-Python基础(教程+代码) 2-Python数据分析基础(教程+代码) 3-数字图像处理 1)图像处理基础 2)边缘检测 3)形态学图像处理 ...
2021人工智能竞赛白皮书:1000场竞赛的人工智能-AIIA&CAICT-2022-97页.pdf
人工智能竞赛——智能家居竞赛基础功能
人工智能竞赛:哪些科技巨头正在抢购人工智能初创公司.pdf
2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx
算法专家 风奇在2017云栖大会·北京峰会中做了题为《解密阿里内部人工智能算法迭代工具AI Boost》的分享,就机器智能的迭代: AI Boost,挑战与未来等方面的内容做了深入的分析。
清华大学AI人工智能概论课程列表,高等学校人工智能通识课规划内容 清华大学AI人工智能概论课程 第10章 建筑智能化技术 含习题 共35页 .pptx 清华大学AI人工智能概论课程 第1章 AI时代的起航 含习题 共56页 .pptx ...
2019年9月格灵深瞳举办的AI算法竞赛,面向全国技术人员,该文档为大赛结束后的官方赛题讲解演示文档。
2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术...
人工智能行业《企业人工智能应用现状分析(第二版》)报告洞察:悬而未决的AI竞赛,全球企业人工智能发展现状-200318.rar
人工智能知识竞赛.docx
2022.04-2021人工智能竞赛白皮书:1000场竞赛的深度分析-和鲸科技&中国人工智能产业发展联盟
大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛、“中国软件杯”大学生软件设计大赛、全国大学生光电设计竞赛、中国机器人及人工智能大赛、“大唐杯”全国大学生移动...
《企业人工智能应用现状分析(第二版)》报告洞察:悬而未决的AI竞赛-全球企业人工智能发展现状
《企业人工智能应用现状分析(第二版)》报告洞察:悬而未决的AI竞赛-全球企业人工智能发展现状.pdf
2021.11-人工智能竞赛:哪些科技巨头正在抢购人工智能初创公司(英)-CB-Insights-10页.pdf
清华大学AI人工智能概论课程列表,高等学校人工智能通识课规划内容 清华大学AI人工智能概论课程 第10章 建筑智能化技术 含习题 共35页 .pptx 清华大学AI人工智能概论课程 第1章 AI时代的起航 含习题 共56页 .pptx ...
竞赛资料源码-第一届西安交通大学人工智能实践大赛(2018AI实践大赛--图片文字识别)第一名;仅采用densenet识别图中文字 教育部认可的大学生竞赛备赛资料代码,源码,竞赛总结,所有源码均经过严格测试,可以直接...
人工智能工具包 OpenAI