课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
算法是我们在学习软件编程开发技术的时候就多次提到需要重点掌握的一项技术知识点,而今天我们就一起来了解一下,人工智能技术算法学习都有哪些类型。
1、K聚类
全称K均值聚类,无监督学习的算法。物以类聚人以群分的代表。
K聚类需要将原始数据无量纲化,然后设置聚类点迭代求解。K聚类的核心是针对划分出的群簇使其小化平方误差。直观说,就是让样本紧密围绕群簇均值。
设置多少个聚类点多少有点主观的意思,这也是K聚类的参数,考察的是外部指标,即你聚类本身是想分出几类,通过对结果的观察以及E值判断。
K聚类不适合多维特征,一般3~4维即可,维度太多会缺乏解释性,RFM模型是其应用。因为物以类聚,所以对偏离均值点的异常值非常敏感。
2、神经网络
神经网络是一种模仿生物神经系统的算法,神经网络算法以神经元作为基础的单位,神经元通过将输入数据转换为0或1的阀值,达到激活与否的目的,但是0和1不连续不光滑,对于连续性数据,往往用sigmoid函数转换成[0,1] 间的范围。
将这些神经单元以层次结构连接起来,就成了神经网络。因为这个特性,神经网络有许多的参数,可不具备可解释性。多层神经网络,它的输入层和输出层之间的层级叫做隐层,就是天晓得它代表什么含义。
神经网络的层数一般是固定的,但我们也能将网络层数作为学习的目标之一,找到适合的层数。
另外,层数越多,参数越多的神经网络复杂度越高,深度学习就是的层数很多的神经网络。常见的有CNN、DNN、RNN等算法。
3、情感分析
比较前沿的一个领域。包括情感词的正面负面分类,标注语料,情感词的提取等。
情感分析可以通过情感关键词库计算,比如汇总开心、悲伤、难过的词汇,计算情感值,再加入表示情感强烈程度的维度,如1~5的数值进行打分。用户对商品评论的分析就是一个常见的情感分析:这手机太TM破了,就是5分愤怒。
然而情感词典需要维护,构建成本较高,我们也可以用机器学习的方法将其看待为分类问题。讲关键词特征向量化,常用词袋模型(bag-of-words )以及连续分布词向量模型(word Embedding),特征化后,往往用CNN、RNN或者SVM算法。
4、协同过滤
简称CF算法。协同过滤不属于机器学习领域,所以你在机器学习的书上看不到,它属于数据挖掘。
协同过滤的核心是一种社会工程的思想:人们更倾向于向口味比较类似的朋友那里获得推荐。协同过滤主要分为两类,基于用户的user-based CF以及基于物体的item-based CF。虽然协同过滤不是机器学习,但它也会用到SVD矩阵分解计算相似性。
优点是简单,你并不需要基于内容做内容分析和打标签,推荐有新颖性,可以发掘用户的潜在兴趣点。
协同过滤的缺点是无法解决冷启动问题,新用户没行为数据,也没有好友关系,你是不到推荐的;推荐会收到稀疏性的约束,你的行为越多,才会越准;随着数据量的增大,算法会收到性能的约束,并且难以拓展。
协同过滤可以和其他算法混合,来提高效果。这也是推荐系统的主流做法。
5、标签/标注
这里稍微有歧义、如果是标签,间接理解为用户画像,涉及到标签系统。用户的男女、性别、出生地皆是标签,越丰富的标签,越能在特征工程中为我们所用。
如果是分类标签/标注,则是数据标注。有监督学习需要训练集有明确的结果Y,很多数据集需要人工添加上结果。比如图像识别,你需要标注图像属于什么分类,是猫是狗、是男是女等。在语音识别,则需要标注它对应的中文含义,如果涉及到方言,则还需要将方言标注为普通话。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。