机器学习仅仅通过训练照片(即2D图像)上的模型,就在许多计算机视觉任务上获得了非常出色的精确度。
今年早些时候发布的MediaPipeObjectron是一组为移动设备设计的实时3D物体检测模型。这一模型在一个完全标注的,真实世界的3D数据集上训练,可以预测物体的3D边界框。
与2D任务(例如ImageNet,COCO和OpenImages)相比,由于缺乏大型真实世界数据集,理解3D中的对象仍然是一项具有挑战性的任务。
这也是Objectron数据集的由来。它是一个简短的,以对象为中心的视频片段的集合,从不同的角度捕捉了一组更大的公共对象。每个视频剪辑都附有AR会话元数据,其中包括摄像机姿态和稀疏点云。
以下是Objectron数据集的主要亮点:
个带标注的视频和四百万个带标注的图像所有样本包括高分辨率图像,物体姿态,相机姿态,点云和表面平面。可以在各种TF.Record格式中使用的示例,这些格式可以在TensorFlow/PyTorch中使用。以对象为中心的多视图,从不同角度观察同一对象。精确的评估指标,如面向3D边界盒的3DIoU。对您来说,可操作的项目…
您应该按照通过GitHub存储库提供的教程来训练一些模型。
我们现在在医学图像分析中使用的是MedMNIST数据集,它与计算机视觉中的MNIST或FashionMNIST数据集类似。不过分析具有不同模态的多个数据集可能不那么便利,因为数据集通常是非标准的。
我们知道,深度学习在医学图像分析领域的研究和应用一直占据主导地位,但对深度学习模型的优化需要耗费大量的工程人力。这使得自动机器学习(AutoML)变得越来越重要。
MedMNIST是10个经过预处理的医学图像数据集的集合。它的分类十项全能(classificationdecathlon)旨在对所有10个数据集上的AutoML算法进行基准测试。它已经根据几种基准方法进行了评估,包括开放源码或商业机器学习工具。
MedMNIST主要亮点如下:
教育性:可用于教育目的,因为它拥有创造性共享(CC)许可证。标准化:数据被预处理成相同的格式,这对用户来说不需要任何背景知识。多样性:多模态数据集涵盖不同的数据规模(从到,)和任务(二进制/多类,有序回归和多标签)。轻量级:28×28的小尺寸满足了对AutoML算法快速原型制作和测试的需求。分类十项全能包含以下数据集:
PathMNIST:图像斑块来自苏木精和伊红染色的组织学图像。ChestMnist:一共有30,例独特患者的X线图像,并带有文本挖掘的14种疾病图像标签。Dermamnist:收集常见色素性皮肤病变的多源皮肤镜图像。OCTMNIST:基于现有的,包含,张有效的视网膜疾病光学相干断层扫描(OCT)图像的数据集。PneumoniaMNIST:基于现有的,包含张儿童胸部X线照片的数据集。任务是肺炎和正常的二元分类。Retinamnist:基于DeepDRiD,一个包含个视网膜眼底图像的数据集。BreastMnist:基于个乳腺超声图像的数据集。OrganMNIST(轴位,冠状位,矢状位):基于肝脏肿瘤分割基准(LiTS)的3D计算机断层扫描(CT)图像可操作的项目…
他们的GitHub存储库还不是傻瓜式的拿来即用的。您可以创建一个教程,介绍如何使用数据集,训练不同的模型,并重现整个分析。
使用这些数据集来探索,使用,测试或创建一些东西。
我每个月都试着学习一本或多本书籍和课程,只是为了让自己在这方面做得更好。在所有我读到的业界成就或我在这篇文章中谈到的项目的背景下,我还只能算是一个新手。
有这么大的学习空间,我试着每天学习一本书/一门课程,这样我每天都能学到/创造一些新的东西。
下面是我推荐你去看的东西:
我目前正在读这本书。它是一本易于遵循的指南,适合那些喜欢编写Python代码的人使用。它介绍了第一个向使用最频繁的深度学习应用程序提供一致接口的库。
这本书的目的是帮助程序员在深度学习中取得令人印象深刻的结果,并且不需要太深的数学背景,也就是说,你只需要熟悉线性代数和基本微积分即可。
它涵盖了深度学习算法的基本原理,并解释了它们是如何工作的。他们提供了大量好的,深入的例子来解释如何使用fastai和PyTorch在广泛的任务上训练模型。
对于那些想要一个循序渐进的指南来很好地掌握训练深度学习算法以解决广泛领域的问题并取得令人印象深刻的结果的人来说,本书是一本必买的书。
纽约大学数据科学中心提供的YannLeCun的深度学习课程是我遇到的一门课程,也是我很想学习的一门课程。
课程面向已经在数据科学领域开启征程,熟悉机器学习的人。要学习这门课程,你需要先完成一门数据科学入门课程。
这门课程的时间跨度为15周,教学资料丰富,包括幻灯片,jupyter笔记本和youtube视频。
本课程让您深入了解深度学习和表示学习的最新技术,重点介绍有监督和无监督深度学习,嵌入方法,度量学习,卷积和递归网络,以及在计算机视觉,自然语言理解和语音识别方面的应用。
GitHub课程包括在纽约大学听课的人写的课堂讲稿,可能会有一些语言错误。此外,你可能需要学习过微积分入门课程,因为课程中的笔记使用各种数学符号来解释算法是如何工作的。
除了学习这些笔记,你还可以参与竞赛,完成家庭作业和观看课堂上展示的PPT。这里是驱动链接。
这已经不是什么太近的新闻了,他的课堂讲稿和PPT中的一些概念应该是值得去学习理解的。
最后,我想和大家分享2篇值得大家花时间研究的论文:
第一个是关于使用Transformer进行图像识别任务,从标题中可以推断出:Transformer用于规模图像识别(transformerforimagerecognitionatscale)。论文是关于谷歌研究大脑团队中的研究人员和工程师的工作。
他们已经尝试开发转换器的可伸缩性,并在尽可能少的修改下直接应用于图像。他们解释了他们是如何拆分数据集,在像ImageNET这样的数据集上训练模型的,他们已经得到了相当高的精确度,比类似大小的ResNet低几个百分点。
他们分享了转换器与CNN相比所欠缺的地方。但他们声称,当数据集很大时,在14M到M的大致范围内,他们的视觉转换器获得了很好的效果,克服了在较小数据集上训练时所看到的感应偏差。
你绝对应该看看这篇论文,深入了解他们的发现。
第二篇研究论文是关于深度学习革命的影响及其对计算机架构和芯片设计的影响,作者是谷歌人工智能团队负责人杰夫迪恩。
本文是国际固态电路会议(ISSCC)主题演讲的姊妹篇,讨论了机器学习的一些进展,以及它们对我们需要构建的计算设备的影响。
本文的价值主要是一个一般性的阅读,我拿来了解系统需求和深度学习的发展领域,以构建更多的计算密集型硬件架构。
如果你喜欢深度学习和计算硬件设计的融合,一定要读读这篇文章。