当前位置：首页 > news >正文

卧槽！GitHub排行榜即将下线；酷炫的Python热重载工具；开发者体验·电子书；C++最佳实践合辑；前沿论文 | ShowMeAI资讯日报

news 来源：原创 2024/5/3 13:07:17

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 卧槽！GitHub Trendind板块即将下线，微软也要降本增效了？

注意了! 趋势标签将被废弃。由于『今日热门存储库』和『今日热门开发者』两项功能使用率很低，从2022年9月30日起，标签将不再可用。

Trending 趋势是微软 GitHub 于 2018 年推出的一项功能，根据star、fork、提交、follow数等进行统计，每天更新8次，用以查看社区热门存储库和开发者。Trending Repositories 展示了前25个有潜力的开源项目，用户可对项目进行赞助。

工具&框架

🚧 『hmr-benchmarks』3D姿态和形状估计基准测试

https://github.com/smplbody/hmr-benchmarks

MMHuman3D 是一个基于 PyTorch 的开源代码库，是 OpenMMLab 项目的一部分，用于在计算机视觉和计算机图形中使用三维人体参数模型。本项目建立在 MMHuman3D 的基础上，添加了多个功能。

🚧 『Lhotse』使语音和音频数据准备更灵活的Python库

https://github.com/lhotse-speech/lhotse

https://lhotse.readthedocs.io/en/latest/

Lhotse是一个Python库，旨在使语音和音频数据的准备工作更加灵活，它是下一代Kaldi语音处理库的一部分。具备以下特点：

为常用的语料库提供标准的数据准备流程
为语音和音频相关任务提供 PyTorch 数据集类
为模型训练提供灵活的数据准备，包括音频切割的概念
高效率，特别是在I/O带宽和存储容量方面

🚧 『Reloadium』为Python程序增加热重载功能，编辑代码可实时看到效果

https://github.com/reloadware/reloadium

https://reloadium.io/

Reloadium为Python程序添加热重载和分析功能，Reloadium在改变时将重新运行当前函数，开发人员可以立即得到代码是否正常工作的反馈。

🚧 『Zed』超结构化数据工具，一种新的更简单的数据操作方式

https://github.com/brimdata/zed

https://zed.brimdata.io/

Zed 提供了一种新的数据方法，使其更容易操作和管理你的数据。Zed 新的超级结构化数据模型，可以让混乱的 JSON 数据很容易地被赋予关系表的完全类型化的精确性。

🚧 『TorToiSe』以质量为重的多语音TTS系统

https://github.com/neonbjb/tortoise-tts

https://nonint.com/static/tortoise_v2_examples.html

Tortoise 是一个的文本转语音程序，具备强大的多声道能力、高度逼真的发音&语调等优点。GitHub 项目包含在推理模式下运行 Tortoise TTS 所需的所有代码。

博文&分享

👍 『开发者体验：探索与重塑』电子书

https://github.com/dx-angel/dx-book

https://dx.phodal.com/

开发者体验是开发人员对于针对使用或期望使用的产品、系统或者服务的认知印象和回应。有所不同的是，用户关注的内容变为库，SDK，文档，框架，开源解决方案，通用工具，API 等的开发人员的体验。

作者经历了多个低代码前端项目的售前，以及一个低代码项目的技术实践强化后，发现国内的 IT 企业缺乏对于『开发者体验』缺乏系统性的思考。所以结合自己的项目经历、社区经验、国内外实际情况等，编写一个简要的开发者体验电子书。

👍 『Flamingo』用单个视觉语言模型搞定多个任务

https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

一个孩子看过书中几张动物的照片后，就可以在动物园中认出真正的动物，尽管两者之间存在差异。但要从图像中计数和识别出动物（如『两只火烈鸟』），典型视觉模型必须收集数千张图像，并用它们的数量和种类对每张图像进行注释。这个过程效率低、成本高、资源密集，需要大量带注释的数据，并且每次面临新任务时都需要训练新模型。

论文『Flamingo: a Visual Language Model for Few-Shot Learning』介绍了 Flamingo 这种单一的视觉语言模型 (VLM) 只需几个特定任务的示例就可以解决许多难题，而无需任何额外的训练。

数据&资源

🔥 『Awesome BEV Perception from Multi-Cameras』多相机3D目标检测和俯视图分割文献列表

https://github.com/chaytonmin/Awesome-BEV-Perception-Multi-Cameras

🔥 『cpp-best-practices』C++ 最佳实践

https://github.com/cpp-best-practices/cppbestpractices

此在线资源是 Jason Turner 收集的 C++ 最佳实践资源的一部分。

研究&论文

可以点击这里回复关键字日报，免费获取整理好的论文合辑。

公众号后台回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.08.07 『图像分类』 No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects
2022.08.15 『计算机视觉』HoW-3D: Holistic 3D Wireframe Perception from a Single Image
2022.08.12 『意图识别』Pre-training Tasks for User Intent Detection and Embedding Retrieval in E-commerce Search
2022.08.18 『重排序』Adaptive Re-Ranking with a Corpus Graph

⚡ 论文：No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects

论文时间：7 Aug 2022

领域任务：Image Classification, object-detection, 图像分类，目标检测

论文地址：https://arxiv.org/abs/2208.03641

代码实现：https://github.com/labsaint/spd-conv

论文作者：Raja Sunkara, Tie Luo

论文简介：Convolutional neural networks (CNNs) have made resounding success in many computer vision tasks such as image classification and object detection./卷积神经网络（CNN）在许多计算机视觉任务中取得了巨大的成功，如图像分类和物体检测。

论文摘要：卷积神经网络（CNN）在许多计算机视觉任务中取得了巨大的成功，如图像分类和物体检测。然而，在图像分辨率较低或物体较小的情况下，其性能会迅速下降。在本文中，我们指出，这根源于现有CNN架构中一个有缺陷但又常见的设计，即使用分层卷积和/或池化层，这导致了细粒度信息的损失和学习不太有效的特征表示。为此，我们提出了一个新的CNN构建模块，称为SPD-Conv，以取代每个分层卷积层和每个池化层（从而完全消除它们）。SPD-Conv由一个空间-深度（SPD）层和一个非分层卷积（Conv）层组成，可以应用于大多数甚至所有的CNN架构。我们在两个最具代表性的计算机视觉任务下解释这种新的设计：物体检测和图像分类。然后，我们通过将SPD-Conv应用于YOLOv5和ResNet来创建新的CNN架构，并通过经验表明，我们的方法明显优于最先进的深度学习模型，特别是在低分辨率图像和小物体的艰难任务上。我们已将我们的代码开源到了 https://github.com/LabSAINT/SPD-Conv 。

⚡ 论文：HoW-3D: Holistic 3D Wireframe Perception from a Single Image

论文时间：15 Aug 2022

领域任务：计算机视觉

论文地址：https://arxiv.org/abs/2208.06999

代码实现：https://github.com/wenchao-m/how-3d

论文作者：Wenchao Ma, Bin Tan, Nan Xue, Tianfu Wu, Xianwei Zheng, Gui-Song Xia

论文简介：This paper studies the problem of holistic 3D wireframe perception (HoW-3D), a new task of perceiving both the visible 3D wireframes and the invisible ones from single-view 2D images./本文研究了整体三维线框感知（HoW-3D）的问题，这是一项从单视角二维图像中感知可见三维线框和不可见线框的新任务。

论文摘要：本文研究了整体三维线框感知（HoW-3D）的问题，这是一项从单视角二维图像中感知可见三维线框和不可见线框的新任务。由于物体的非正面不能在单视图中直接观察到，在HoW-3D中估计非视线（NLOS）的几何形状是一个根本性的挑战问题，在计算机视觉中仍然是开放的。我们通过提出ABC-HoW基准来研究HoW-3D的问题，该基准是在来自ABC数据集的CAD模型的基础上创建的，包括12000张单视图图像和相应的整体3D线框模型。有了大规模的ABC-HoW基准，我们提出了一个新的深度空间格式塔（DSG）模型，以学习可见的连接点和线段为基础，然后通过遵循人类视觉系统的格式塔原则，从可见的线索中推断出NLOS三维结构。在我们的实验中，我们证明了我们的DSG模型在从单视角图像推断整体三维线框方面表现非常好。与强大的基线方法相比，我们的DSG模型在检测单视角图像中不可见的线条几何方面优于之前的线框检测器，甚至与之前将高保真点云作为重构3D线框的输入的艺术相比，也非常有竞争力。

⚡ 论文：Pre-training Tasks for User Intent Detection and Embedding Retrieval in E-commerce Search

论文时间：12 Aug 2022

领域任务：Intent Detection, Question Answering, 意图识别，问答系统

论文地址：https://arxiv.org/abs/2208.06150

代码实现：https://github.com/jdcomsearch/jdsearch-22

论文作者：Yiming Qiu, Chenyu Zhao, Han Zhang, Jingwei Zhuo, TianHao Li, Xiaowei Zhang, Songlin Wang, Sulong Xu, Bo Long, Wen-Yun Yang

论文简介：Pretrain-Finetune paradigm recently becomes prevalent in many NLP tasks: question answering, text classification, sequence labeling and so on./预训练-微调范式最近在许多NLP任务中变得很流行：问题回答、文本分类、序列标签等。

论文摘要：预训练-微调范式最近在许多NLP任务中变得很流行：问题回答、文本分类、序列标签等等。作为最先进的模型，在一般语料库（如维基百科）上预训练的BERT已被广泛用于这些任务中。然而，这些BERT式的模型在某些场景下仍然显示出局限性，特别是对于以下两种情况：一种是包含与一般语料库维基百科非常不同的文本的语料库，另一种是为特定目的学习嵌入空间分布的任务（例如，近似的近邻搜索）。在本文中，为了解决我们在工业电子商务搜索系统中也遇到的上述困境，我们为两个关键模块提出了新颖的定制化预训练任务：用户意图检测和语义嵌入检索。经过特定微调的定制化预训练模型，其规模不到BERT-base的10%，以便在具有成本效益的CPU服务方面是可行的，在离线评估指标和在线效益方面都明显改善了其他同行。为了可重复性和未来的工作，我们已经开放了我们的数据集。

⚡ 论文：Adaptive Re-Ranking with a Corpus Graph

论文时间：18 Aug 2022

领域任务：Passage Ranking, Re-Ranking，重排序

论文地址：https://arxiv.org/abs/2208.08942

代码实现：https://github.com/terrierteam/pyterrier_adaptive

论文作者：Sean MacAvaney, Nicola Tonellotto, Craig Macdonald

论文简介：Search systems often employ a re-ranking pipeline, wherein documents (or passages) from an initial pool of candidates are assigned new ranking scores./搜索系统通常采用一个重新排名的管道，其中来自初始候选池的文件（或段落）被分配新的排名分数。

论文摘要：搜索系统通常采用一个重新排名的管道，其中来自最初的候选池的文件（或段落）被分配新的排名分数。这个过程可以使用高效但昂贵的评分函数，这些函数不适合直接用于倒置指数或近似近邻指数等结构。然而，重新排名的管道本质上受到初始候选库的召回率的限制；那些没有被初始检索函数确定为重新排名的候选文件无法被识别。我们提出了一种新的方法来克服基于公认的聚类假说的召回限制。在整个重新排名的过程中，我们的方法将那些与到目前为止得分最高的文件最相似的文件添加到池中。这个反馈过程使候选文件池适应那些可能也会产生高排名分数的文件，即使它们不在最初的文件池中。它还可以提高那些出现在池子深处的文件的分数，否则这些文件会因为有限的重新排名预算而被跳过。我们发现，我们的基于图形的自适应重排（GAR）方法在精度和召回率方面显著提高了重排管道的性能，是对各种现有技术（如密集检索）的补充，对其超参数是稳健的，并且对计算和存储成本的贡献最小。例如，在MS MARCO通道排名数据集上，当应用monoT5排名器时，GAR可以将BM25候选库的nDCG提高8%。