当前位置: 首页 > news >正文

Interview of ING internship for master thesis: LLM

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 1. Background
  • 2. Interview
    • 2.1 Intro
    • 2.2 project experience
    • 2.3 问题
    • 2.4 Q&A
  • 总结


Interview of ING internship for master thesis: LLM


1. Background

Project Overview: Experimental LLM for REF Use

The project involves developing a chatbot/agent based on a pre-trained LLM, which will be fine-tuned using Real Estate Finance (REF) data and public data to make it specialized for our use. The model will be capable of answering questions and providing information related to our clients, assets, tenants, and other general real estate finance topics.

Purpose of the Project

Enhanced Business Interaction: Improve REF colleague interaction by providing instant, accurate responses to their queries.
Efficient Information Retrieval: Enable quick and efficient retrieval of information related to assets and tenants.
Innovation: Explore innovative technological solutions that can be potentially integrated into our operations.

Roles and Responsibilities of the Intern

Model Development: Assist in doing research and developing and fine-tuning the LLM to cater to REF-specific use cases.
Data Management: Manage and organize data used for training and fine-tuning the model.
Testing and Evaluation: Conduct testing and evaluation of the model to ensure its accuracy and reliability.
Documentation: Maintain thorough documentation of the development process, challenges, and solutions implemented.


Qualifications for the Intern Position: Development of a Large Language Model Application

  1. Educational Background:
    Currently enrolled in a Master’s program, preferably in Computer Science, Data Science, Artificial Intelligence, or a related field.
    Working on a Master’s thesis that aligns with the development and application of Large Language Models, with a focus on real estate finance or a relevant domain.

  2. Technical Proficiency:
    Strong programming skills, particularly in Python, and familiarity with machine learning libraries and frameworks such as TensorFlow or PyTorch.
    Experience or coursework in Natural Language Processing (NLP) and chatbot development.

  3. Research Skills:
    Ability to conduct comprehensive research on LLM applications and integrate findings into practical use-cases.
    Demonstrated capability to work on a research project, as evidenced by their Master’s thesis.

  4. Collaboration and Problem-Solving:
    Ability to adapt to challenges and pivot strategies as needed throughout the project development.
    Strong problem-solving skills and the ability to troubleshoot issues that may arise during the model development.
    Ability to work collaboratively with our internal team, providing updates and integrating feedback into the project.
    Willingness to engage with academic and professional mentors for guidance and support throughout the project.


2. Interview

2.1 Intro

  1. 2 intro of the 2 interviewers
    senior data 5-7 years experience
  2. intro of the project
  3. self intro

2.2 project experience

  1. word2vec and CAPTCHA, 2 interesting project, talk about them

  2. word2vec 原理,调参具体是什么?学习率是什么?如何评价一个模型?

  3. 什么是过拟合,怎么避免?

    • 过拟合
    • 在统计学中,过拟合(英语:overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。[1]过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。[2]发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。[3]:45相较用于训练的数据总量来说,一个模型只要结构足够复杂或参数足够多,就总是可以完美地适应数据的。过拟合一般可以视为违反奥卡姆剃刀原则。
      与过拟合相对应的概念是欠拟合(英语:underfitting,或称:拟合不足);它是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。发生欠拟合时,模型的偏差大而方差小。
  4. 什么是类不平衡?怎么解决?
    类不平衡讲解

    • 解决:
      • 欠采样
      • 过采样
    • 欠采样就是把比较多的一类少采集一点,核心问题是怎么防止因为忽略了一些样本导致的信息缺失。Tomek Links Tomek Links指的是,数据集中的两个样本彼此是对方的最近邻,同时他们的类别不同。这时候我们可以删除两个点中,属于样本较多的那一类的那个点,这样能一定程度上减轻两类数据的不平衡。Tomek Links的想法其实是,如果两个样本是Tomek Links的,那么分类器处理这两个样本的时候一定不太容易,那干脆删除一个减轻压力。不过这个方法比较危险,毕竟这样很可能导致信息缺失。
  5. 随机森林是什么?和决策树有什么区别?优点是什么?随机森林如何实现分类?

    • 随机森林是用于分类和回归的一种主流集成学习方法。 集成学习方法结合了多种机器学习(ML) 算法,以获得更好的模型– 应用于数据科学的群体智慧。 此类学习方法基于这样一种概念:一群对问题领域知之有限的人集思广益,可以获得比一个知识丰富的人更好的解决方案。 随机森林是一组决策树,是几乎人人都熟悉的解决问题的比喻。
      随机森林
    • 随机森林的优点
      • 对于很多种资料,它可以产生高准确度的分类器。
      • 它可以处理大量的输入变量。
      • 它可以在决定类别时,评估变量的重要性。
      • 在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
      • 它包含一个好方法可以估计丢失的资料,并且,如果有很大一部分的资料丢失,仍可以维持准确度。
      • 它提供一个实验方法,可以去侦测variable interactions。
      • 对于不平衡的分类资料集来说,它可以平衡误差。
      • 它计算各例中的亲近度,对于数据挖掘、侦测离群点(outlier)和将资料可视化非常有用。
      • 使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
      • 学习过程是很快速的。
        随机森林讲解
    • 优点
      • 它可以出来很高维度(特征很多)的数据,并且不用降维,无需做特征选择
      • 它可以判断特征的重要程度
      • 可以判断出不同特征之间的相互影响
      • 不容易过拟合
      • 训练速度比较快,容易做成并行方法
      • 实现起来比较简单
      • 对于不平衡的数据集来说,它可以平衡误差。
      • 如果有很大一部分的特征遗失,仍可以维持准确度。
        随机森林讲解

2.3 问题

  1. 最快何时开始?期望11月
  2. 课程多吗?不多,重心在项目
  3. 论文有要求吗?根据公司项目需求
  4. 学校有导师指导吗?做LLM方向的
  5. 后面会有一个python测试,下周三进行,选拔用,测试学习能力,补全代码

2.4 Q&A

  1. 部门介绍
    200+,具体data人不多
  2. 地址
    bijlmer arena
  3. 项目要求

总结

技术答得有点烂,还是得好好准备一下自己简历的项目。准备做下一轮的python吧。

相关文章:

  • 多测师肖sir_高级金牌讲师__接口测试之练习题(6.1)
  • 【广州华锐互动】VR公司工厂消防逃生演练带来沉浸式的互动体验
  • 【c++】打家劫舍(动态规划)
  • QWidget|QFrame设置背景透明且可以带有边框颜色
  • Vue(uniapp)父组件方法和子组件方法执行优先顺序
  • MacOS环境变量source生效但重启后又失效
  • Java学习星球,Java学习路线
  • LeetCode:20. 有效的括号——栈和队列
  • 企业引用CRM管理系统软件有什么作用?
  • 在U盘上运行的 Windows
  • Java设计模式(九)—— 中介者模式
  • HTML5支持的视频文件格式和音频文件格式有哪些?
  • 【图神经网络】10分钟掌握图神经网络及其经典模型
  • 【Axure教程】鼠标滚动上下翻页效果
  • Qt 自定义日志类总结
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • 2017前端实习生面试总结
  • CSS 三角实现
  • CSS3 变换
  • Js基础知识(一) - 变量
  • Less 日常用法
  • linux学习笔记
  • Shadow DOM 内部构造及如何构建独立组件
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 一、python与pycharm的安装
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • # Pytorch 中可以直接调用的Loss Functions总结:
  • #Linux(Source Insight安装及工程建立)
  • #微信小程序:微信小程序常见的配置传值
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (13)Hive调优——动态分区导致的小文件问题
  • (5)STL算法之复制
  • (C#)获取字符编码的类
  • (JS基础)String 类型
  • (六)Hibernate的二级缓存
  • (强烈推荐)移动端音视频从零到上手(下)
  • (算法)N皇后问题
  • (算法)Travel Information Center
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • .NET Core 版本不支持的问题
  • .NET Core 网络数据采集 -- 使用AngleSharp做html解析
  • .NET Core 中插件式开发实现
  • .NET Core工程编译事件$(TargetDir)变量为空引发的思考
  • .Net Core和.Net Standard直观理解
  • .NET 材料检测系统崩溃分析
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .NET/C# 使用反射注册事件
  • .net快速开发框架源码分享
  • .NET连接MongoDB数据库实例教程
  • /bin/rm: 参数列表过长"的解决办法
  • @NoArgsConstructor和@AllArgsConstructor,@Builder
  • @reference注解_Dubbo配置参考手册之dubbo:reference
  • []指针
  • [100天算法】-x 的平方根(day 61)
  • [Angularjs]asp.net mvc+angularjs+web api单页应用