当前位置: 首页 > news >正文

搜索引擎技术文章

搜索引擎技术文章
谢煜波 http://blog.xieyubo.com/

SF:开源的ftp搜索引擎
http://gf.cs.hit.edu.cn
相关文档
超音速版
注意一些细节,让程序运行得更快(1/4)
注意一些细节,让程序运行得更快(2/4)
注意一些细节,让程序运行得更快(3/4)
注意一些细节,让程序运行得更快(4/4)
SF超音速版的数据结构(1/3)
SF超音速版的数据结构(2/3)
SF超音速版的数据结构(3/3)
亚音速版
SF 亚音速版 系统架构 (1 / 3)
SF 亚音速版 系统架构 (2 / 3)
SF 亚音速版 系统架构 (3 / 3)
SF 搜索引擎 - IP来源统计开发文档

百度算法-查询处理以及分词技术 http://hi.baidu.com/jiewangzi/blog/item/0e7bc23593e81d1390ef3936.html
分两个部分来讲述:查询处理/中文分词。
现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。

 使用正向最大匹配算法实现中文分词简单模型-用trie树实现     
 http://blog.csdn.net/lyflower/archive/2006/12/21/1452091.aspx

 搜索引擎CACHE策略研究
http://software.hit.edu.cn/eestudio/bbs/ShowPost.asp?ThreadID=271

 

MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat
http://labs.google.com/papers/mapreduce.html

Abstract

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.

Programs written in this functional style are automatically parallelized and executed on a large cluster of commodity machines. The run-time system takes care of the details of partitioning the input data, scheduling the program's execution across a set of machines, handling machine failures, and managing the required inter-machine communication. This allows programmers without any experience with parallel and distributed systems to easily utilize the resources of a large distributed system.

Our implementation of MapReduce runs on a large cluster of commodity machines and is highly scalable: a typical MapReduce computation processes many terabytes of data on thousands of machines. Programmers find the system easy to use: hundreds of MapReduce programs have been implemented and upwards of one thousand MapReduce jobs are executed on Google's clusters every day.

Appeared in:
OSDI'04: Sixth Symposium on Operating System Design and Implementation,
San Francisco, CA, December, 2004.

Download: PDF Version

Slides: HTML Slides

转载于:https://www.cnblogs.com/cutepig/archive/2007/09/16/894757.html

相关文章:

  • Lucene.net 实现全文搜索(转)
  • [文摘20071010]没女
  • 用XML和SQL 2000来管理存储过程调用
  • SharePoint Server 2007 页面模型
  • GridView
  • ASP
  • 新来到出转转
  • 在.net中创建使用全球唯一标识符
  • 8. Automatic Properties(自动属性)
  • C#命名规范
  • 一条常见的行合并问题(SQL)
  • 自己动手做的LED摄影灯
  • Ajax从入门到精通!!
  • 支持函数,变量的算术表达式计算(二、中缀转后缀)
  • 国家,省/州,城市下拉框 (转)
  • Electron入门介绍
  • js操作时间(持续更新)
  • magento2项目上线注意事项
  • node.js
  • Python实现BT种子转化为磁力链接【实战】
  • redis学习笔记(三):列表、集合、有序集合
  • 将 Measurements 和 Units 应用到物理学
  • 类orAPI - 收藏集 - 掘金
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 如何进阶一名有竞争力的程序员?
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 世界上最简单的无等待算法(getAndIncrement)
  • 手写一个CommonJS打包工具(一)
  • 原创:新手布局福音!微信小程序使用flex的一些基础样式属性(一)
  • 阿里云ACE认证学习知识点梳理
  • 树莓派用上kodexplorer也能玩成私有网盘
  • ​决定德拉瓦州地区版图的关键历史事件
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • #162 (Div. 2)
  • #DBA杂记1
  • #HarmonyOS:Web组件的使用
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • (02)Hive SQL编译成MapReduce任务的过程
  • (06)Hive——正则表达式
  • (13):Silverlight 2 数据与通信之WebRequest
  • (145)光线追踪距离场柔和阴影
  • (6)添加vue-cookie
  • (附源码)spring boot基于Java的电影院售票与管理系统毕业设计 011449
  • (更新)A股上市公司华证ESG评级得分稳健性校验ESG得分年均值中位数(2009-2023年.12)
  • (十六)一篇文章学会Java的常用API
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • (转)淘淘商城系列——使用Spring来管理Redis单机版和集群版
  • .bat批处理(一):@echo off
  • .bat文件调用java类的main方法
  • .h头文件 .lib动态链接库文件 .dll 动态链接库
  • .Net mvc总结
  • .NET 反射 Reflect
  • .NET 命令行参数包含应用程序路径吗?
  • .net反编译的九款神器