博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配
阅读量:7100 次
发布时间:2019-06-28

本文共 313 字,大约阅读时间需要 1 分钟。

  hot3.png

Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配
本文使用DoubleArrayTrie实现了一个性能极高的Aho Corasick自动机,应用于分词可以取得586万字每秒,约合18MB/s的分词速度。其中词典为150万词,构建耗时1801 ms。以前就在构想将AC自动机与双数组Trie树结合起来,考虑到持久化比较困难(goto和fail表是内存指针/引用),一直没下决心实现,今天终于成功了。AC自动机能高速完成多模式匹配,然而具体实现聪明与否决定最终性能高低。大部分实现都是一个Map<Character, State>了事,无论是TreeMa...

继续阅读: »

原文链接

转载于:https://my.oschina.net/hankcs/blog/359789

你可能感兴趣的文章
Delphi下遍历文件夹下所有文件的递归算法
查看>>
liunx 中 find常见用法示例 / linux下递归删除目录下所有asp文件
查看>>
Java中创建对象的5种方式
查看>>
angularjs-currency 过滤器
查看>>
H3C-1000S 内部服务器映射
查看>>
Linux负载均衡软件LVS+keepalived
查看>>
世界500强某知名日企面试题库
查看>>
MySQL MyISAM 库转换为InnoDB的方法
查看>>
使用Python读Excel数据Insert到MySQL
查看>>
linux chkconfig and umask
查看>>
gridview数据如何导出到word,excel
查看>>
每天一个linux命令(14):head 命令
查看>>
我的友情链接
查看>>
win2008安装win7主题
查看>>
ssh端口转发,先转载,最后自用心得
查看>>
我的友情链接
查看>>
JavaScript中伪协议
查看>>
我的友情链接
查看>>
MySQL CPU占用过高怎么办?
查看>>
公司那些事-薪酬
查看>>