Nireader的问题 - nighca's log

Nireader的问题

有待解决的问题：

最大的问题：重复抓取本来根据文章的链接地址检查唯一性，后来发现很奇葩的“一个”每天的三篇是同一个链接地址。于是加上文章标题，结果但凡后来修改了标题的，就会被认为是新的文章。好纠结。
其次的问题：乱码本来还好，但最近发现某些频道尤其厉害，初步判断是node抓取时拼buffer前将内容自动转码导致的。应该可以解决。

有待实现的算法：

对比两篇文章，判断是同一篇（更新内容）或是两篇<服务端>
分析文章内容，提取标题、列表等语义结构<前端>
根据点击习惯自动调整页面交互模块的位置、大小<前端>

有待做的事：

最近事还挺多，可是觉得前端已经有点乱了，真的需要再整理一下了。