公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?
![]() | 1 faceair 2021-02-20 11:45:11 +08:00 via Android 临时租六台云主机,拆分子任务 |
![]() | 2 jr55475f112iz2tu 2021-02-20 11:50:34 +08:00 本质上就是要投入资源: 1. 投入人力资源,优化算法,成本是优化算法需要的时间对应的人力成本,当然有可能最后也优化不出来想要的效果,受硬件约束 2. 投入硬件资源,买服务器,成本是服务器使用费 |
![]() | 3 lekai63 2021-02-20 11:53:13 +08:00 既然是跑算法。 那看看各家云函数?好像 python 都是支持的。 云函数易扩展,搞大并发咯 |
4 linkedsh1005 2021-02-20 17:25:41 +08:00 hadoop |