Sunday, March 23, 2014

Lại một ý tưởng Big Data thú vị. Seth Stephens-Davidowitz, một Harvard economic PhD đang làm việc cho Google,...

Lại một ý tưởng Big Data thú vị. Seth Stephens-Davidowitz, một Harvard economic PhD đang làm việc cho Google, download toàn bộ tiểu sử của 150,000 người Mỹ có entry trên Wikipedia và lập luận rằng những ai có tên trên trang bách khoa toàn thư này hẳn phải là người thành công và nổi tiếng (trừ một số trường hợp tội phạm).

Stephens-Davidowitz lọc ra những baby boomer (những người sinh trong giai đoạn 1946-1964) rồi phân loại theo nơi sinh của họ. Kết quả là nơi sinh có ý nghĩa rất quan trọng cho sự thành công sau này trong cuộc đời của các baby boomer (giả thiết "địa linh - nhân kiệt"?). Tiếp tục phân tích những yếu tố khách quan về nơi sinh Stephens-Davidowitz xác định 4 yếu tố sau:

-  Sinh ra trong một county (có thể coi tương đương như một huyện/quận của VN) có một trường đại học tốt.
- Sinh ra trong một đô thị lớn
- Sinh ra trong một khu vực có đông dân nhập cư, nhiều trường hợp là con cái của dân nhập cư
- Sinh ra ở một địa điểm có specialization, ví dụ có truyền thống rất mạnh về một môn thể thao

Bạn chuyên gia IT nào thử làm cái này cho VN xem sao. Tôi đoán miền Trung sẽ tập trung nhiều nhân vật thành công/nổi tiếng.
http://www.nytimes.com/2014/03/23/opinion/sunday/the-geography-of-fame.html?ref=opinion&_r=0

7 comments:

  1. Cái này đúng là thú vị.
    Ở đây, 30% là art, entertainment, 29% là sport, là những thành phần mà ít người tốt nghiệp các đại học danh tiếng, còn academics chỉ 3%, law 2%, business 2% là thành phần mà tốt nghiệp đại học danh tiếng đóng vai trò quan trọng. Nên sự liên hệ trực tiếp giữa có đại học danh tiếng với việc dân vùng đó được lên wiki nhiều chưa thực sự thuyết phục.

    ReplyDelete
  2. Mà người miền Trung ít người giỏi trong lĩnh vực art và sport anh ạ, mà những lĩnh vực này hay được lên wiki.

    ReplyDelete
  3. Các tỷ lệ nói trên là cho Mỹ, VN chắc khác nhiều, anh đoán nhiều military and political celebrities. Cần phải có ai đó làm phân tích này cho VN.

    ReplyDelete
  4. Bui Chi Trung Chú có viết một cái XML parser giúp anh được không? Wikipedia cho phép download XML dump về phân tích.

    ReplyDelete
  5. XML parser có đầy trên mạng, chú thử tìm phần mềm XML SPY hoặc các phần mềm tương tự xem có đáp ứng yêu cầu của chú không. Nếu không đáp ứng thì phải viết XSL để lọc theo các yêu cầu cụ thể.
    Hiện thời anh khá bận nên không thể giúp chú được. Thông cảm!

    ReplyDelete
  6. OK, cám ơn chú anh sẽ tìm thử.

    ReplyDelete
  7. Có vẻ những nhận xét của ông này (ảnh hưởng của vị trí địa lý đến thành công) cũng na ná, gần gần như phân tích ảnh hướng của các yếu tố khác mà Malcolm Gladwell có nói đến trong cuốn Tipping Point http://www.amazon.com/The-Tipping-Point-Little-Difference/dp/0316346624

    ReplyDelete

Bitcoin II

http://kinhtetaichinh.blogspot.com/2018/01/bitcoin-ii.html